Работа с текстом

← →
Morgan128 (2003-12-18 17:14) [0]

Подскажите пожалуйста, кто знает, как организовать распознание выделенного фрагмента печатного текста, введённого в качестве изображения. Пригодятся формулы, образцы программ, примеры - в общем всё.

← →
Ega23 © (2003-12-18 17:20) [1]

> введённого в качестве изображения

Это в смысле что-то типа ScreenShot"а?

← →
Amoeba © (2003-12-18 17:21) [2]

Хочешь написать собственный распознаватель текста? Не берись, это задачка по зубам только команде специалистов в разных областях знания, а не только программистов. Об одиночке речи нет.

← →
Ega23 © (2003-12-18 17:25) [3]

Amoeba дело говорит. Нам в универе распознавание образов читали, там методов одних штук ...дцать будет, а математики в каждом наворочено - ужас. Не, конечно попробовать поизголяться можно, только хлопотно больно.

← →
Amoeba © (2003-12-18 17:34) [4]

Здесь еще желательна и лингвистическая подготовка, поскольку тексты распознавать...

← →
Ega23 © (2003-12-18 17:37) [5]

> Здесь еще желательна и лингвистическая подготовка, поскольку
> тексты распознавать...

О, и это тоже.
Вобщем, гнилое это дело.

← →
Amoeba © (2003-12-18 17:43) [6]

Немного бальзама на раны.
1. Использовать FineReader как сервер автоматизации (является ли он таковым, не знаю).
2. Если это ScкeenShot текста, выведеного простеньким моноширинным шрифтом то можно изрядно попотев сделать программу, распознающую текст путем сравнения участков площадью в одно знакоместо с шаблонами символов этого шрифта. Только зачем? Проку от этого будет немного. Как говорится, все равно что свинью стричь: визгу много - шерсти мало.

← →
me (2003-12-18 17:51) [7]

Существуют графические пакеты, имеющие встроенные функции OCR, например, LeadTools.

← →
Amoeba © (2003-12-18 18:05) [8]

Только вот они не бесплатные, причем ой как дорогие!

← →
me (2003-12-18 18:18) [9]

А FineReader уже даром раздают? ABBY ведет очень крутую ценовую политику при лицензировании OCR-движка! Все-таки у них качество OCR-а самое лучшее, вот и ведут себя жестко.

← →
Morgan128 (2003-12-18 18:24) [10]

Тут фигня такая, что надо самому написать. Сравнение может использовать? То, что математики много, мы уже знаем, в это и уперлись.

← →
Morgan128 (2003-12-18 18:26) [11]

Кстати изображение можно получать как ScreenShot, а можно и со сканера, фото- видеокамеры, пофигу. Распознать надо...

← →
Amoeba © (2003-12-18 18:27) [12]

Между прочим, то, что предлагает LeadTools дороже чем FineReader

← →
Morgan128 (2003-12-18 18:31) [13]

Кстати, а распознаванием образов ни кто не занимался?

> Morgan128 (18.12.03 18:26) [11]
> Кстати изображение можно получать как ScreenShot, а можно
> и со сканера, фото- видеокамеры, пофигу. Распознать надо...

Что есть несколько "больших разниц" и соответственно окажется не совсем пофигу
Вобщем забей на это тухлое дело - самому писать распознаватель - до морковиного заговенья будешь корячиться.
Пиратский FineReader, пока что вешь доступная. Так что можно попытаться повозиться с ним как с сервером автоматизации.

← →
me (2003-12-18 18:35) [15]

Никто и не говорит, что нужно платить за LeadTools только ради OCR. Но если нужно много работать с графикой и в том числе OCR-ить...

← →
Morgan128 (2003-12-18 19:09) [16]

Если забивать на это, то будет очень жалко. Ладно, а по поводу математики распознавания можете посоветовать ссылки, книги?

← →
me (2003-12-18 19:39) [17]

Character Recognition
http://web.mit.edu/stanrost/www/cs585p1/p1.html
Optical Character Recognition: Journal and Conference Papers
http://ipml.ee.duth.gr/~papamark/OCR.html

Character Recognition
http://www.cedar.buffalo.edu/Publications/TechReps/OCR/ocr.html

OCR/ICR Documents
www.alumni.caltech.edu/~dave/patothr.html

Character Recognition by Feature Point Extraction
www.ccs.neu.edu/home/feneric/charrec.html

Document Understanding and Character Recognition WWW Server
http://documents.cfar.umd.edu

Chapter 8, Optical Character Recognition, pp. 275-304
Chapter 9, Symbol Recognition, pp. 305-356
Algorithms for Image Processing and Computer Vision

Geometry in Action
www.ics.uci.edu/~eppstein/gina/char.html

http://solair.eunet.yu/~ilicv/ocr.html

Или с другого конца поступить. Построить нейросеть - уж не знаю легче ли это и самостоятельно ее учить на разных шрифтах. Потом она сама сможет. Только это тоже не просто.

Работа с текстом Найти похожие ветки