Расспознавание текста ....

← →
АндрейП (2002-04-09 14:04) [0]

Нет ли у кого алгоритма рассмознавания русско-английского текста из графических файлов (конкретно расспознавание факсовых сообщений)

← →
Mystic (2002-04-09 23:32) [1]

Могу предложить только эвристический метод (для печатного текста), о котором я когда-то думал, но его не реализовывал.

Для каждой буквы выполняется проекция по оси Ox, и по оси Oy. В результате получаем две функции (набор чисел по вертикали и горизонтали).

<PRE>
................ 0
........W....... 1
.......WWW...... 3
......WW.WW..... 4
......WW.WW..... 4
.....WW...WW.... 4
.....WW...WW.... 4
....WW.....WW... 4
....WWWWWWWWW... 9
...WWWWWWWWWWW.. 11
...WW.......WW.. 4
..WW.........WW. 4
................ 0
0013456545654310
</PRE>

Только надо еще определить наклон буквы (его проще определить по строке в целом), и сканирование линий производить под указанным наклоном. После чего перевести все в относительные единицы и найти наиболее подходящий из заданных шаблонов.

← →
MBo (2002-04-09 23:55) [2]

японский кроссворд ;)

← →
Mystic (2002-04-10 01:00) [3]

................ 0 ........W....... 1 .......WWW...... 3 ......WW.WW..... 4 ......WW.WW..... 4 .....WW...WW.... 4 .....WW...WW.... 4 ....WW.....WW... 4 ....WWWWWWWWW... 9 ...WWWWWWWWWWW.. 11 ...WW.......WW.. 4 ..WW.........WW. 4 ................ 0 0013456545654310

Так красивее

← →
arbiter (2002-04-16 21:41) [4]

Тебе батенька прямая дорога в нейро-алгоритмы. Благо ничего сложного особо там нету.

← →
INNOCHENTI (2002-04-20 23:34) [5]

можно проверять каждый пиксель(учитывая что буква,допустим, желтого цвета и шрифт Х и размер 10)и проверяя проверять если пиксель желтого цвета, если да,=> занести в массив. А потом в полученном масиве проверять на масски(BitBln). Когда-то использывал сам.

← →
Vladimir_Zhuravlev (2002-09-30 18:04) [6]

Андрей! Если ты нашел ответ на свой вопрос, скинь плз на мыло.
Буду весьма благодарен!!!

← →
KA_ (2002-10-06 16:01) [7]

2 АндрейП:
Алгоритмов очень много, хотя принцип тебе подсказали - сравнение с эталоном. Сложность реализации зависит от того какой у тебя факс :) то есть от качества изображения текста, кот. хочется распознать. Может потребоваться достаточно сложная обработка - повышение качества исходного изображения, поиск текста среди всего другого и т.п. К тому же это весьма ресурсоемкий процесс - происходит медленно. Но если документы можно описать какими-нибудь шаблонами (чтобы заранее было известно, что в таком-то и таком-то месте будет текст) то задача упростится. А сравнение лучше не производить эвристическими алгоритмами (алгоритм предложенный Mystic неустойчив к искажениям текста и применим в самом простом случае - 2 Mystic - sorry :) ), для этого разработан весьма мощный матаппарат. В media недавно поднималась эта тема - там есть ссылки. Но боюсь, если качество изображения не очень хорошее, без влезания в математику не обойтись.
2 arbiter:
Я бы так не сказал.
2 Vladimir_Zhuravlev:
Над этим вопросом бъются целые институты. Полный ответ пока не найден :)

← →
Ru (2002-11-14 15:20) [8]

если вас еще это интересует:
1 предварительная обработка:
1.1 очистка от шумов
1.2 применение какого-либо преобразования (Хильберта например)
1.3 получения массива характерных точек
2 сравнение с эталоном полученого тем же методом, но при создании эталона должна использоваться картинка без шумов
3 выдача результата

использование нейросетевых алгоритмов громоздко и сложновычисляемо и требует много времени (для 10 буквенного алфавита на обучение было потрачено 3 часа)

← →
KA_ (2002-11-14 16:59) [9]

Верно на счет нейроалгоритмов. Хотя можно и их использовать.
А вот Ваш алгоритм использовать несколько затруднительно :) уж больно глобально.

← →
Ru (2002-11-15 12:04) [10]

>KA_ (14.11.02 16:59)

я использовал и без проблем на Матлабе очень неплохо 10 букв обрабатывается что-то за пол минуты на 1-м пне.

← →
k (2002-11-15 14:24) [11]

а что такое преобразование Хилберта? в яндексе ничего не нашел...

← →
Ru (2002-11-15 16:10) [12]

извините: Гильберта (Hilbert)

← →
KA_ (2002-11-17 18:44) [13]

2 Ru:
Я несколько другое имел в виду - каждый из пунктов Вашего алгоритма можно реализовать миллионом способов :)

← →
Ru (2002-11-18 15:19) [14]

>KA_ (17.11.02 18:44)

согласен для этого существует наука "Распознавание образов", но я дал совет тае как я знаю, как делал и как работало(кстати неплохо).

Расспознавание текста .... Найти похожие ветки