Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Игры";
Текущий архив: 2003.04.17;
Скачать: [xml.tar.bz2];

Вниз

Расспознавание текста ....   Найти похожие ветки 

 
АндрейП   (2002-04-09 14:04) [0]

Нет ли у кого алгоритма рассмознавания русско-английского текста из графических файлов (конкретно расспознавание факсовых сообщений)


 
Mystic   (2002-04-09 23:32) [1]

Могу предложить только эвристический метод (для печатного текста), о котором я когда-то думал, но его не реализовывал.

Для каждой буквы выполняется проекция по оси Ox, и по оси Oy. В результате получаем две функции (набор чисел по вертикали и горизонтали).

<PRE>
................ 0
........W....... 1
.......WWW...... 3
......WW.WW..... 4
......WW.WW..... 4
.....WW...WW.... 4
.....WW...WW.... 4
....WW.....WW... 4
....WWWWWWWWW... 9
...WWWWWWWWWWW.. 11
...WW.......WW.. 4
..WW.........WW. 4
................ 0
0013456545654310
</PRE>

Только надо еще определить наклон буквы (его проще определить по строке в целом), и сканирование линий производить под указанным наклоном. После чего перевести все в относительные единицы и найти наиболее подходящий из заданных шаблонов.


 
MBo   (2002-04-09 23:55) [2]

японский кроссворд ;)


 
Mystic   (2002-04-10 01:00) [3]


................ 0
........W....... 1
.......WWW...... 3
......WW.WW..... 4
......WW.WW..... 4
.....WW...WW.... 4
.....WW...WW.... 4
....WW.....WW... 4
....WWWWWWWWW... 9
...WWWWWWWWWWW.. 11
...WW.......WW.. 4
..WW.........WW. 4
................ 0
0013456545654310


Так красивее


 
arbiter   (2002-04-16 21:41) [4]

Тебе батенька прямая дорога в нейро-алгоритмы. Благо ничего сложного особо там нету.


 
INNOCHENTI   (2002-04-20 23:34) [5]

можно проверять каждый пиксель(учитывая что буква,допустим, желтого цвета и шрифт Х и размер 10)и проверяя проверять если пиксель желтого цвета, если да,=> занести в массив. А потом в полученном масиве проверять на масски(BitBln). Когда-то использывал сам.


 
Vladimir_Zhuravlev   (2002-09-30 18:04) [6]

Андрей! Если ты нашел ответ на свой вопрос, скинь плз на мыло.
Буду весьма благодарен!!!


 
KA_   (2002-10-06 16:01) [7]

2 АндрейП:
Алгоритмов очень много, хотя принцип тебе подсказали - сравнение с эталоном. Сложность реализации зависит от того какой у тебя факс :) то есть от качества изображения текста, кот. хочется распознать. Может потребоваться достаточно сложная обработка - повышение качества исходного изображения, поиск текста среди всего другого и т.п. К тому же это весьма ресурсоемкий процесс - происходит медленно. Но если документы можно описать какими-нибудь шаблонами (чтобы заранее было известно, что в таком-то и таком-то месте будет текст) то задача упростится. А сравнение лучше не производить эвристическими алгоритмами (алгоритм предложенный Mystic неустойчив к искажениям текста и применим в самом простом случае - 2 Mystic - sorry :) ), для этого разработан весьма мощный матаппарат. В media недавно поднималась эта тема - там есть ссылки. Но боюсь, если качество изображения не очень хорошее, без влезания в математику не обойтись.
2 arbiter:
Я бы так не сказал.
2 Vladimir_Zhuravlev:
Над этим вопросом бъются целые институты. Полный ответ пока не найден :)


 
Ru   (2002-11-14 15:20) [8]

если вас еще это интересует:
1 предварительная обработка:
1.1 очистка от шумов
1.2 применение какого-либо преобразования (Хильберта например)
1.3 получения массива характерных точек
2 сравнение с эталоном полученого тем же методом, но при создании эталона должна использоваться картинка без шумов
3 выдача результата

использование нейросетевых алгоритмов громоздко и сложновычисляемо и требует много времени (для 10 буквенного алфавита на обучение было потрачено 3 часа)


 
KA_   (2002-11-14 16:59) [9]

Верно на счет нейроалгоритмов. Хотя можно и их использовать.
А вот Ваш алгоритм использовать несколько затруднительно :) уж больно глобально.


 
Ru   (2002-11-15 12:04) [10]

>KA_ (14.11.02 16:59)

я использовал и без проблем на Матлабе очень неплохо 10 букв обрабатывается что-то за пол минуты на 1-м пне.


 
k   (2002-11-15 14:24) [11]

а что такое преобразование Хилберта? в яндексе ничего не нашел...


 
Ru   (2002-11-15 16:10) [12]

извините: Гильберта (Hilbert)


 
KA_   (2002-11-17 18:44) [13]

2 Ru:
Я несколько другое имел в виду - каждый из пунктов Вашего алгоритма можно реализовать миллионом способов :)


 
Ru   (2002-11-18 15:19) [14]

>KA_ (17.11.02 18:44)

согласен для этого существует наука "Распознавание образов", но я дал совет тае как я знаю, как делал и как работало(кстати неплохо).



Страницы: 1 вся ветка

Форум: "Игры";
Текущий архив: 2003.04.17;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.48 MB
Время: 0.008 c
14-54850
Delirium^.Tremens
2003-04-01 09:24
2003.04.17
Пожар! Пожар!


1-54614
Rradion
2003-04-07 17:11
2003.04.17
Если надо из пети ЛистБоксов всё выложить в Массив...


7-54899
bon
2003-02-20 11:26
2003.04.17
Работа с COM портом


1-54586
Мыш
2003-04-06 02:21
2003.04.17
Параметры командной строки в BorgTv


1-54672
Тимохов
2003-04-04 15:53
2003.04.17
Господа, пользующиеся Д7.





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский