распознание текста

← →
кондратий (2002-09-27 13:38) [0]

кто знает как это делаетса ???
хоть какиета идеи ...
может есть какиета библиотеки ... ???

← →
Smiths (2002-09-28 08:42) [1]

Одна из проблем искусственного интеллекта решается не за 2 дня - однозначно. Если сделаешь качественно - станешь конкурентом Fine Reader"у :) Смотри материал по нейросетям. Вообще глянь сюда - http://alife-soft.narod.ru/project/text_recognize/text_recognize.html

← →
Владимир Васильев © (2002-10-02 12:29) [2]

или сюда http://www.dontveter.com/basisofai/basisofai.html

← →
Кен (2002-10-03 04:20) [3]

Идеи можно высказать ...
Помоему тут не проблема искусственного интеллекта, а проблема быстрого нахождения похожих картинок.

Дано :
1. Маленькие картинки с нарисованными на них буквами алфавита.
2. Большая картинка со страницей отсканированного текста.

Если бы кто-нибудь написал быстрый алгоритм нахождения пункта 1 в пункте 2, с заданной точностью совпадения, то проблема была бы решена.

Тогда бы последовательно задавались всё меньшие и меньшие точности совпадения пока весь текст не был бы распознан.

Точность совпадения это понятие давольно ёмкое. Картинка может иметь пропуски точек, может быть растянута или сжата, сдвинута как курсив, слегка повёрнута. Поэтому написать быстрый алгоритм очень не просто.

← →
KA_ (2002-10-03 16:02) [4]

2 Кен
Это тоже проблема ИИ.
2 Кондратий
Я раньше этим занимался. Если интересно давай в мыло kavlad@freemail.ru

← →
Кен ( дикое Кенгуру ) (2002-10-04 01:33) [5]

2 KA_
>Это тоже проблема ИИ.
Не согласен. В чём тут интеллект ? Проблема только в отсутствии библиотек для приближённого сравнения графики.

Ну например как с текстом эта проблема развиваеться :
Есть функция поиска подстроки в строке текста. Но нет функции поиска приближённой подстроки. Прошло время и придумали поиск по шаблону, регулярные выражения, чтобы выкрутиться. Но пока широкого расспространения это не получило, и недостаточно хорошо и быстро реализовано. Нажмите Ctrl+F и вы увидете только точный поиск, а никак не приближённый.

С графикой дело ещё хуже. Тут нет функций даже для точного поиска одной картинки в другой. Где уж там до шаблонов, и регулярных выражений. Со временем это конечно будет сделано. И думаю, что всё будет развиваться примерно как и с текстом, Но пройдут годы ... Очень жаль.

Так, что хочешь получить то, что называешь "ИИ", пиши функции приближённого поиска :)

← →
KA_ (2002-10-04 11:13) [6]

2 Кен
Может быть я не прав, но по-моему ИИ имеет мало общего с интеллектом, и что вообще есть интеллект - есть масса определений. Но это уже политика и философия. А функции для анализа изображений есть. Разработан мощный матаппарат. Правда конкретные реализации далеки от идеала, если хотеть от них чего-то глобального. Правильней строить узкоспециализированные системы - и они создаются и решают свои задачи при заданных условиях: разбор схем и планов местности, системы наведения баллистических ракет, тотже FineReader, а как тебе аутентикация и идентификация человека по фотографии, или по глазам, или по подписи, а роботы-конвейеры - это ж вообще анализ трехмерных сцен.
Большая проблема в том, что исходное изображение надо долго и сложно обрабатывать, чтобы результат был нормальным. Плюс еще много времени уйдет на подготовку библиотеки шаблонов (если немного отвлечься от текста).
Правильно (для программиста) еще использовать форматы хранения графики, кот. дают пирамидальное представления изображения. Задача при этом несколько упрощается.
Да я хотел и хочу получить ИИ, жаль только в сутках не 128 часов, а приближенный поиск - это чистая статистика, обточенная и заточенная под конкретную задачу, плюс несколько сотен тысяч экспериментов для подгонки параметров системы.

← →
KA_ (2002-10-04 11:44) [7]

Кстати находил недавно компонент Delphi для этого самого поиска картинки в другой картинке. Но ссылки нет.

← →
Ru © (2002-10-04 13:27) [8]

Для интересующихся существует наука "Распознавание образов".
Если для вас слова преобразование Гильберта, кореляция не новы, то в свое время я делал так:
1 - двумерное преобразование Гильберта
2 - вычисление лучевой суммы
3 - вычисление кореляции полученного значения с эталонным
Я, да в общем вся группа :) делали это в среде технического программирования Mathlab 5.2. Если разбираетесь в Mathlab могу выслать свои програмки. :)

Для простоты можно сделать следующее:
1 - храним картинку в хорошем качестве вашей буквы - это эталон
2 - получаем отсканированный текст в виде графического файла
3 - копируем из отсканированной картинки фрагменты такого размера, чтоб в них влазила ровно одна буква
4 - определяем взаимную кореляцию (можно сравнивать окраску каждой точки эталона и неизвестного изображения) для полученого изображения со всеми изображениями эталона :))
5 - зная какая буква в каком эталоне можно сказать какая буква на входе по тому, с каким эталоном кореляция максимальна
Возникают проблемы при:
- на входе цветное изображение, а в эталоне черно-белое
- наличии картинки на изображении (вы получите букву, но вот какую :) и в какое слово потом это выльется :) )
- необходимо учесть все буквы всех алфавитов, а кореляция очень длительная процедура
- проблемы с чтением формул

04.10.2002

← →
KA_ (2002-10-04 14:17) [9]

2 Ru
> Возникают проблемы при:
Так на это и существует предобработка, ведь все равно будешь картинку фильтровать (очищать от шума и т.п.)
> - на входе цветное изображение, а в эталоне черно-белое
Если применить какое-нибудь хитрое преобразование (напр. Хоуга) то цвет не будет так сильно влиять, но эталоны могут очень сложно описываться и математика там должна быть могучая.
> - наличии картинки на изображении
А вот тут можно попробывать формат с пирамидальной структурой и отсеять картинку от текста по простым признакам.
> - необходимо учесть все буквы всех алфавитов...
Вот появится скоро Интел Шестиум :)))
Можно вести статистику попадания распознанных букв в словарь конкретного языка и при превышении порога искать только в этом языке, а неопознанные символы откладывать на потом и повторять эту процедуру.
Корреляция по-моему не процедура, а функция :)))
Можно выбрать функцию "хорошего" вида, напр. использовать быстрое преобразование Фурье и оценивать частотные характеристики (кто-то делал так при распознавании значков на карте).

← →
Ru © (2002-10-04 16:41) [10]

КА_ спасибо за точные замечания, но я не знаю что знает кондратий.
Проще говоря с цветом можно боротьсь без хитрых функций: вытянув один из цветов (максимальное значение любого цвета 0хFF), просто убив все цвета на распознаваемом изображении (преобразовав в оттенки серого, или черно-белое).
Интел Шестиум :)) наверняка хорошая штука но ждать пока он появится, да к тому же уже сейчас есть прекрасно работающие ситемы распознавания текстов даже на Pentium I.
Откладывать на потом нельзя лучше отсчитать несколько символов, что они попали в один словарь, и пользовать только этот словарь, а если в словаре нет нужной буквы подключать все. Ну и вариации, это уже на совети реализатора :).
Можно много чего сделать, например если распознавать не в автоматическом режиме, а просто забить программе какие области надо распознавать, а какие вставить в конечный документ без изменений (вручную), то и проблем с картинками не возникнет.

← →
KA_ (2002-10-04 17:55) [11]

2 Ru
С цветом по-моему бороться такими методами не стоит (точнее не стоит в сложных случаях). В реальных задачах цвет может смешиваться с объектами - например пестрый фон, на кот. расположен текст. Переход к оттенкам серого не отсеет фон, а к черно-белому перевести относительно легко только если текст имеет один цвет и значительно отличающийся от остальных объектов. А вот хитрые преобразования позволяют сделать это проще и быстрее.
Вручную указывать области не всегда удается :)
Но конечно если взять просто лист текста, отпечатанного одним шрифтом на хорошем принтере, отсканировать на хорошем сканере, то результат получить можно хороший и без больших затрат :)

← →
novarm44 (2002-10-07 00:55) [12]

Я немного в этой области работал, правда распознавались образы из фотографий для последующего вырезания на станке. Все делалось через кривые.
Думаю сначала надо создать образ из кривых, таким образом на пару порядков сузить круг поиска и определить приблизительно размер шрифта, а потом уже сравнивать логические матрицы (черно-белые картинки).
А конкуренцию FineReader"у составить таким образом практически невозможно, т.к. программа хорошая и уже раскрученная плюс над ней не один десяток людей годами трудился!

http://www.novarm.com

кондратий если ты жив (ветку начал и похоже не следишь за ней) сформулируй конкретную задачу

← →
KA_ (2002-10-17 13:36) [14]

Всем интерисующимся очень рекомендую перед сном (или вместо :) ) Intel Computer Vision Library. Ссылку я уже приводил на этом форуме.

распознание текста Найти похожие ветки