Распознавание рукописных цифр.

← →
GanibalLector © (2011-02-09 21:38) [0]

Интересуюсь распознаванием рукописного текста (только цифры). Каждый символ уже сигментирован. Знаю, что есть готовые решения FlexiCapture, Cognitive Forms и прочие. Также знаю, что есть умные ребята, которые собственноручно делали подобное и достигали очень высокий результат распознавания (97%).

Вот, некий Горошкин А.Н. писал диссертацию на эту тему и даже запатентовал свои решения (Vectoryzator, SegPic). Но найти самого автора или его продукты не представляется возможным.
Пруфлинк:http://www.sibsau.ru/science/index2.php?option=com_docman&task=doc_view&gid=203&Itemid=94

Чем платить монстрам (ABBYY) предпочёл бы заплатить вот таким умным ребятам. Поддержать, так сказать, отечественного программиста. Ну, и дешевле чуток, вероятно, будет.

Надеюсь и жду: Talla2k@mail.ru

← →
Leonid Troyanovsky © (2011-02-09 21:49) [1]

> GanibalLector © (09.02.11 21:38)

> Чем платить монстрам (ABBYY) предпочёл бы заплатить вот
> таким умным ребятам. Поддержать, так сказать, отечественного
> программиста. Ну, и дешевле чуток, вероятно, будет.

Сомнительно, что дешевле.

И кровь могут попортить, IMHO, судя по тому, что даже
найти их проблемно.

--
Regards, LVT.

← →
TUser © (2011-02-09 21:49) [2]

Спроси тут, наши эмигранты делали, так что отечественное все, раз уж так важно.

http://www.parascript.com/

← →
GanibalLector © (2011-02-09 21:52) [3]

>И кровь могут попортить, IMHO

Понятно. Но я не собираюсь покупать кота в мешке. Естественно буду тестировать.

← →
Pavia © (2011-02-09 23:03) [4]

> которые собственноручно делали подобное и достигали очень
> высокий результат распознавания (97%).

Делается очень просто берется куча эталонов группируются по степени похожести. На группы разбиваются так чтобы символы были наиболее разнесены. А да этих групп надо брать много. Во общем все с водится к тому что чем больше эталонов для сравнения тем лучше распознавание, а остальное шелуха.

10 эталонов дает 10% ошибки. 15 уже 3-5%
20 порядка 1-0.5% 20-30 эталонов дает 0.5-0.05 дальше уже бесполезно

← →
GanibalLector © (2011-02-09 23:19) [5]

Не всё так просто. Рукописный текст шаблонами обычно не распознают.

Насколько я понял, то лучше всего подходит волновое распознавание и последующее построение графа. И только после сравнение графа с эталонами (шаблонами).

Детали: http://www.ocrai.narod.ru/vectory.html

← →
Pavia © (2011-02-09 23:32) [6]

> Рукописный текст шаблонами обычно не распознают.

Распознают.

> Насколько я понял, то лучше всего подходит волновое распознавание
> и последующее построение графа. И только после сравнение
> графа с эталонами (шаблонами).

Это не важно что у вас там граф или по пиксельно или еще как. Важно то что эталонов надо много. А дальше уже как вы будете классифицировать свой символ это не важно, даже какие признаки выберете тоже не важно.

Выбор признаков дает стартовое приближение. И от этого зависит скорость алгоритма. Но если говорить о качестве, то оно в первую очередь зависит от числа эталонов.
Даже если вы хорошо выберете признаки оно вам более 80% не даст на 1 эталоне. А самое плохое дает 25-50%.

А да. С не привычки вы этого в алгоритме просто не увидите. Просто там будет куча красивых слов. А фундаментальную теорию не обманешь.

← →
GanibalLector © (2011-02-15 11:50) [7]

Нашел таки автора той диссертации. Посмотрел на эти 97%.

Увы, но это говнокод. Там нет и 30% распознавания.
В программе куча ошибок:
-зависимость от DecimalSeparator;
-через 20 минут работы получаем AV;
-крайне неудачный и неудобный дизайн;
-аппроксимированная векторная модель часто строится неправильно;
-неправильная работа с "базой данных". В текстовый файл сохраняется много лишней информации;
- и много всего остального.

Не работает оно, короче (((

← →
brother © (2011-02-15 12:34) [8]

а выдернуть из исходников нужное и поправить?

> Нашел таки автора той диссертации. Посмотрел на эти 97%.
>
>
> Увы, но это говнокод. Там нет и 30% распознавания.

Так у него была задача дисер написать и ктн стать - при чем тут работоспособность ? :)

> а выдернуть из исходников нужное и поправить?

Сабжа нет. Только ехе файл.

> brother (15.02.2011 12:34:08) [8]

Переписать все нафиг? Я бы сказал нафиг

Распознавание рукописных цифр. Найти похожие ветки