Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2011.05.29;
Скачать: CL | DM;

Вниз

Распознавание рукописных цифр.   Найти похожие ветки 

 
GanibalLector ©   (2011-02-09 21:38) [0]

Интересуюсь распознаванием рукописного текста (только цифры). Каждый символ уже сигментирован. Знаю, что есть готовые решения FlexiCapture, Cognitive Forms и прочие. Также знаю, что есть умные ребята, которые собственноручно делали подобное и достигали очень высокий результат распознавания (97%).

Вот, некий Горошкин А.Н. писал диссертацию на эту тему и даже запатентовал свои решения (Vectoryzator, SegPic). Но найти самого автора или его продукты не представляется возможным.  
Пруфлинк:http://www.sibsau.ru/science/index2.php?option=com_docman&task=doc_view&gid=203&Itemid=94

Чем платить монстрам (ABBYY) предпочёл бы заплатить вот таким умным ребятам. Поддержать, так сказать, отечественного программиста. Ну, и дешевле чуток, вероятно, будет.

Надеюсь и жду: Talla2k@mail.ru


 
Leonid Troyanovsky ©   (2011-02-09 21:49) [1]


> GanibalLector ©   (09.02.11 21:38)

> Чем платить монстрам (ABBYY) предпочёл бы заплатить вот
> таким умным ребятам. Поддержать, так сказать, отечественного
> программиста. Ну, и дешевле чуток, вероятно, будет.

Сомнительно, что дешевле.

И кровь могут попортить, IMHO, судя по тому, что даже
найти их проблемно.

--
Regards, LVT.


 
TUser ©   (2011-02-09 21:49) [2]

Спроси тут, наши эмигранты делали, так что отечественное все, раз уж так важно.

http://www.parascript.com/


 
GanibalLector ©   (2011-02-09 21:52) [3]

>И кровь могут попортить, IMHO

Понятно. Но я не собираюсь покупать кота в мешке. Естественно буду тестировать.


 
Pavia ©   (2011-02-09 23:03) [4]


> которые собственноручно делали подобное и достигали очень
> высокий результат распознавания (97%).

Делается очень просто берется куча эталонов группируются  по степени похожести. На группы разбиваются так чтобы символы были наиболее разнесены. А да этих групп надо брать много. Во общем все с водится к тому что чем больше эталонов для сравнения тем лучше распознавание, а остальное шелуха.

10 эталонов дает 10% ошибки. 15 уже 3-5%
20 порядка 1-0.5% 20-30 эталонов дает 0.5-0.05 дальше уже бесполезно


 
GanibalLector ©   (2011-02-09 23:19) [5]

Не всё так просто. Рукописный текст шаблонами обычно не распознают.

Насколько я понял, то лучше всего подходит волновое распознавание и последующее построение графа. И только после сравнение графа с эталонами (шаблонами).

Детали: http://www.ocrai.narod.ru/vectory.html


 
Pavia ©   (2011-02-09 23:32) [6]


> Рукописный текст шаблонами обычно не распознают.

Распознают.


>  Насколько я понял, то лучше всего подходит волновое распознавание
> и последующее построение графа. И только после сравнение
> графа с эталонами (шаблонами).

Это не важно что у вас там граф или по пиксельно или еще как. Важно то что эталонов надо много. А дальше уже как вы будете классифицировать свой символ это не важно, даже какие признаки выберете тоже не важно.

Выбор признаков дает стартовое приближение. И от этого зависит скорость алгоритма. Но если говорить о качестве, то оно в первую очередь зависит от числа эталонов.  
Даже если вы хорошо выберете признаки оно вам более 80% не даст на 1 эталоне.  А самое плохое дает 25-50%.

А да. С не привычки вы этого в алгоритме просто не увидите. Просто там будет куча красивых слов. А фундаментальную теорию не обманешь.


 
GanibalLector ©   (2011-02-15 11:50) [7]

Нашел таки автора той диссертации. Посмотрел на эти 97%.

Увы, но это говнокод. Там нет и 30% распознавания.
В программе куча ошибок:
-зависимость от DecimalSeparator;
-через 20 минут работы получаем AV;
-крайне неудачный и неудобный дизайн;
-аппроксимированная векторная модель часто строится неправильно;
-неправильная работа с "базой данных". В текстовый файл сохраняется много лишней информации;
- и много всего остального.

Не работает оно, короче (((


 
brother ©   (2011-02-15 12:34) [8]

а выдернуть из исходников нужное и поправить?


 
Jeer ©   (2011-02-15 12:44) [9]


> Нашел таки автора той диссертации. Посмотрел на эти 97%.
>
>
> Увы, но это говнокод. Там нет и 30% распознавания.


Так у него была задача дисер написать и ктн стать - при чем тут работоспособность ? :)


 
GanibalLector ©   (2011-02-15 12:50) [10]


> а выдернуть из исходников нужное и поправить?


Сабжа нет. Только ехе файл.


 
Anatoly Podgoretsky ©   (2011-02-15 19:38) [11]

> brother  (15.02.2011 12:34:08)  [8]

Переписать все нафиг? Я бы сказал нафиг



Страницы: 1 вся ветка

Текущий архив: 2011.05.29;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.021 c
15-1297716299
Mark
2011-02-14 23:44
2011.05.29
Слонение топонимов для украинского языка


3-1259929546
12
2009-12-04 15:25
2011.05.29
Никто не пробовал свое окно из расширенной процедуры показать?


15-1297459801
Юрий
2011-02-12 00:30
2011.05.29
С днем рождения ! 12 февраля 2011 суббота


15-1297577350
AlexDn
2011-02-13 09:09
2011.05.29
html, iframe


1-1255352771
aeore
2009-10-12 17:06
2011.05.29
Распределение памяти ( Зависает send() )