Текущий архив: 2011.05.29;
Скачать: CL | DM;
Вниз
Распознавание рукописных цифр. Найти похожие ветки
← →
GanibalLector © (2011-02-09 21:38) [0]Интересуюсь распознаванием рукописного текста (только цифры). Каждый символ уже сигментирован. Знаю, что есть готовые решения FlexiCapture, Cognitive Forms и прочие. Также знаю, что есть умные ребята, которые собственноручно делали подобное и достигали очень высокий результат распознавания (97%).
Вот, некий Горошкин А.Н. писал диссертацию на эту тему и даже запатентовал свои решения (Vectoryzator, SegPic). Но найти самого автора или его продукты не представляется возможным.
Пруфлинк:http://www.sibsau.ru/science/index2.php?option=com_docman&task=doc_view&gid=203&Itemid=94
Чем платить монстрам (ABBYY) предпочёл бы заплатить вот таким умным ребятам. Поддержать, так сказать, отечественного программиста. Ну, и дешевле чуток, вероятно, будет.
Надеюсь и жду: Talla2k@mail.ru
← →
Leonid Troyanovsky © (2011-02-09 21:49) [1]
> GanibalLector © (09.02.11 21:38)
> Чем платить монстрам (ABBYY) предпочёл бы заплатить вот
> таким умным ребятам. Поддержать, так сказать, отечественного
> программиста. Ну, и дешевле чуток, вероятно, будет.
Сомнительно, что дешевле.
И кровь могут попортить, IMHO, судя по тому, что даже
найти их проблемно.
--
Regards, LVT.
← →
TUser © (2011-02-09 21:49) [2]Спроси тут, наши эмигранты делали, так что отечественное все, раз уж так важно.
http://www.parascript.com/
← →
GanibalLector © (2011-02-09 21:52) [3]>И кровь могут попортить, IMHO
Понятно. Но я не собираюсь покупать кота в мешке. Естественно буду тестировать.
← →
Pavia © (2011-02-09 23:03) [4]
> которые собственноручно делали подобное и достигали очень
> высокий результат распознавания (97%).
Делается очень просто берется куча эталонов группируются по степени похожести. На группы разбиваются так чтобы символы были наиболее разнесены. А да этих групп надо брать много. Во общем все с водится к тому что чем больше эталонов для сравнения тем лучше распознавание, а остальное шелуха.
10 эталонов дает 10% ошибки. 15 уже 3-5%
20 порядка 1-0.5% 20-30 эталонов дает 0.5-0.05 дальше уже бесполезно
← →
GanibalLector © (2011-02-09 23:19) [5]Не всё так просто. Рукописный текст шаблонами обычно не распознают.
Насколько я понял, то лучше всего подходит волновое распознавание и последующее построение графа. И только после сравнение графа с эталонами (шаблонами).
Детали: http://www.ocrai.narod.ru/vectory.html
← →
Pavia © (2011-02-09 23:32) [6]
> Рукописный текст шаблонами обычно не распознают.
Распознают.
> Насколько я понял, то лучше всего подходит волновое распознавание
> и последующее построение графа. И только после сравнение
> графа с эталонами (шаблонами).
Это не важно что у вас там граф или по пиксельно или еще как. Важно то что эталонов надо много. А дальше уже как вы будете классифицировать свой символ это не важно, даже какие признаки выберете тоже не важно.
Выбор признаков дает стартовое приближение. И от этого зависит скорость алгоритма. Но если говорить о качестве, то оно в первую очередь зависит от числа эталонов.
Даже если вы хорошо выберете признаки оно вам более 80% не даст на 1 эталоне. А самое плохое дает 25-50%.
А да. С не привычки вы этого в алгоритме просто не увидите. Просто там будет куча красивых слов. А фундаментальную теорию не обманешь.
← →
GanibalLector © (2011-02-15 11:50) [7]Нашел таки автора той диссертации. Посмотрел на эти 97%.
Увы, но это говнокод. Там нет и 30% распознавания.
В программе куча ошибок:
-зависимость от DecimalSeparator;
-через 20 минут работы получаем AV;
-крайне неудачный и неудобный дизайн;
-аппроксимированная векторная модель часто строится неправильно;
-неправильная работа с "базой данных". В текстовый файл сохраняется много лишней информации;
- и много всего остального.
Не работает оно, короче (((
← →
brother © (2011-02-15 12:34) [8]а выдернуть из исходников нужное и поправить?
← →
Jeer © (2011-02-15 12:44) [9]
> Нашел таки автора той диссертации. Посмотрел на эти 97%.
>
>
> Увы, но это говнокод. Там нет и 30% распознавания.
Так у него была задача дисер написать и ктн стать - при чем тут работоспособность ? :)
← →
GanibalLector © (2011-02-15 12:50) [10]
> а выдернуть из исходников нужное и поправить?
Сабжа нет. Только ехе файл.
← →
Anatoly Podgoretsky © (2011-02-15 19:38) [11]> brother (15.02.2011 12:34:08) [8]
Переписать все нафиг? Я бы сказал нафиг
Страницы: 1 вся ветка
Текущий архив: 2011.05.29;
Скачать: CL | DM;
Память: 0.49 MB
Время: 0.021 c