Распознать рукописный текст (преимущественно цифры)

← →
Артем Билецкий (2013-11-25 19:01) [0]

Кто-нибудь в курсе как сделать? Может, что готовое есть (платное/бесплатное). Компоненты, библиотеки, да что угодно.

Спасибо

← →
brother © (2013-11-25 19:38) [1]

fine reader с задачей справляется?

← →
все арамисы, а я Дартаньян (2013-11-25 21:07) [2]

> Кто-нибудь в курсе как сделать? Может, что готовое есть
> (платное/бесплатное). Компоненты, библиотеки, да что угодно.
Та там всё просто… Очищаем от высокочастотного шума, сегментируем, строим скелетную модель (методом выгорания, к примеру), отбрасываем конечные сегменты, загоняем в классификатор… *сатанинский смех*

← →
все арамисы, а я Дартаньян (2013-11-25 21:09) [3]

а вообще у файн-ридера был ком-интерфейсец, который всё это позволяет. вот буквально так, вызовом четырёх процедур. только там какие-то злые ограничения были в десктопной версии.

← →
RDen © (2013-11-25 21:38) [4]

> Артем Билецкий (25.11.13 19:01)
>
> Кто-нибудь в курсе как сделать?

нобелевскую хочешь получить?

← →
KilkennyCat © (2013-11-25 21:56) [5]

> преимущественно цифры

во-первых, если даже хоть одна буква - то уже пофиг "преимущественно".
во-вторых, римский цифры - буквенны
в-третьих, общему алгоритму пофиг, что распознавать.

> да что угодно.

с каждым сканером в комплекте дпется версия какой-нить программы.
ну и напоследок: http://lmgtfy.com/?q=ocr

← →
RDen © (2013-11-25 22:14) [6]

> KilkennyCat © (25.11.13 21:56) [5]
>
>
> > преимущественно цифры

а под цифрами, наверно ещё и числа подразумеваются...

← →
robt5 (2013-11-25 22:43) [7]

в винде какбы есть рукописный ввод уже давно и соответствующие интерфейсы

← →
все арамисы, а я Дартаньян (2013-11-25 23:03) [8]

> в винде какбы есть рукописный ввод уже давно и соответствующие
> интерфейсы
рукописный ввод и распознавание сканов — это очень разные задачи. а что нужно топикстартеру, пока неясно.

← →
Person © (2013-11-26 00:47) [9]

Сложно и дорого.

Из всех виденных мною решений с рукописным лучше всех справляется параскрипт. Если писатель может попадать в ячейку, то можно достичь весьма неплохих результатов (даже 99%, для чисел).

http://www.parascript.com

Тоже самое, но на русском: http://idr.in.ua
В картинках: http://idr.in.ua/info/scheme-formxtra.html

← →
Артем Билецкий (2013-11-26 11:45) [10]

1. FN не справляется. Пробовал
2. Распознавание сканов (документов, которые будут отсканированы)
3. Числа (0..999)

← →
брат Птибурдукова (2013-11-26 12:14) [11]

> 1. FN не справляется. Пробовал
FN — это Fine Reader?
Попробуй ещё Abbyy Form Reader. После настройки "поле числовое" и "заполнял русский" процент успешных распознаваний сильно вырастет.

← →
Артем Билецкий (2013-11-26 12:26) [12]

> Попробуй ещё Abbyy Form Reader.

Снят с поддержки по описанию. На счет "сильно выростает". Можно подробнее? Насколько сильно?

← →
брат Птибурдукова (2013-11-26 12:44) [13]

Ну на курсах распознавание "просто каких-то закорючек" давало около 20% распознанных символов. После настройки "здесь записаны цифры, а не что попало" стало около 80% распознанных цифр. (Для текстовых полей там ещё задаётся язык заполнения, но нам это неинтересно.) После настройки "культуры заполнителя" (ну или что-то в таком плане) распознавать стало около 95-98%%.

Но надо понимать, что на обучении и в бою результаты могут быть сильно разными.

← →
Артем Билецкий (2013-11-26 12:49) [14]

> После настройки "культуры заполнителя" (ну или что-то в
> таком плане) распознавать стало около 95-98%

Это 95-98% правильных ответов. Или 95%-98% ответов, которые, возможно, еще и содержат ошибки?

А остальные 5-3% куда?

← →
брат Птибурдукова (2013-11-26 12:56) [15]

> Артем Билецкий (26.11.13 12:49) [14]
Честно — не особо помню уже. Насколько я помню, часть цифр подсвечивалась "возможно, распознано неправильно" (и около трети действительно было неправильно), остальные были нераспознаны. В тех, которые система объявила "уверенно распознанными", ошибок не находил.

http://cognitiveforms.ru/products/cuneiform/
если будете смотреть и поможет, отпишитесь плиз

> http://cognitiveforms.ru/products/cuneiform/
> если будете смотреть и поможет, отпишитесь плиз

А что там смотреть? Необходимо отсканировать десяток листов и послать во все 3 конторы. Ну а дальше смотреть на точность и процент ручного ввода. Как бы, все.

Из описанного мною случая выше было следующее:
1) объем 1000-1500 страниц в неделю
2) результат распознавания любой недели всегда выше 99%. Обычно по разному, т.к. новые люди приходят/уходят (что-то типа 99,2-99,3).
3) порядка 10% всегда идет на проверку человеком

Из интересного. Руководство не устроил результат в 99,2 (для понимания, это 2-3 ошибки на 500 ячеек рукописного). Посадили несколько бабушек на проверку)))
Потом решили, что и бабушки долго проверяют. Ввели контрольную ячейку. В итоге, одна бабушка могла преврать из 99,3% в 100% за 1 час.
Что-то типа такого: http://idr.in.ua/info/docscorrection.html

> В итоге, одна бабушка могла преврать из 99,3% в 100% за
> 1 час.

=превратить ))

Контрольная сумма нужна.

Распознать рукописный текст (преимущественно цифры) Найти похожие ветки