Распознавание текстов

← →
Nic © (2006-04-17 16:14) [0]

Задумался я над сабжем. Представим себе крупный деканат. Как можно автоматизировать обработку ведомостей? Набивать вручную в свою ИС? Здесь обязательно будут очепятки и ошибки. Ведь людям свойственно ошибаться. И тогда я пришёл к мысли, что лучше это всё сканировать и распознавать. Есои для сканирования бывают какие-то DLL-ки (это вообще можно не программировать, а сканировать стандартными средствами), то вот с распознаванием - труба. Никак не могу понять, как же это осуществить. Может быть кто-то с этим работал или поделится мыслями как это (распознавание текста) осуществляется в принципе? Первое что приходит в голову - нейросети, но я очень смутно представляю, что же это такое и как это привинтить к поставленной задаче. Вобщем, давайте обсудим проблематику, думаю, что не одному мне оно интересно.

← →
Кщд © (2006-04-17 16:24) [1]

а если в ведомости будут опечатки?

← →
Nic © (2006-04-17 16:28) [2]

Ведомости заполняются вручную.

← →
wal © (2006-04-17 16:28) [3]

Дело, конечно хорошее и интересное, но начнется за здравие, а кончиться как обычно - "исправления не допускаются, рисовать печатными буквами, а лучше по шаблону" и т.д. Если не возбраняется форму ведомости менять, то лучше под фамилиями штрих-кодом их повторить, а оценки (я так понял, что это экзаменационная ведомость, раз про деканат) ставить как на выборах - "любой значек в однои и только одной клеточке", тагда задача на порядок упростится.

← →
DVM © (2006-04-17 16:48) [4]

Насколько я знаю, у FineReader есть все средства для работы с такого рода документами. Т.е. надо писать программу, взаимодействующую с ним. Писать самому распознавание текста (не галочек в клеточках, а именно текста) имхо утопия в одиночку.

← →
TUser © (2006-04-17 17:07) [5]

> Ведомости заполняются вручную.

И ты хочешь их распознавать, полностью полагаясь на компутер? Студенты убьют.

FineReader можно использовать через COM, также у тех же перцев (ABBYY) есть утилита для распознавания надписей типа "на почтовом конверте". Если неймется - переведи ведомости в соотв. формат, и распознавай. Если очень хочется иметь проблемы со студентами, кому неправильную (пониже) оценку поставили, - покупай эти программы.

Имхо. Быстрее вбивать ручками. И надежнее.

Зы. Из мирового опыта. Наши мужики (из конторы ParaGraph, точнее из какой-то ее дочки) написали для амеров программу для сортировки почтовых конвертов. Стоит на всех амеровых почтовых отделениях. По слухам читает рукописный адрес и сортирует. Если не может распознать - оставляет решение за оператором.

Допустим, есть отсканированная ведомость и шаблон ведомости. Оценки могут просталяться, скажем так, не цифрой, а установкой маркера в соответсвующем месте. Можно воткнуть также маркеры по краям листа, для выравнивания при обработке. Штрих код прицепить. Но как это всё обработать, какие алгоритмы использовать? Fine Reader не подходит по той причине, что лицензия будет дорогой, надо самим. Кто что посоветует?

С маркерами специальными уже лучше. Находишь наилучшее совмещение двух плоскостей - заполненной и пустой ведомости. Это тебе дает координаты квадратиков на заполненной. Соотв. грубо - считаешь число закрашенных точек в каждом из пяти возможных квадратиков (неуд...отл, неявка). Если один из них намного закрашеннее остальных - результат ясен. В остальных случаях - решение остается за человеком (например, преп мог непраильно написать в одном из квадратов, потом в правильном, а рядом словами приписать правильный вариант).

Собственно, примерно так обрабатывают бумажки при электронном подсчете голосов.

Зы. Для качественного внедрения нужен будет быстрый сканер, лучше всего барабанный. Иначе, выигрышь во времени по сравнению с ручным вбиванием результатов будет небольшой. Да и только два раза в год.

Распознавание текстов Найти похожие ветки