Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.08.27;
Скачать: CL | DM;

Вниз

Сопоставление текста и отсканированного текста   Найти похожие ветки 

 
AK-47   (2010-05-11 13:52) [0]

Есть текст, состоящий из абзацев. Абзацы могут быть выровнены по левому краю, по правому, по центру или по ширине. В тексте могут быть таблицы из псевдографики.
Еще есть отсканированные страницы, практически того же текста. Отличие может быть в оформлении, то есть абзацы могут быть выровненные по другому, регистр некоторых слов может не совпадать, некоторые абзацы могут быть разбиты на несколько или наоборот склеены.
Задача состоит в том, что зная позицию в тексте нужно найти соответствующую позицию в отсканированном тексте (номер отсканированной страницы и примерные координаты области) и наоборот.

Первое, что приходит на ум - это распознать отсканированный текст и его уже сравнивать с обычным текстом, но боюсь это довольно сложно сделать. Может быть есть идеи как решить эту задачу другими способами?
Был бы рад их услышать


 
12 ©   (2010-05-11 14:02) [1]

1. среднее заполнение символов
2. вспомогательные контрольные точки


 
cyber-pilot   (2010-05-11 14:10) [2]

> 1. среднее заполнение символов
Непонятно как это использовать, можете подробнее пояснить?

> 2. вспомогательные контрольные точки
В качестве контрольных точек наверное можно использовать таблицы и еще можно воспользоваться выравниванием абзацев (в большинстве случаев выравнивание совпадает). Других контрольных точек пока не вижу.


 
12 ©   (2010-05-11 17:11) [3]

ну, это навскидку, что пришло в голову
1. Прикинуть, сколько символов на страницу выходит. В зависимости от символа в тексте, вычислять его вероятностное нахождение на картинке

пусть 500 символов страница, в среднем. 20 страниц.
тогда 3444й символ где-то в конце 7ой страницы

2.
Тоже самое, что и 1, на самом деле,
тока запоминаем, номера символов в начале каждой страницы. Можно еще и в конце, середине.
Тогда 3444й символ - отнять неотрицательно контрольную точку..



Страницы: 1 вся ветка

Текущий архив: 2010.08.27;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.059 c
2-1269172946
Первокурсница
2010-03-21 15:02
2010.08.27
Программа вылетает (delphi 7), свойство кнопки Enabled или Visibl


15-1273350599
Юрий
2010-05-09 00:29
2010.08.27
С днем рождения ! 9 мая 2010 воскресенье


11-1214992169
Sarymian
2008-07-02 13:49
2010.08.27
Проблема с заменой системных модулей в версии 2.87


15-1271774469
domowou
2010-04-20 18:41
2010.08.27
Нужен компонент - кнопка с поддержкой alpha-канала (PNG)


2-1269261700
Romingood
2010-03-22 15:41
2010.08.27
JSON - помогите с разбором строки