Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.01.09;
Скачать: CL | DM;

Вниз

Посоветуйте че-нить по борьбе с pdf   Найти похожие ветки 

 
vecna ©   (2004-12-19 14:07) [0]

Нужно выдрать текст из pdf"a. Проблема в том, что pdf русский, и при save as text или copy/paste вместо русских букв получается абракадабра. такой же результат дают все программы конвертящие pdf в че-нить (txt, html).


 
none   (2004-12-19 14:08) [1]

печать "as image" + finerider
:)


 
Чеширский_Кот ©   (2004-12-19 14:13) [2]

глупости какие-то предлагаешь


 
VictorT ©   (2004-12-19 14:17) [3]

открой покоцанный текст в Ворде и выбери Сервис -> Исправить повреждённый текст


 
DrPass ©   (2004-12-19 15:22) [4]


> Чеширский_Кот ©   (19.12.04 14:13) [2]
> глупости какие-то предлагаешь

Это не совсем глупости. FineReader умеет открывать pdf и конвертировать их в документы Word при помощи своего OCR-движка


 
KilkennyCat ©   (2004-12-19 15:27) [5]

наверняка абракадабра по какой-нить системе. а раз по системе, то значит, можно и переаброкадабрить...


 
vertal ©   (2004-12-19 15:55) [6]

Там наверняка дело в отсутствии в описании шрифта в PDF ToUnicode CMAP . Прчем юмор в том, что если это True Type шрифт и буквы отображаются нормально, то вся информация о кодах символов содержится в PDF, но Acrobat ее почему-то не использует. Там достаточно будет  вставить в этот документ PDF в словарь описания каждого шрифта ссылку на ToUnicode CMAP , а она в будет скорей всего одна для всех шрифтов. Проблема в том, что перед этим PDF нужно пропарсить и потом заново рассчитать все смещения до объектов от начала файла, добавиви как минимум один объект - нашу ToUnicode CMAP, а затем этот PDF придется полностью переписать. Кстати я думаю, что если кто-нибудь напишет такую программу, исправляющую такие файлы PDF, тол она будет востребована.


 
Vlad Oshin ©   (2004-12-20 08:29) [7]

я где встречал, pdf2txt, кажись зовется


 
Prohodil Mimo ©   (2004-12-20 11:30) [8]

PDFRipper поищи
969KbЕсли что, могу выслать.


 
(AD)acid   (2004-12-20 12:56) [9]

Я такими вещами второй год уже занимаюсь. И последнюю курсовую Я так делал. Берёшь PDF файл, открываешь FineReader, открыть изображение... Потом разбиваешь на блоки и распознаешь. Дальше по вкусу. Я в Word перекидываю с окном крупный план. И всё. Надо сказать что это не очень быстро, зато интеллектуально;)))


 
Prohodil Mimo ©   (2004-12-20 15:32) [10]

(AD)acid   (20.12.04 12:56) [9]
зато интеллектуально

в каком месте?


 
VMcL ©   (2004-12-20 19:13) [11]

>>Prohodil Mimo ©  (20.12.04 15:32) [10]

Распознавание образов обычно относят к интеллектуальным системам. Наверное, поэтому :-)


 
Чеширский_Кот ©   (2004-12-20 19:20) [12]

распознавание образов
распознавание речи
экспертные системы
игра в шахматы/шашки/го

усё это искусственный интеллект


 
}|{yk ©   (2004-12-20 19:22) [13]

Вместе с FR идет в исходниках pdf2bmp. Который, собственно преобразует pdf и bmp нужного расширения. Можно взять Adobe Acrobat и сохранять нужные страницы, а потом распознавать - будет быстро.


 
vecna ©   (2004-12-20 20:17) [14]

Мда.... видимо вариантов нет, только FineReader =\.
Все остальные программы ничего не смогли... ну что ж... 1500 страниц - ерунда! =)


 
Mystic ©   (2004-12-20 20:27) [15]

Ну... иногда трудности могут быть принципиальными... Например,  русификация TeX, которую я видул, просто создает новый MF-шрифт, в котором русские буквы располагаются на месте английский. Ну и при копировании из Acrobat-а мы получаем нечто вроде "VVEDENIE", потому как этот шрифт тоже встравивается в Acrobat.


 
vecna ©   (2004-12-20 20:57) [16]

строчка
"Оглавление" выглядит как "" или "6{KzQ~Q" (в зависимости от способа выдирания....


 
Prohodil Mimo ©   (2004-12-21 10:51) [17]

vecna ©   (20.12.04 20:57) [16]
а в региональных установках всё настроено?


 
vecna ©   (2004-12-21 11:09) [18]

2Prohodil Mimo
Региональных настройках винды ? Да, естественно.


 
}|{yk ©   (2004-12-21 12:07) [19]


> 1500 страниц

Да ерунда. Я когда-то Дейтела на 1000 стр. распознавал так. За ночь выдрало все странички, а еще за одну ночь все распознало.


 
Sergo ©   (2004-12-21 12:20) [20]


> vecna ©   (21.12.04 11:09) [18]



> строчка
> "Оглавление" выглядит как "" или "6{KzQ~Q" (в
> зависимости от способа выдирания....

Она выглядит так потому что в твоей системе нет нужного шрифта
Есть прога AdobeTypeManager DeLuxe это менеджер шрифтов. При помощи этого менеджера нужно добавить необходимый шрифт и все будет ОК.

А уж если шрифт не подберешь, то тогда, как тебе советовали выше, придется использовать FineReader



Страницы: 1 вся ветка

Текущий архив: 2005.01.09;
Скачать: CL | DM;

Наверх




Память: 0.51 MB
Время: 0.022 c
3-1102580853
REA
2004-12-09 11:27
2005.01.09
Алиасы в Firebird


3-1101964594
Sirus
2004-12-02 08:16
2005.01.09
Нужно подробное описание работы объединения JOIN


14-1103639584
Cosinus
2004-12-21 17:33
2005.01.09
Где TheBat сохраняет переписку ?


14-1103631558
Vaitek
2004-12-21 15:19
2005.01.09
Ааа вот вы где все!


4-1100477570
Кто---то
2004-11-15 03:12
2005.01.09
Где Интернет Эксплорер хранит history ?