Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Потрепаться";
Текущий архив: 2005.01.09;
Скачать: [xml.tar.bz2];

Вниз

Посоветуйте че-нить по борьбе с pdf   Найти похожие ветки 

 
vecna ©   (2004-12-19 14:07) [0]

Нужно выдрать текст из pdf"a. Проблема в том, что pdf русский, и при save as text или copy/paste вместо русских букв получается абракадабра. такой же результат дают все программы конвертящие pdf в че-нить (txt, html).


 
none   (2004-12-19 14:08) [1]

печать "as image" + finerider
:)


 
Чеширский_Кот ©   (2004-12-19 14:13) [2]

глупости какие-то предлагаешь


 
VictorT ©   (2004-12-19 14:17) [3]

открой покоцанный текст в Ворде и выбери Сервис -> Исправить повреждённый текст


 
DrPass ©   (2004-12-19 15:22) [4]


> Чеширский_Кот ©   (19.12.04 14:13) [2]
> глупости какие-то предлагаешь

Это не совсем глупости. FineReader умеет открывать pdf и конвертировать их в документы Word при помощи своего OCR-движка


 
KilkennyCat ©   (2004-12-19 15:27) [5]

наверняка абракадабра по какой-нить системе. а раз по системе, то значит, можно и переаброкадабрить...


 
vertal ©   (2004-12-19 15:55) [6]

Там наверняка дело в отсутствии в описании шрифта в PDF ToUnicode CMAP . Прчем юмор в том, что если это True Type шрифт и буквы отображаются нормально, то вся информация о кодах символов содержится в PDF, но Acrobat ее почему-то не использует. Там достаточно будет  вставить в этот документ PDF в словарь описания каждого шрифта ссылку на ToUnicode CMAP , а она в будет скорей всего одна для всех шрифтов. Проблема в том, что перед этим PDF нужно пропарсить и потом заново рассчитать все смещения до объектов от начала файла, добавиви как минимум один объект - нашу ToUnicode CMAP, а затем этот PDF придется полностью переписать. Кстати я думаю, что если кто-нибудь напишет такую программу, исправляющую такие файлы PDF, тол она будет востребована.


 
Vlad Oshin ©   (2004-12-20 08:29) [7]

я где встречал, pdf2txt, кажись зовется


 
Prohodil Mimo ©   (2004-12-20 11:30) [8]

PDFRipper поищи
969KbЕсли что, могу выслать.


 
(AD)acid   (2004-12-20 12:56) [9]

Я такими вещами второй год уже занимаюсь. И последнюю курсовую Я так делал. Берёшь PDF файл, открываешь FineReader, открыть изображение... Потом разбиваешь на блоки и распознаешь. Дальше по вкусу. Я в Word перекидываю с окном крупный план. И всё. Надо сказать что это не очень быстро, зато интеллектуально;)))


 
Prohodil Mimo ©   (2004-12-20 15:32) [10]

(AD)acid   (20.12.04 12:56) [9]
зато интеллектуально

в каком месте?


 
VMcL ©   (2004-12-20 19:13) [11]

>>Prohodil Mimo ©  (20.12.04 15:32) [10]

Распознавание образов обычно относят к интеллектуальным системам. Наверное, поэтому :-)


 
Чеширский_Кот ©   (2004-12-20 19:20) [12]

распознавание образов
распознавание речи
экспертные системы
игра в шахматы/шашки/го

усё это искусственный интеллект


 
}|{yk ©   (2004-12-20 19:22) [13]

Вместе с FR идет в исходниках pdf2bmp. Который, собственно преобразует pdf и bmp нужного расширения. Можно взять Adobe Acrobat и сохранять нужные страницы, а потом распознавать - будет быстро.


 
vecna ©   (2004-12-20 20:17) [14]

Мда.... видимо вариантов нет, только FineReader =\.
Все остальные программы ничего не смогли... ну что ж... 1500 страниц - ерунда! =)


 
Mystic ©   (2004-12-20 20:27) [15]

Ну... иногда трудности могут быть принципиальными... Например,  русификация TeX, которую я видул, просто создает новый MF-шрифт, в котором русские буквы располагаются на месте английский. Ну и при копировании из Acrobat-а мы получаем нечто вроде "VVEDENIE", потому как этот шрифт тоже встравивается в Acrobat.


 
vecna ©   (2004-12-20 20:57) [16]

строчка
"Оглавление" выглядит как "" или "6{KzQ~Q" (в зависимости от способа выдирания....


 
Prohodil Mimo ©   (2004-12-21 10:51) [17]

vecna ©   (20.12.04 20:57) [16]
а в региональных установках всё настроено?


 
vecna ©   (2004-12-21 11:09) [18]

2Prohodil Mimo
Региональных настройках винды ? Да, естественно.


 
}|{yk ©   (2004-12-21 12:07) [19]


> 1500 страниц

Да ерунда. Я когда-то Дейтела на 1000 стр. распознавал так. За ночь выдрало все странички, а еще за одну ночь все распознало.


 
Sergo ©   (2004-12-21 12:20) [20]


> vecna ©   (21.12.04 11:09) [18]



> строчка
> "Оглавление" выглядит как "" или "6{KzQ~Q" (в
> зависимости от способа выдирания....

Она выглядит так потому что в твоей системе нет нужного шрифта
Есть прога AdobeTypeManager DeLuxe это менеджер шрифтов. При помощи этого менеджера нужно добавить необходимый шрифт и все будет ОК.

А уж если шрифт не подберешь, то тогда, как тебе советовали выше, придется использовать FineReader



Страницы: 1 вся ветка

Форум: "Потрепаться";
Текущий архив: 2005.01.09;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.49 MB
Время: 0.036 c
9-1085626647
Kair
2004-05-27 06:57
2005.01.09
GLScene


14-1103366734
AlterEgo of WondeRu
2004-12-18 13:45
2005.01.09
Оцените, сколько стою?


1-1103556332
malij
2004-12-20 18:25
2005.01.09
messages


14-1103454430
vecna
2004-12-19 14:07
2005.01.09
Посоветуйте че-нить по борьбе с pdf


6-1098441484
Кодер
2004-10-22 14:38
2005.01.09
Буфер неопределенной заранее длины через Сокет





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский