Форум: "Потрепаться";
Текущий архив: 2005.01.09;
Скачать: [xml.tar.bz2];
ВнизПосоветуйте че-нить по борьбе с pdf Найти похожие ветки
← →
vecna © (2004-12-19 14:07) [0]Нужно выдрать текст из pdf"a. Проблема в том, что pdf русский, и при save as text или copy/paste вместо русских букв получается абракадабра. такой же результат дают все программы конвертящие pdf в че-нить (txt, html).
← →
none (2004-12-19 14:08) [1]печать "as image" + finerider
:)
← →
Чеширский_Кот © (2004-12-19 14:13) [2]глупости какие-то предлагаешь
← →
VictorT © (2004-12-19 14:17) [3]открой покоцанный текст в Ворде и выбери Сервис -> Исправить повреждённый текст
← →
DrPass © (2004-12-19 15:22) [4]
> Чеширский_Кот © (19.12.04 14:13) [2]
> глупости какие-то предлагаешь
Это не совсем глупости. FineReader умеет открывать pdf и конвертировать их в документы Word при помощи своего OCR-движка
← →
KilkennyCat © (2004-12-19 15:27) [5]наверняка абракадабра по какой-нить системе. а раз по системе, то значит, можно и переаброкадабрить...
← →
vertal © (2004-12-19 15:55) [6]Там наверняка дело в отсутствии в описании шрифта в PDF ToUnicode CMAP . Прчем юмор в том, что если это True Type шрифт и буквы отображаются нормально, то вся информация о кодах символов содержится в PDF, но Acrobat ее почему-то не использует. Там достаточно будет вставить в этот документ PDF в словарь описания каждого шрифта ссылку на ToUnicode CMAP , а она в будет скорей всего одна для всех шрифтов. Проблема в том, что перед этим PDF нужно пропарсить и потом заново рассчитать все смещения до объектов от начала файла, добавиви как минимум один объект - нашу ToUnicode CMAP, а затем этот PDF придется полностью переписать. Кстати я думаю, что если кто-нибудь напишет такую программу, исправляющую такие файлы PDF, тол она будет востребована.
← →
Vlad Oshin © (2004-12-20 08:29) [7]я где встречал, pdf2txt, кажись зовется
← →
Prohodil Mimo © (2004-12-20 11:30) [8]PDFRipper поищи
969KbЕсли что, могу выслать.
← →
(AD)acid (2004-12-20 12:56) [9]Я такими вещами второй год уже занимаюсь. И последнюю курсовую Я так делал. Берёшь PDF файл, открываешь FineReader, открыть изображение... Потом разбиваешь на блоки и распознаешь. Дальше по вкусу. Я в Word перекидываю с окном крупный план. И всё. Надо сказать что это не очень быстро, зато интеллектуально;)))
← →
Prohodil Mimo © (2004-12-20 15:32) [10](AD)acid (20.12.04 12:56) [9]
зато интеллектуально
в каком месте?
← →
VMcL © (2004-12-20 19:13) [11]>>Prohodil Mimo © (20.12.04 15:32) [10]
Распознавание образов обычно относят к интеллектуальным системам. Наверное, поэтому :-)
← →
Чеширский_Кот © (2004-12-20 19:20) [12]распознавание образов
распознавание речи
экспертные системы
игра в шахматы/шашки/го
усё это искусственный интеллект
← →
}|{yk © (2004-12-20 19:22) [13]Вместе с FR идет в исходниках pdf2bmp. Который, собственно преобразует pdf и bmp нужного расширения. Можно взять Adobe Acrobat и сохранять нужные страницы, а потом распознавать - будет быстро.
← →
vecna © (2004-12-20 20:17) [14]Мда.... видимо вариантов нет, только FineReader =\.
Все остальные программы ничего не смогли... ну что ж... 1500 страниц - ерунда! =)
← →
Mystic © (2004-12-20 20:27) [15]Ну... иногда трудности могут быть принципиальными... Например, русификация TeX, которую я видул, просто создает новый MF-шрифт, в котором русские буквы располагаются на месте английский. Ну и при копировании из Acrobat-а мы получаем нечто вроде "VVEDENIE", потому как этот шрифт тоже встравивается в Acrobat.
← →
vecna © (2004-12-20 20:57) [16]строчка
"Оглавление" выглядит как "" или "6{KzQ~Q" (в зависимости от способа выдирания....
← →
Prohodil Mimo © (2004-12-21 10:51) [17]vecna © (20.12.04 20:57) [16]
а в региональных установках всё настроено?
← →
vecna © (2004-12-21 11:09) [18]2Prohodil Mimo
Региональных настройках винды ? Да, естественно.
← →
}|{yk © (2004-12-21 12:07) [19]
> 1500 страниц
Да ерунда. Я когда-то Дейтела на 1000 стр. распознавал так. За ночь выдрало все странички, а еще за одну ночь все распознало.
← →
Sergo © (2004-12-21 12:20) [20]
> vecna © (21.12.04 11:09) [18]
> строчка
> "Оглавление" выглядит как "" или "6{KzQ~Q" (в
> зависимости от способа выдирания....
Она выглядит так потому что в твоей системе нет нужного шрифта
Есть прога AdobeTypeManager DeLuxe это менеджер шрифтов. При помощи этого менеджера нужно добавить необходимый шрифт и все будет ОК.
А уж если шрифт не подберешь, то тогда, как тебе советовали выше, придется использовать FineReader
Страницы: 1 вся ветка
Форум: "Потрепаться";
Текущий архив: 2005.01.09;
Скачать: [xml.tar.bz2];
Память: 0.49 MB
Время: 0.033 c