Форум: "Потрепаться";
Текущий архив: 2003.09.15;
Скачать: [xml.tar.bz2];
Внизсредства для работы с PDF Найти похожие ветки
← →
Е-Моё имя (2003-08-21 18:16) [0]есть PDF файлы
в них таблички
как достать оттуда эти таблички?
(например для помещения в Excel)
← →
Jeer (2003-08-21 18:18) [1]pdf - конечный формат, хотя..
← →
Е-Моё имя (2003-08-21 18:23) [2]есть же средства доступа к тексту внутри pdf
гугль их даже индексирует вроде
яндекс вроде тоже, но не уверен
← →
Jeer (2003-08-21 18:43) [3]к тексту есть, но это все не вполне легально.
← →
ИМХО (2003-08-21 18:44) [4]Видал одну прогу, но она стоила туеву хучу вечнозеленых.
← →
Е-Моё имя (2003-08-21 18:52) [5]Jeer © (21.08.03 18:43)
правда?
ИМХО © (21.08.03 18:44)
мда....тяжко...
← →
Е-Моё имя (2003-08-25 10:50) [6]эта...
вопрос по сей день актуален
как достать таблички из pdf файла?
средства за 500-??? USD не предлагать ;)
← →
Nikky (2003-08-25 10:51) [7]pdf можно только смотреть, даже закон вроде такой есть
← →
Е-Моё имя (2003-08-25 10:52) [8]закон о СМИ?
;-)))))
← →
HolACost! (2003-08-25 10:52) [9]Ну типа распознай катинку!
← →
Е-Моё имя (2003-08-25 10:54) [10]Nikky © (25.08.03 10:51) [7]
мне и не нужно его менять, хотя это возможно
мне просто табличку....мааааленькую табличку....
на самом деле таблиц до фига, поэтому вручную вопрос не решается
← →
Е-Моё имя (2003-08-25 10:55) [11]HolACost! © (25.08.03 10:52) [9]
поадекватнее бы способ найти...
← →
Reindeer Moss Eater (2003-08-25 10:57) [12]FineReader 6.0
← →
HolACost! (2003-08-25 10:59) [13]Вот я про него и говорю!
Есть второй вариант - попробовать понять как строится формат - в этом вам поможет latex!
← →
Е-Моё имя (2003-08-25 11:02) [14]мне распознавание кажется не самым подходящим средством
в табличках важные данные, не допускающие неправильного распознания
за файнридер я поручится не могу, в какую сторону его переклинит
к тому же это нужно делать руками (распознавать)
как он нам поможет?
← →
Reindeer Moss Eater (2003-08-25 11:03) [15]Найди программу Acrobat
← →
Е-Моё имя (2003-08-25 11:03) [16]как строицца формат - наверное в SDK написано
он совсем небесплатный ((
← →
Е-Моё имя (2003-08-25 11:03) [17]
> Reindeer Moss Eater © (25.08.03 11:03) [15]
нашел
запускать?
← →
Danilka (2003-08-25 11:07) [18]ню-ню, закон говоришь? :))
а чего-же тогда на адобевском сайте свободно лежит файл PDFRef.pdf, в котором подробно, на семисот листах расписан формат файла?
а туеву хучу стоит потому как на семисот листах...
Есть опен-сорсе проект GhostScript, которй умеет парсить pdf-файлы, но там все заморочено, надо знать язык пост-скрипт, хотя, времени чтобы разобраться уйжет намного меньше, чем разгребая описание формата.
А еще, как вариант - через адобе Акробат активХ, только вот не знаю, есть ли АктивХ у Акробат-Ридера. Как работать по этому варианту - ищи в гугле, в свое время я находил кучу ссылок.
← →
Reindeer Moss Eater (2003-08-25 11:09) [19]Е-Моё имя © (25.08.03 11:03) [17]
> Reindeer Moss Eater © (25.08.03 11:03) [15]
нашел
запускать?
Ты наверняка нашел Acrobat Reader. А я говорил про Acrobat.
← →
Е-Моё имя (2003-08-25 11:09) [20]
> GhostScript, которй умеет парсить pdf-файлы
безрадостная перспектива((
> есть ли АктивХ
есть, но он табличек вроде как не дает
← →
Е-Моё имя (2003-08-25 11:11) [21]
> Reindeer Moss Eater © (25.08.03 11:09) [19]
не, все нормально
Acrobat 5.0.0
← →
Danilka (2003-08-25 11:25) [22]Еще вариант, у меня на винте валяется pdf2html, название уже о чем-то говорит, натравил его на pdf-ку: вместо русских букв - точки.
Заглянул в реадме, там написано "Pdftohtml was developed by Gueorgui Ovtcharov and Rainer Dorsch..."
Вроде русский, значит есть вероятность, что буковки русские заработают.
Сам pdf2html живет вот-здесь:
http://sourceforge.net/projects/pdftohtml
← →
Е-Моё имя (2003-08-25 11:35) [23]
> Danilka © (25.08.03 11:25) [22]
ок, спасибо, испробую
← →
KSergey (2003-08-25 11:42) [24]Это надо автоматически делать или как? Или 1 раз?
Reindeer Moss Eater © (25.08.03 11:03)
Найди программу Acrobat
Я нашел. Извиняюсь за ламмерность, но пока я ее не видел - я думал, что это что-то типа ворда (по идее). А оказалось, что по сути в PDF - картинка и есть.
Хотя текст из него даже Redarom вроде выковыриватеся легко. Правда, потом ручками доводить надо.
Я не знаю, что у автора за табличка, но в принципе вытянуть ручками (в режиме "выделение текста" и потом ручками же доработать- обычно можно. Но это, безусловно, если 1,2 раза надо. И не автоматически.
← →
Е-Моё имя (2003-08-25 11:44) [25]
> Это надо автоматически делать или как? Или 1 раз?
хм...
автоматически, ежемесячно
документ порядка 100 листов, в-основном таблицы
← →
Е-Моё имя (2003-08-25 14:36) [26]Danilka © (25.08.03 11:25) [22]
> есть вероятность, что буковки русские заработают.
не заработали((
← →
Danilka (2003-08-26 09:50) [27]Е-Моё имя © (25.08.03 14:36)
Вобщем так, в ентой pdftohtml написано, что она сделана на базе xpdf, которая у меня также валялась на винте :))
в этой самой xpdf есть файл конфигурации содержащий параметр textEncoding, подставил в него win-1251 не работает, прогулялся на ихний сайт - нашел фалы с кирилицей и описание как ее использовать. Кои-8, но все равно, русский текст "распознался".
Правда, таблицы получились по-дурацки, но, при желании, из полученого текста можно вытащить информацию, в том числе и автоматом.
xpdf живет здесь: http://www.foolabs.com/xpdf/
← →
Е-Моё имя (2003-08-26 10:09) [28]Danilka © (26.08.03 09:50) [27]
да, ходил по этому пути (прочитал про xpdf, нашел, поставил КОИ)
но мой текст не распознался
(((
парюсь щас ищю другие средства..((
← →
Danilka (2003-08-26 10:13) [29]Странно, у меня все русские буковки распознались, без проблем, в кои-8.
Причем текст довольно замороченый, форматирование замороченое, таблицы замороченые.
← →
Е-Моё имя (2003-08-26 10:17) [30]
> Danilka © (26.08.03 10:13) [29]
значит руки у меня из оттудава (((((
ща еще рас папробуйу
← →
Е-Моё имя (2003-08-26 10:20) [31]Danilka © (26.08.03 10:13)
а ты pdftotext использовал?
я его запускал
в ридми написано про xpdf file.pdf
но самого xpdf у мну нету в архиве
ты чем конвертил?
← →
Danilka (2003-08-26 10:30) [32]Е-Моё имя © (26.08.03 10:20)
pdftotext это одна из программ комплекта xpdf. :))
для того чтобы работали русские буковки, ндао скачать с ихнего сайта файл xpdf-cyrillic.tar.gz это архив, у него внутри еще один архив: xpdf-cyrillic.tar, у которого внутри каталог xpdf-cyrillic в котором лежат файлы:
Bulgarian.nameToUnicode
KOI8-R.unicodeMap
надо эти файлы выложить в один каталог с pdftotext.exe, в этом-же каталоге есть файл конфигурации xpdfrc в котором надо дописать, в любое место:
nameToUnicode Bulgarian.nameToUnicode
unicodeMap KOI8-R KOI8-R.unicodeMap
textEncoding KOI8-R
и все, наслаждайся русскими буковками. :))
← →
Е-Моё имя (2003-08-26 10:33) [33]
> Danilka © (26.08.03 10:30) [32]
хе,
> Е-Моё имя © (26.08.03 10:09) [28]
невнимательно читал
все это я сделал
запускаю pdftotext file.pdf
меня смутила вот что:
To run xpdf, simply type:
xpdf file.pdf
To generate a plain text file, run pdftotext:
pdftotext file.pdf
xpdf.exe у меня нет
а всякие pdfto... есть
pdftotext не хавает мои русские буквы
они там в юникоде вроде
← →
Danilka (2003-08-26 10:43) [34]Е-Моё имя © (26.08.03 10:33)
тогда незнаю что посоветовать, у меня все ок.
Страницы: 1 вся ветка
Форум: "Потрепаться";
Текущий архив: 2003.09.15;
Скачать: [xml.tar.bz2];
Память: 0.51 MB
Время: 0.012 c