средства для работы с PDF

← →
Е-Моё имя (2003-08-21 18:16) [0]

есть PDF файлы
в них таблички
как достать оттуда эти таблички?
(например для помещения в Excel)

← →
Jeer (2003-08-21 18:18) [1]

pdf - конечный формат, хотя..

← →
Е-Моё имя (2003-08-21 18:23) [2]

есть же средства доступа к тексту внутри pdf
гугль их даже индексирует вроде
яндекс вроде тоже, но не уверен

← →
Jeer (2003-08-21 18:43) [3]

к тексту есть, но это все не вполне легально.

← →
ИМХО (2003-08-21 18:44) [4]

Видал одну прогу, но она стоила туеву хучу вечнозеленых.

← →
Е-Моё имя (2003-08-21 18:52) [5]

Jeer © (21.08.03 18:43)
правда?
ИМХО © (21.08.03 18:44)
мда....тяжко...

← →
Е-Моё имя (2003-08-25 10:50) [6]

эта...
вопрос по сей день актуален
как достать таблички из pdf файла?
средства за 500-??? USD не предлагать ;)

← →
Nikky (2003-08-25 10:51) [7]

pdf можно только смотреть, даже закон вроде такой есть

← →
Е-Моё имя (2003-08-25 10:52) [8]

закон о СМИ?
;-)))))

← →
HolACost! (2003-08-25 10:52) [9]

Ну типа распознай катинку!

← →
Е-Моё имя (2003-08-25 10:54) [10]

Nikky © (25.08.03 10:51) [7]
мне и не нужно его менять, хотя это возможно
мне просто табличку....мааааленькую табличку....
на самом деле таблиц до фига, поэтому вручную вопрос не решается

← →
Е-Моё имя (2003-08-25 10:55) [11]

HolACost! © (25.08.03 10:52) [9]
поадекватнее бы способ найти...

← →
Reindeer Moss Eater (2003-08-25 10:57) [12]

FineReader 6.0

← →
HolACost! (2003-08-25 10:59) [13]

Вот я про него и говорю!
Есть второй вариант - попробовать понять как строится формат - в этом вам поможет latex!

← →
Е-Моё имя (2003-08-25 11:02) [14]

мне распознавание кажется не самым подходящим средством
в табличках важные данные, не допускающие неправильного распознания
за файнридер я поручится не могу, в какую сторону его переклинит
к тому же это нужно делать руками (распознавать)

как он нам поможет?

← →
Reindeer Moss Eater (2003-08-25 11:03) [15]

Найди программу Acrobat

← →
Е-Моё имя (2003-08-25 11:03) [16]

как строицца формат - наверное в SDK написано
он совсем небесплатный ((

← →
Е-Моё имя (2003-08-25 11:03) [17]

> Reindeer Moss Eater © (25.08.03 11:03) [15]

нашел
запускать?

← →
Danilka (2003-08-25 11:07) [18]

ню-ню, закон говоришь? :))
а чего-же тогда на адобевском сайте свободно лежит файл PDFRef.pdf, в котором подробно, на семисот листах расписан формат файла?
а туеву хучу стоит потому как на семисот листах...

Есть опен-сорсе проект GhostScript, которй умеет парсить pdf-файлы, но там все заморочено, надо знать язык пост-скрипт, хотя, времени чтобы разобраться уйжет намного меньше, чем разгребая описание формата.
А еще, как вариант - через адобе Акробат активХ, только вот не знаю, есть ли АктивХ у Акробат-Ридера. Как работать по этому варианту - ищи в гугле, в свое время я находил кучу ссылок.

← →
Reindeer Moss Eater (2003-08-25 11:09) [19]

Е-Моё имя © (25.08.03 11:03) [17]

> Reindeer Moss Eater © (25.08.03 11:03) [15]

нашел
запускать?

Ты наверняка нашел Acrobat Reader. А я говорил про Acrobat.

← →
Е-Моё имя (2003-08-25 11:09) [20]

> GhostScript, которй умеет парсить pdf-файлы

безрадостная перспектива((

> есть ли АктивХ

есть, но он табличек вроде как не дает

← →
Е-Моё имя (2003-08-25 11:11) [21]

> Reindeer Moss Eater © (25.08.03 11:09) [19]

не, все нормально
Acrobat 5.0.0

← →
Danilka (2003-08-25 11:25) [22]

Еще вариант, у меня на винте валяется pdf2html, название уже о чем-то говорит, натравил его на pdf-ку: вместо русских букв - точки.
Заглянул в реадме, там написано "Pdftohtml was developed by Gueorgui Ovtcharov and Rainer Dorsch..."
Вроде русский, значит есть вероятность, что буковки русские заработают.
Сам pdf2html живет вот-здесь:
http://sourceforge.net/projects/pdftohtml

← →
Е-Моё имя (2003-08-25 11:35) [23]

> Danilka © (25.08.03 11:25) [22]

ок, спасибо, испробую

← →
KSergey (2003-08-25 11:42) [24]

Это надо автоматически делать или как? Или 1 раз?

Reindeer Moss Eater © (25.08.03 11:03)
Найди программу Acrobat

Я нашел. Извиняюсь за ламмерность, но пока я ее не видел - я думал, что это что-то типа ворда (по идее). А оказалось, что по сути в PDF - картинка и есть.
Хотя текст из него даже Redarom вроде выковыриватеся легко. Правда, потом ручками доводить надо.
Я не знаю, что у автора за табличка, но в принципе вытянуть ручками (в режиме "выделение текста" и потом ручками же доработать- обычно можно. Но это, безусловно, если 1,2 раза надо. И не автоматически.

← →
Е-Моё имя (2003-08-25 11:44) [25]

> Это надо автоматически делать или как? Или 1 раз?

хм...
автоматически, ежемесячно
документ порядка 100 листов, в-основном таблицы

← →
Е-Моё имя (2003-08-25 14:36) [26]

← →
Danilka (2003-08-26 09:50) [27]

Е-Моё имя © (25.08.03 14:36)
Вобщем так, в ентой pdftohtml написано, что она сделана на базе xpdf, которая у меня также валялась на винте :))
в этой самой xpdf есть файл конфигурации содержащий параметр textEncoding, подставил в него win-1251 не работает, прогулялся на ихний сайт - нашел фалы с кирилицей и описание как ее использовать. Кои-8, но все равно, русский текст "распознался".
Правда, таблицы получились по-дурацки, но, при желании, из полученого текста можно вытащить информацию, в том числе и автоматом.

xpdf живет здесь: http://www.foolabs.com/xpdf/

← →
Е-Моё имя (2003-08-26 10:09) [28]

Danilka © (26.08.03 09:50) [27]
да, ходил по этому пути (прочитал про xpdf, нашел, поставил КОИ)
но мой текст не распознался
(((
парюсь щас ищю другие средства..((

← →
Danilka (2003-08-26 10:13) [29]

Странно, у меня все русские буковки распознались, без проблем, в кои-8.
Причем текст довольно замороченый, форматирование замороченое, таблицы замороченые.

← →
Е-Моё имя (2003-08-26 10:17) [30]

← →
Е-Моё имя (2003-08-26 10:20) [31]

Danilka © (26.08.03 10:13)

а ты pdftotext использовал?
я его запускал
в ридми написано про xpdf file.pdf
но самого xpdf у мну нету в архиве
ты чем конвертил?

← →
Danilka (2003-08-26 10:30) [32]

Е-Моё имя © (26.08.03 10:20)
pdftotext это одна из программ комплекта xpdf. :))
для того чтобы работали русские буковки, ндао скачать с ихнего сайта файл xpdf-cyrillic.tar.gz это архив, у него внутри еще один архив: xpdf-cyrillic.tar, у которого внутри каталог xpdf-cyrillic в котором лежат файлы:
Bulgarian.nameToUnicode
KOI8-R.unicodeMap
надо эти файлы выложить в один каталог с pdftotext.exe, в этом-же каталоге есть файл конфигурации xpdfrc в котором надо дописать, в любое место:
nameToUnicode Bulgarian.nameToUnicode unicodeMap KOI8-R KOI8-R.unicodeMap textEncoding KOI8-R
и все, наслаждайся русскими буковками. :))

← →
Е-Моё имя (2003-08-26 10:33) [33]

> Danilka © (26.08.03 10:30) [32]

хе,
> Е-Моё имя © (26.08.03 10:09) [28]

невнимательно читал
все это я сделал
запускаю pdftotext file.pdf
меня смутила вот что:

To run xpdf, simply type:

xpdf file.pdf

To generate a plain text file, run pdftotext:

pdftotext file.pdf

xpdf.exe у меня нет
а всякие pdfto... есть
pdftotext не хавает мои русские буквы
они там в юникоде вроде

← →
Danilka (2003-08-26 10:43) [34]

средства для работы с PDF Найти похожие ветки