Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2003.09.15;
Скачать: CL | DM;

Вниз

средства для работы с PDF   Найти похожие ветки 

 
Е-Моё имя ©   (2003-08-21 18:16) [0]

есть PDF файлы
в них таблички
как достать оттуда эти таблички?
(например для помещения в Excel)


 
Jeer ©   (2003-08-21 18:18) [1]

pdf - конечный формат, хотя..


 
Е-Моё имя ©   (2003-08-21 18:23) [2]

есть же средства доступа к тексту внутри pdf
гугль их даже индексирует вроде
яндекс вроде тоже, но не уверен


 
Jeer ©   (2003-08-21 18:43) [3]

к тексту есть, но это все не вполне легально.


 
ИМХО ©   (2003-08-21 18:44) [4]

Видал одну прогу, но она стоила туеву хучу вечнозеленых.


 
Е-Моё имя ©   (2003-08-21 18:52) [5]

Jeer © (21.08.03 18:43)
правда?
ИМХО © (21.08.03 18:44)
мда....тяжко...


 
Е-Моё имя ©   (2003-08-25 10:50) [6]

эта...
вопрос по сей день актуален
как достать таблички из pdf файла?
средства за 500-??? USD не предлагать ;)


 
Nikky ©   (2003-08-25 10:51) [7]

pdf можно только смотреть, даже закон вроде такой есть


 
Е-Моё имя ©   (2003-08-25 10:52) [8]

закон о СМИ?
;-)))))


 
HolACost! ©   (2003-08-25 10:52) [9]

Ну типа распознай катинку!


 
Е-Моё имя ©   (2003-08-25 10:54) [10]

Nikky © (25.08.03 10:51) [7]
мне и не нужно его менять, хотя это возможно
мне просто табличку....мааааленькую табличку....
на самом деле таблиц до фига, поэтому вручную вопрос не решается


 
Е-Моё имя ©   (2003-08-25 10:55) [11]

HolACost! © (25.08.03 10:52) [9]
поадекватнее бы способ найти...


 
Reindeer Moss Eater ©   (2003-08-25 10:57) [12]

FineReader 6.0


 
HolACost! ©   (2003-08-25 10:59) [13]

Вот я про него и говорю!
Есть второй вариант - попробовать понять как строится формат - в этом вам поможет latex!


 
Е-Моё имя ©   (2003-08-25 11:02) [14]

мне распознавание кажется не самым подходящим средством
в табличках важные данные, не допускающие неправильного распознания
за файнридер я поручится не могу, в какую сторону его переклинит
к тому же это нужно делать руками (распознавать)

как он нам поможет?


 
Reindeer Moss Eater ©   (2003-08-25 11:03) [15]

Найди программу Acrobat


 
Е-Моё имя ©   (2003-08-25 11:03) [16]

как строицца формат - наверное в SDK написано
он совсем небесплатный ((


 
Е-Моё имя ©   (2003-08-25 11:03) [17]


> Reindeer Moss Eater © (25.08.03 11:03) [15]

нашел
запускать?


 
Danilka ©   (2003-08-25 11:07) [18]

ню-ню, закон говоришь? :))
а чего-же тогда на адобевском сайте свободно лежит файл PDFRef.pdf, в котором подробно, на семисот листах расписан формат файла?
а туеву хучу стоит потому как на семисот листах...

Есть опен-сорсе проект GhostScript, которй умеет парсить pdf-файлы, но там все заморочено, надо знать язык пост-скрипт, хотя, времени чтобы разобраться уйжет намного меньше, чем разгребая описание формата.
А еще, как вариант - через адобе Акробат активХ, только вот не знаю, есть ли АктивХ у Акробат-Ридера. Как работать по этому варианту - ищи в гугле, в свое время я находил кучу ссылок.


 
Reindeer Moss Eater ©   (2003-08-25 11:09) [19]

Е-Моё имя © (25.08.03 11:03) [17]

> Reindeer Moss Eater © (25.08.03 11:03) [15]

нашел
запускать?


Ты наверняка нашел Acrobat Reader. А я говорил про Acrobat.


 
Е-Моё имя ©   (2003-08-25 11:09) [20]


> GhostScript, которй умеет парсить pdf-файлы

безрадостная перспектива((


> есть ли АктивХ

есть, но он табличек вроде как не дает


 
Е-Моё имя ©   (2003-08-25 11:11) [21]


> Reindeer Moss Eater © (25.08.03 11:09) [19]

не, все нормально
Acrobat 5.0.0


 
Danilka ©   (2003-08-25 11:25) [22]

Еще вариант, у меня на винте валяется pdf2html, название уже о чем-то говорит, натравил его на pdf-ку: вместо русских букв - точки.
Заглянул в реадме, там написано "Pdftohtml was developed by Gueorgui Ovtcharov and Rainer Dorsch..."
Вроде русский, значит есть вероятность, что буковки русские заработают.
Сам pdf2html живет вот-здесь:
http://sourceforge.net/projects/pdftohtml


 
Е-Моё имя ©   (2003-08-25 11:35) [23]


> Danilka © (25.08.03 11:25) [22]

ок, спасибо, испробую


 
KSergey ©   (2003-08-25 11:42) [24]

Это надо автоматически делать или как? Или 1 раз?

Reindeer Moss Eater © (25.08.03 11:03)
Найди программу Acrobat


Я нашел. Извиняюсь за ламмерность, но пока я ее не видел - я думал, что это что-то типа ворда (по идее). А оказалось, что по сути в PDF - картинка и есть.
Хотя текст из него даже Redarom вроде выковыриватеся легко. Правда, потом ручками доводить надо.
Я не знаю, что у автора за табличка, но в принципе вытянуть ручками (в режиме "выделение текста" и потом ручками же доработать- обычно можно. Но это, безусловно, если 1,2 раза надо. И не автоматически.


 
Е-Моё имя ©   (2003-08-25 11:44) [25]


> Это надо автоматически делать или как? Или 1 раз?

хм...
автоматически, ежемесячно
документ порядка 100 листов, в-основном таблицы


 
Е-Моё имя ©   (2003-08-25 14:36) [26]

Danilka © (25.08.03 11:25) [22]
> есть вероятность, что буковки русские заработают.

не заработали((


 
Danilka ©   (2003-08-26 09:50) [27]

Е-Моё имя © (25.08.03 14:36)
Вобщем так, в ентой pdftohtml написано, что она сделана на базе xpdf, которая у меня также валялась на винте :))
в этой самой xpdf есть файл конфигурации содержащий параметр textEncoding, подставил в него win-1251 не работает, прогулялся на ихний сайт - нашел фалы с кирилицей и описание как ее использовать. Кои-8, но все равно, русский текст "распознался".
Правда, таблицы получились по-дурацки, но, при желании, из полученого текста можно вытащить информацию, в том числе и автоматом.

xpdf живет здесь: http://www.foolabs.com/xpdf/


 
Е-Моё имя ©   (2003-08-26 10:09) [28]

Danilka © (26.08.03 09:50) [27]
да, ходил по этому пути (прочитал про xpdf, нашел, поставил КОИ)
но мой текст не распознался
(((
парюсь щас ищю другие средства..((


 
Danilka ©   (2003-08-26 10:13) [29]

Странно, у меня все русские буковки распознались, без проблем, в кои-8.
Причем текст довольно замороченый, форматирование замороченое, таблицы замороченые.


 
Е-Моё имя ©   (2003-08-26 10:17) [30]


> Danilka © (26.08.03 10:13) [29]

значит руки у меня из оттудава (((((
ща еще рас папробуйу


 
Е-Моё имя ©   (2003-08-26 10:20) [31]

Danilka © (26.08.03 10:13)

а ты pdftotext использовал?
я его запускал
в ридми написано про xpdf file.pdf
но самого xpdf у мну нету в архиве
ты чем конвертил?


 
Danilka ©   (2003-08-26 10:30) [32]

Е-Моё имя © (26.08.03 10:20)
pdftotext это одна из программ комплекта xpdf. :))
для того чтобы работали русские буковки, ндао скачать с ихнего сайта файл xpdf-cyrillic.tar.gz это архив, у него внутри еще один архив: xpdf-cyrillic.tar, у которого внутри каталог xpdf-cyrillic в котором лежат файлы:
Bulgarian.nameToUnicode
KOI8-R.unicodeMap
надо эти файлы выложить в один каталог с pdftotext.exe, в этом-же каталоге есть файл конфигурации xpdfrc в котором надо дописать, в любое место:
nameToUnicode Bulgarian.nameToUnicode
unicodeMap KOI8-R KOI8-R.unicodeMap
textEncoding KOI8-R

и все, наслаждайся русскими буковками. :))


 
Е-Моё имя ©   (2003-08-26 10:33) [33]


> Danilka © (26.08.03 10:30) [32]

хе,
> Е-Моё имя © (26.08.03 10:09) [28]

невнимательно читал
все это я сделал
запускаю pdftotext file.pdf
меня смутила вот что:

To run xpdf, simply type:

xpdf file.pdf

To generate a plain text file, run pdftotext:

pdftotext file.pdf

xpdf.exe у меня нет
а всякие pdfto... есть
pdftotext не хавает мои русские буквы
они там в юникоде вроде


 
Danilka ©   (2003-08-26 10:43) [34]

Е-Моё имя © (26.08.03 10:33)
тогда незнаю что посоветовать, у меня все ок.



Страницы: 1 вся ветка

Текущий архив: 2003.09.15;
Скачать: CL | DM;

Наверх




Память: 0.55 MB
Время: 0.027 c
3-48416
shnidke
2003-08-25 22:32
2003.09.15
Вычисление суммы


3-48395
mihnik
2003-08-26 09:19
2003.09.15
Аналог RxMemoryTable не используя BDE


1-48490
Cherny Ivan
2003-09-04 16:51
2003.09.15
Filer.DefineBinaryProperty, и вытекающие последствия


7-48808
Genemy
2003-06-30 16:20
2003.09.15
Печать отчета


7-48816
NewJack
2003-07-02 11:20
2003.09.15
Чтение из буфера клавиатуры