Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Потрепаться";
Текущий архив: 2003.09.15;
Скачать: [xml.tar.bz2];

Вниз

средства для работы с PDF   Найти похожие ветки 

 
Е-Моё имя   (2003-08-21 18:16) [0]

есть PDF файлы
в них таблички
как достать оттуда эти таблички?
(например для помещения в Excel)


 
Jeer   (2003-08-21 18:18) [1]

pdf - конечный формат, хотя..


 
Е-Моё имя   (2003-08-21 18:23) [2]

есть же средства доступа к тексту внутри pdf
гугль их даже индексирует вроде
яндекс вроде тоже, но не уверен


 
Jeer   (2003-08-21 18:43) [3]

к тексту есть, но это все не вполне легально.


 
ИМХО   (2003-08-21 18:44) [4]

Видал одну прогу, но она стоила туеву хучу вечнозеленых.


 
Е-Моё имя   (2003-08-21 18:52) [5]

Jeer © (21.08.03 18:43)
правда?
ИМХО © (21.08.03 18:44)
мда....тяжко...


 
Е-Моё имя   (2003-08-25 10:50) [6]

эта...
вопрос по сей день актуален
как достать таблички из pdf файла?
средства за 500-??? USD не предлагать ;)


 
Nikky   (2003-08-25 10:51) [7]

pdf можно только смотреть, даже закон вроде такой есть


 
Е-Моё имя   (2003-08-25 10:52) [8]

закон о СМИ?
;-)))))


 
HolACost!   (2003-08-25 10:52) [9]

Ну типа распознай катинку!


 
Е-Моё имя   (2003-08-25 10:54) [10]

Nikky © (25.08.03 10:51) [7]
мне и не нужно его менять, хотя это возможно
мне просто табличку....мааааленькую табличку....
на самом деле таблиц до фига, поэтому вручную вопрос не решается


 
Е-Моё имя   (2003-08-25 10:55) [11]

HolACost! © (25.08.03 10:52) [9]
поадекватнее бы способ найти...


 
Reindeer Moss Eater   (2003-08-25 10:57) [12]

FineReader 6.0


 
HolACost!   (2003-08-25 10:59) [13]

Вот я про него и говорю!
Есть второй вариант - попробовать понять как строится формат - в этом вам поможет latex!


 
Е-Моё имя   (2003-08-25 11:02) [14]

мне распознавание кажется не самым подходящим средством
в табличках важные данные, не допускающие неправильного распознания
за файнридер я поручится не могу, в какую сторону его переклинит
к тому же это нужно делать руками (распознавать)

как он нам поможет?


 
Reindeer Moss Eater   (2003-08-25 11:03) [15]

Найди программу Acrobat


 
Е-Моё имя   (2003-08-25 11:03) [16]

как строицца формат - наверное в SDK написано
он совсем небесплатный ((


 
Е-Моё имя   (2003-08-25 11:03) [17]


> Reindeer Moss Eater © (25.08.03 11:03) [15]

нашел
запускать?


 
Danilka   (2003-08-25 11:07) [18]

ню-ню, закон говоришь? :))
а чего-же тогда на адобевском сайте свободно лежит файл PDFRef.pdf, в котором подробно, на семисот листах расписан формат файла?
а туеву хучу стоит потому как на семисот листах...

Есть опен-сорсе проект GhostScript, которй умеет парсить pdf-файлы, но там все заморочено, надо знать язык пост-скрипт, хотя, времени чтобы разобраться уйжет намного меньше, чем разгребая описание формата.
А еще, как вариант - через адобе Акробат активХ, только вот не знаю, есть ли АктивХ у Акробат-Ридера. Как работать по этому варианту - ищи в гугле, в свое время я находил кучу ссылок.


 
Reindeer Moss Eater   (2003-08-25 11:09) [19]

Е-Моё имя © (25.08.03 11:03) [17]

> Reindeer Moss Eater © (25.08.03 11:03) [15]

нашел
запускать?


Ты наверняка нашел Acrobat Reader. А я говорил про Acrobat.


 
Е-Моё имя   (2003-08-25 11:09) [20]


> GhostScript, которй умеет парсить pdf-файлы

безрадостная перспектива((


> есть ли АктивХ

есть, но он табличек вроде как не дает


 
Е-Моё имя   (2003-08-25 11:11) [21]


> Reindeer Moss Eater © (25.08.03 11:09) [19]

не, все нормально
Acrobat 5.0.0


 
Danilka   (2003-08-25 11:25) [22]

Еще вариант, у меня на винте валяется pdf2html, название уже о чем-то говорит, натравил его на pdf-ку: вместо русских букв - точки.
Заглянул в реадме, там написано "Pdftohtml was developed by Gueorgui Ovtcharov and Rainer Dorsch..."
Вроде русский, значит есть вероятность, что буковки русские заработают.
Сам pdf2html живет вот-здесь:
http://sourceforge.net/projects/pdftohtml


 
Е-Моё имя   (2003-08-25 11:35) [23]


> Danilka © (25.08.03 11:25) [22]

ок, спасибо, испробую


 
KSergey   (2003-08-25 11:42) [24]

Это надо автоматически делать или как? Или 1 раз?

Reindeer Moss Eater © (25.08.03 11:03)
Найди программу Acrobat


Я нашел. Извиняюсь за ламмерность, но пока я ее не видел - я думал, что это что-то типа ворда (по идее). А оказалось, что по сути в PDF - картинка и есть.
Хотя текст из него даже Redarom вроде выковыриватеся легко. Правда, потом ручками доводить надо.
Я не знаю, что у автора за табличка, но в принципе вытянуть ручками (в режиме "выделение текста" и потом ручками же доработать- обычно можно. Но это, безусловно, если 1,2 раза надо. И не автоматически.


 
Е-Моё имя   (2003-08-25 11:44) [25]


> Это надо автоматически делать или как? Или 1 раз?

хм...
автоматически, ежемесячно
документ порядка 100 листов, в-основном таблицы


 
Е-Моё имя   (2003-08-25 14:36) [26]

Danilka © (25.08.03 11:25) [22]
> есть вероятность, что буковки русские заработают.

не заработали((


 
Danilka   (2003-08-26 09:50) [27]

Е-Моё имя © (25.08.03 14:36)
Вобщем так, в ентой pdftohtml написано, что она сделана на базе xpdf, которая у меня также валялась на винте :))
в этой самой xpdf есть файл конфигурации содержащий параметр textEncoding, подставил в него win-1251 не работает, прогулялся на ихний сайт - нашел фалы с кирилицей и описание как ее использовать. Кои-8, но все равно, русский текст "распознался".
Правда, таблицы получились по-дурацки, но, при желании, из полученого текста можно вытащить информацию, в том числе и автоматом.

xpdf живет здесь: http://www.foolabs.com/xpdf/


 
Е-Моё имя   (2003-08-26 10:09) [28]

Danilka © (26.08.03 09:50) [27]
да, ходил по этому пути (прочитал про xpdf, нашел, поставил КОИ)
но мой текст не распознался
(((
парюсь щас ищю другие средства..((


 
Danilka   (2003-08-26 10:13) [29]

Странно, у меня все русские буковки распознались, без проблем, в кои-8.
Причем текст довольно замороченый, форматирование замороченое, таблицы замороченые.


 
Е-Моё имя   (2003-08-26 10:17) [30]


> Danilka © (26.08.03 10:13) [29]

значит руки у меня из оттудава (((((
ща еще рас папробуйу


 
Е-Моё имя   (2003-08-26 10:20) [31]

Danilka © (26.08.03 10:13)

а ты pdftotext использовал?
я его запускал
в ридми написано про xpdf file.pdf
но самого xpdf у мну нету в архиве
ты чем конвертил?


 
Danilka   (2003-08-26 10:30) [32]

Е-Моё имя © (26.08.03 10:20)
pdftotext это одна из программ комплекта xpdf. :))
для того чтобы работали русские буковки, ндао скачать с ихнего сайта файл xpdf-cyrillic.tar.gz это архив, у него внутри еще один архив: xpdf-cyrillic.tar, у которого внутри каталог xpdf-cyrillic в котором лежат файлы:
Bulgarian.nameToUnicode
KOI8-R.unicodeMap
надо эти файлы выложить в один каталог с pdftotext.exe, в этом-же каталоге есть файл конфигурации xpdfrc в котором надо дописать, в любое место:
nameToUnicode Bulgarian.nameToUnicode
unicodeMap KOI8-R KOI8-R.unicodeMap
textEncoding KOI8-R

и все, наслаждайся русскими буковками. :))


 
Е-Моё имя   (2003-08-26 10:33) [33]


> Danilka © (26.08.03 10:30) [32]

хе,
> Е-Моё имя © (26.08.03 10:09) [28]

невнимательно читал
все это я сделал
запускаю pdftotext file.pdf
меня смутила вот что:

To run xpdf, simply type:

xpdf file.pdf

To generate a plain text file, run pdftotext:

pdftotext file.pdf

xpdf.exe у меня нет
а всякие pdfto... есть
pdftotext не хавает мои русские буквы
они там в юникоде вроде


 
Danilka   (2003-08-26 10:43) [34]

Е-Моё имя © (26.08.03 10:33)
тогда незнаю что посоветовать, у меня все ок.



Страницы: 1 вся ветка

Форум: "Потрепаться";
Текущий архив: 2003.09.15;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.51 MB
Время: 0.012 c
1-48598
ЮРИЙ_К
2003-09-01 14:57
2003.09.15
Хинт на TreeView после себя сильно мусорит.


14-48749
Knight
2003-08-26 08:06
2003.09.15
Miranda рулит...


14-48778
Е-Моё имя
2003-08-21 18:16
2003.09.15
средства для работы с PDF


14-48692
Grouzd[E]v
2003-08-24 18:38
2003.09.15
Будете смеятся: как работать с архивами??? - я еще новичок :(((


1-48638
td
2003-09-03 08:59
2003.09.15
TreeView





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский