Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2003.09.01;
Скачать: CL | DM;

Вниз

Формат PDF   Найти похожие ветки 

 
keymaster ©   (2003-08-13 15:06) [0]

Надо делать анализ документа, представленного в pdf

Кто знает, как он устроен?


 
dataMaster ©   (2003-08-13 15:10) [1]

Картинка, кажется. Текст можно распознать и закинуть в Word из FineReader 6.


 
keymaster ©   (2003-08-13 15:15) [2]

задача в том, чтобы обойись без файнридера и ворда...

на входе - пдф, на выходе - результат...


 
Юрий Федоров ©   (2003-08-13 15:19) [3]

Насколько я помню, это закрытый формат


 
[lamer]Barmaglot ©   (2003-08-13 15:19) [4]

http://www.wotsit.org/download.asp?f=pdfspec


 
HolACost!   (2003-08-13 15:19) [5]

Только самому, но помоему всётаки как-то можно, но формат не открыт полностью... на сколько я знаю, что типа там чутьли не каждая строка - это объект, и с ним ведётся работа! Но впринципе картинка катринкой!


 
app ©   (2003-08-13 15:24) [6]

Юрий Федоров © (13.08.03 15:19) [3]
И они пришибают всех кто идет в обход Adobe Acrobat


 
Юрий Федоров ©   (2003-08-13 15:25) [7]

>>app © (13.08.03 15:24) [6]
Если документ сложный, там в обход Adobe Acrobat далеко не уйдешь


 
keymaster ©   (2003-08-13 15:25) [8]

> [lamer]Barmaglot ©
Спасибо, скачал, буду разбираться...


 
keymaster ©   (2003-08-13 15:26) [9]

Кому интересно, в документе таблица.


 
Danilka ©   (2003-08-13 15:39) [10]

keymaster ©
есть различные парсеры пдф, как платные так и бесплатные.
из бесплатных вот-эти вроде ничего:

http://www.foolabs.com/xpdf/
умеет вытаскивать текст из пдф-ок, правда не из всех, на некоторые ругается.

http://www.ghostscript.com
много чего умеет, но надо уметь писать команды на пост-скрипте.


 
HolACost!   (2003-08-13 15:50) [11]

Картинка это изображение вставленное в файл и переведенное в двочную систему хранения информации спомощью базового компилятора машинного языка с целью более удобного восприятия ее основным процессором копьютера.


 
HolACost!   (2003-08-13 16:03) [12]

Удалено модератором


 
HolACost! ©   (2003-08-13 16:05) [13]

Удалено модератором



Страницы: 1 вся ветка

Текущий архив: 2003.09.01;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.035 c
1-1414
Aleksandr
2003-08-15 14:41
2003.09.01
Как освободить спящий поток?


14-1547
Кен
2003-08-07 02:06
2003.09.01
Нашёл хтмл-вирус. Как защитить от него ИЕ6 ?


14-1600
Best Guns
2003-08-12 17:38
2003.09.01
Ответ HTTP сервера


6-1522
XHelp
2003-06-26 20:03
2003.09.01
ICQ через HTTP Proxy


1-1481
revo
2003-08-18 12:48
2003.09.01
Как узнать занят ли файл другим приложением?