Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.03.07;
Скачать: CL | DM;

Вниз

прочитать файл   Найти похожие ветки 

 
ford ©   (2009-12-29 13:24) [0]

Здравствуйте!
хочу вытащить текст из PDF файла.
немогу ни как въехать, как с ним работать т.к. в нем и текстовые данные и сжатые потоковые данные одновременно
если открыть и прочесть его при помощи FileStream то он читается
но потом как? побайтно его сканировать?
вычленяя текст.....
попробовал весь поток из FileStream передать в PChar но как только в данных встречается 0 (а он запросто в потоковых данных встречается) то естественно строка обрывается


 
Медвежонок Пятачок ©   (2009-12-29 16:27) [1]

ну а как ты хотел.
не ознакомившись со спецификацией формата, с налету с повороту вынуть плайн-текст?


 
Jeer ©   (2009-12-29 16:28) [2]

"Как много нам открытий чудных
Готовит просвещенья дух.."


 
Медвежонок Пятачок ©   (2009-12-29 16:38) [3]

ну да. пытливый ум даже попробовал программу написать с pchar.
просто заглянуть внутрь pdf фаром видимо не проканало.


 
RWolf ©   (2009-12-29 17:28) [4]

используй конвертор вроде xdoc2txt, на выходе как раз получишь текст в консоль; дальше по желанию — перенаправить в файл, перехватить консольный вывод и т. п.


 
han_malign   (2009-12-29 17:59) [5]

единственный приемлемый способ который можно найти(и который рекомендуется Micsrosоft-ом):
TRichEdit + EM_STREAMIN + EM_STREAMOUT
(можно через PlainText+Text/Lines - но оно кривовато работает)

Можно конечно попробовать руками разгрести ту жалкую пару сотен тэгов с неограниченной вложенностью - но лично у меня духу не хватило...

З.Ы. RichEdit - на входе очень трепетно относится к разбивке на строки - обязательно надо приводить к стандартному CR(#13)LF(#10)...


 
han_malign   (2009-12-29 18:00) [6]

ой блин с RTF перепутал...


 
Amoeba ©   (2009-12-29 18:21) [7]


> Здравствуйте!
> хочу вытащить текст из PDF файла.
> немогу ни как въехать, как с ним работать

Или изучай формат (= закат солнца вручную),
или ищи/используй готовые решения.



Страницы: 1 вся ветка

Текущий архив: 2010.03.07;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.012 c
15-1261467759
zorik
2009-12-22 10:42
2010.03.07
dll в компоненте. За и против?


15-1261447784
xayam
2009-12-22 05:09
2010.03.07
Проект Россия 3


15-1261503380
xayam
2009-12-22 20:36
2010.03.07
Когда истина зависит от терминологии - часть 2


2-1262161972
pleasure
2009-12-30 11:32
2010.03.07
формы, права, доступ


2-1262083308
citizen
2009-12-29 13:41
2010.03.07
Непрерывная слежка за событием