Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2010.03.07;
Скачать: CL | DM;

Вниз

прочитать файл   Найти похожие ветки 

 
ford ©   (2009-12-29 13:24) [0]

Здравствуйте!
хочу вытащить текст из PDF файла.
немогу ни как въехать, как с ним работать т.к. в нем и текстовые данные и сжатые потоковые данные одновременно
если открыть и прочесть его при помощи FileStream то он читается
но потом как? побайтно его сканировать?
вычленяя текст.....
попробовал весь поток из FileStream передать в PChar но как только в данных встречается 0 (а он запросто в потоковых данных встречается) то естественно строка обрывается


 
Медвежонок Пятачок ©   (2009-12-29 16:27) [1]

ну а как ты хотел.
не ознакомившись со спецификацией формата, с налету с повороту вынуть плайн-текст?


 
Jeer ©   (2009-12-29 16:28) [2]

"Как много нам открытий чудных
Готовит просвещенья дух.."


 
Медвежонок Пятачок ©   (2009-12-29 16:38) [3]

ну да. пытливый ум даже попробовал программу написать с pchar.
просто заглянуть внутрь pdf фаром видимо не проканало.


 
RWolf ©   (2009-12-29 17:28) [4]

используй конвертор вроде xdoc2txt, на выходе как раз получишь текст в консоль; дальше по желанию — перенаправить в файл, перехватить консольный вывод и т. п.


 
han_malign   (2009-12-29 17:59) [5]

единственный приемлемый способ который можно найти(и который рекомендуется Micsrosоft-ом):
TRichEdit + EM_STREAMIN + EM_STREAMOUT
(можно через PlainText+Text/Lines - но оно кривовато работает)

Можно конечно попробовать руками разгрести ту жалкую пару сотен тэгов с неограниченной вложенностью - но лично у меня духу не хватило...

З.Ы. RichEdit - на входе очень трепетно относится к разбивке на строки - обязательно надо приводить к стандартному CR(#13)LF(#10)...


 
han_malign   (2009-12-29 18:00) [6]

ой блин с RTF перепутал...


 
Amoeba ©   (2009-12-29 18:21) [7]


> Здравствуйте!
> хочу вытащить текст из PDF файла.
> немогу ни как въехать, как с ним работать

Или изучай формат (= закат солнца вручную),
или ищи/используй готовые решения.



Страницы: 1 вся ветка

Текущий архив: 2010.03.07;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.017 c
1-1239551806
Student
2009-04-12 19:56
2010.03.07
Сохранение и поиск в Web странице


10-1163588110
312kbps
2006-11-15 13:55
2010.03.07
Получить конект через IDispatch !


2-1261834445
Токи
2009-12-26 16:34
2010.03.07
Проблема с БД на парадоксе


6-1211355931
lead-in
2008-05-21 11:45
2010.03.07
посылка сообщения в локальной сети


15-1261258220
Юрий
2009-12-20 00:30
2010.03.07
С днем рождения ! 20 декабря 2009 воскресенье