Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Начинающим";
Текущий архив: 2010.03.07;
Скачать: [xml.tar.bz2];

Вниз

прочитать файл   Найти похожие ветки 

 
ford ©   (2009-12-29 13:24) [0]

Здравствуйте!
хочу вытащить текст из PDF файла.
немогу ни как въехать, как с ним работать т.к. в нем и текстовые данные и сжатые потоковые данные одновременно
если открыть и прочесть его при помощи FileStream то он читается
но потом как? побайтно его сканировать?
вычленяя текст.....
попробовал весь поток из FileStream передать в PChar но как только в данных встречается 0 (а он запросто в потоковых данных встречается) то естественно строка обрывается


 
Медвежонок Пятачок ©   (2009-12-29 16:27) [1]

ну а как ты хотел.
не ознакомившись со спецификацией формата, с налету с повороту вынуть плайн-текст?


 
Jeer ©   (2009-12-29 16:28) [2]

"Как много нам открытий чудных
Готовит просвещенья дух.."


 
Медвежонок Пятачок ©   (2009-12-29 16:38) [3]

ну да. пытливый ум даже попробовал программу написать с pchar.
просто заглянуть внутрь pdf фаром видимо не проканало.


 
RWolf ©   (2009-12-29 17:28) [4]

используй конвертор вроде xdoc2txt, на выходе как раз получишь текст в консоль; дальше по желанию — перенаправить в файл, перехватить консольный вывод и т. п.


 
han_malign   (2009-12-29 17:59) [5]

единственный приемлемый способ который можно найти(и который рекомендуется Micsrosоft-ом):
TRichEdit + EM_STREAMIN + EM_STREAMOUT
(можно через PlainText+Text/Lines - но оно кривовато работает)

Можно конечно попробовать руками разгрести ту жалкую пару сотен тэгов с неограниченной вложенностью - но лично у меня духу не хватило...

З.Ы. RichEdit - на входе очень трепетно относится к разбивке на строки - обязательно надо приводить к стандартному CR(#13)LF(#10)...


 
han_malign   (2009-12-29 18:00) [6]

ой блин с RTF перепутал...


 
Amoeba ©   (2009-12-29 18:21) [7]


> Здравствуйте!
> хочу вытащить текст из PDF файла.
> немогу ни как въехать, как с ним работать

Или изучай формат (= закат солнца вручную),
или ищи/используй готовые решения.



Страницы: 1 вся ветка

Форум: "Начинающим";
Текущий архив: 2010.03.07;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.46 MB
Время: 0.005 c
15-1261527698
KilkennyCat
2009-12-23 03:21
2010.03.07
VBA и application.processmessage


1-1239176461
MAcK
2009-04-08 11:41
2010.03.07
TXMLTransformClient


11-1212953619
Elec3C
2008-06-08 23:33
2010.03.07
TKOLmdvXLGrid


2-1262455962
antonn
2010-01-02 21:12
2010.03.07
из регулярной процедуры в экземпляр класса


15-1261231827
AlexanderMS
2009-12-19 17:10
2010.03.07
Получить IP-адрес устройства в глобальной сети





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский