Форум: "Начинающим";
Текущий архив: 2010.03.07;
Скачать: [xml.tar.bz2];
Внизпрочитать файл Найти похожие ветки
← →
ford © (2009-12-29 13:24) [0]Здравствуйте!
хочу вытащить текст из PDF файла.
немогу ни как въехать, как с ним работать т.к. в нем и текстовые данные и сжатые потоковые данные одновременно
если открыть и прочесть его при помощи FileStream то он читается
но потом как? побайтно его сканировать?
вычленяя текст.....
попробовал весь поток из FileStream передать в PChar но как только в данных встречается 0 (а он запросто в потоковых данных встречается) то естественно строка обрывается
← →
Медвежонок Пятачок © (2009-12-29 16:27) [1]ну а как ты хотел.
не ознакомившись со спецификацией формата, с налету с повороту вынуть плайн-текст?
← →
Jeer © (2009-12-29 16:28) [2]"Как много нам открытий чудных
Готовит просвещенья дух.."
← →
Медвежонок Пятачок © (2009-12-29 16:38) [3]ну да. пытливый ум даже попробовал программу написать с pchar.
просто заглянуть внутрь pdf фаром видимо не проканало.
← →
RWolf © (2009-12-29 17:28) [4]используй конвертор вроде xdoc2txt, на выходе как раз получишь текст в консоль; дальше по желанию — перенаправить в файл, перехватить консольный вывод и т. п.
← →
han_malign (2009-12-29 17:59) [5]единственный приемлемый способ который можно найти(и который рекомендуется Micsrosоft-ом):
TRichEdit + EM_STREAMIN + EM_STREAMOUT
(можно через PlainText+Text/Lines - но оно кривовато работает)
Можно конечно попробовать руками разгрести ту жалкую пару сотен тэгов с неограниченной вложенностью - но лично у меня духу не хватило...
З.Ы. RichEdit - на входе очень трепетно относится к разбивке на строки - обязательно надо приводить к стандартному CR(#13)LF(#10)...
← →
han_malign (2009-12-29 18:00) [6]ой блин с RTF перепутал...
← →
Amoeba © (2009-12-29 18:21) [7]
> Здравствуйте!
> хочу вытащить текст из PDF файла.
> немогу ни как въехать, как с ним работать
Или изучай формат (= закат солнца вручную),
или ищи/используй готовые решения.
Страницы: 1 вся ветка
Форум: "Начинающим";
Текущий архив: 2010.03.07;
Скачать: [xml.tar.bz2];
Память: 0.46 MB
Время: 0.004 c