Форум: "Потрепаться";
Поиск по всему сайту: delphimaster.net;
Текущий архив: 2002.04.22;
Скачать: [xml.tar.bz2];




Вниз

Текст в .doc 


Ajax   (2002-03-13 19:09) [0]

Мне нужно получить весь текст из вордовского файла, причем форматирование и всякие там картинки меня не интересуют. Только текст. Я так поковырял немножко doc, чего-то не понятно. Часть текста видно, часть нет. Возможно там своя кодировка? Какие есть варианты по получение текста? (OLE использовать нежелательно)



VictorT   (2002-03-13 19:26) [1]

Начиная с 97 Ворда в документах используется так называемая кодировка unicode.



Ajax   (2002-03-13 19:50) [2]

Я вроде бы нашел где в doc текст прячется. Смещение 2560, но это только на основе нескольких опытов. Было бы хорошо что-нибудь по-цивильнее...

Попробую в сети про unicode поискать, но если у кого-то есть готовый код, не откажусь.



Дмитрий   (2002-03-13 20:37) [3]

Дарю.

const wdFormatDocument = 0;
wdFormatDOSText = 4;
wdFormatDOSTextLineBreaks = 3;
wdFormatEncodedText = 7;
wdFormatHTML = 8;
wdFormatRTF = 6;
wdFormatTemplate = 1;
wdFormatText = 2;
wdFormatTextLineBreaks = 3;
wdFormatUnicodeText = 7;

{ Это из .tlb }


function ConvertDir(const InDir, OutDir: string): boolean;
var Doc: OleVariant;
F: TSearchRec;
begin
try
CoInitialize(nil);
Doc:=CreateOleObject("Word.Application");
if not (DirectoryExists(OutDir)) then
CreateDirectory(PChar(OutDir), nil);
if FindFirst(InDir+"\*.doc", faAnyFile, F) = 0 then
begin
while FindNext(F) = 0 do
begin
Doc.Documents.Open(InDir+"\"+F.Name);
Doc.ActiveDocument.SaveAs(FileName:=OutDir+"\"+ChangeFileExt(F.Name, ".txt"), FileFormat:=3);
Doc.ActiveDocument.Close();
Application.ProcessMessages();
end;
end;
finally
begin
Doc.Quit;
Doc:=unassigned;
end;
CoUninitialize();
end;
end;



Дмитрий   (2002-03-13 20:41) [4]

..только я не понял, чем вас COM не устраивает? Не нравится OleVariant - импортируйте TypeLibrary.




Форум: "Потрепаться";
Поиск по всему сайту: delphimaster.net;
Текущий архив: 2002.04.22;
Скачать: [xml.tar.bz2];




Наверх





Память: 0.72 MB
Время: 0.034 c
4-70059           Swinger               2002-02-18 20:30  2002.04.22  
Последовательный запуск двух программ.


1-69841           VEG                   2002-04-10 21:18  2002.04.22  
Загрузить программу из оперативки


14-69994          Дмитрий               2002-03-15 12:24  2002.04.22  
Документооборот?


4-70069           ATLANTIDO             2002-02-14 18:01  2002.04.22  
Верхнее окно


14-70026          Esa                   2002-03-18 13:40  2002.04.22  
AccessViolation