Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.09.25;
Скачать: CL | DM;

Вниз

Обработка Htm докуменов   Найти похожие ветки 

 
Харлам   (2005-08-31 16:41) [0]

Добрый день уважаемые участники форума.
Столкнулся с такой проблемой .У меня есть папка с более чем 1000 htm файлов , и мне нужно просмотреть содержимое каждого файла и выдрать оттуда необходимые строки ...
Как мне это можно сделать ?..Я никогда раньше не работал с веб документами поэтому даже ума не приложу как это сделать .
Помогите пожалуйста. Подскажите где копать


 
Digitman ©   (2005-08-31 16:44) [1]


> выдрать оттуда необходимые строки


каков критерий необходимости "выдирания" стоки ?


 
Харлам   (2005-08-31 16:48) [2]

Это база данных о клиентах...
Нужно выбрать Имя Клиента Его Адрес Телефон и еще несколько позиций и перебросить все это MS Acces


 
Digitman ©   (2005-08-31 16:50) [3]


> более чем 1000 htm файлов


все эти файлы имеют одну и ту же (регулярную) структуру ?
или кто во что горазд ?


 
Jeer ©   (2005-08-31 16:51) [4]

*.htm - это обычный текстовый файл.
1.Перебор файлов:
TSearchRec,FindFirst,FindNext.
2.Чтение файла
3.Поиск в файле [части] строки.


 
Digitman ©   (2005-08-31 16:53) [5]


> Харлам   (31.08.05 16:48) [2]


и еще немаловажный вопрос : операция эта разовая или требуется всякий раз при "освежении" набора htm-файлов ?


 
Харлам   (2005-08-31 16:53) [6]

все файлы боле или менее имеет одинаковую структуру


 
Харлам   (2005-08-31 16:54) [7]

хотелось бы чтобы при добавлении файлов в папку они добавлялись и в базу ...


 
Jeer ©   (2005-08-31 16:59) [8]

Харлам   (31.08.05 16:54) [7]

Тогда учи матчасть и начни с простых вещей типа FindFirst, etc.


 
Digitman ©   (2005-08-31 17:02) [9]


> Харлам   (31.08.05 16:53) [6]



> боле или .. имеет одинаковую


будем считать , что НЕодинаковую..

в этом случае тебе прямая дорога к использованию анализатора рег.выражений (РВ)

набор строк из исх.файла для последующего их РВ-анализа проще всего будет получить импортом html-файла в Ворд2000-документ и последующего экспорта в xml-документ

далее доступ к содержимому xml-документа осуществляется средствами, например, стандартного MSXMLDOM-сервера автоматизации

бегаешь по нодам и распознаешь форму документа ..


 
Харлам   (2005-08-31 17:03) [10]

ну с этим проблем нет :) пробежаться по всем файлам я смогу , главное инфу выдрать из них


 
Харлам   (2005-08-31 17:06) [11]

этого я и боялся :) с этим вообще туговато с регеспами с xml ... ладненько спасибо , пойду подучу теорию .. Спасибо за ответы


 
Digitman ©   (2005-08-31 17:12) [12]


> главное инфу выдрать из них


вот именно ..

в одном документе шапка таблицы выглядит как "Имя Адрес Телефон"

в другом - "Address ClientName Phone"

в третьем - "№п/п Клиент ЕгоМамаПапа Судимость НомерМобилы ХдеЖивет"

в четвертом - вообще "шапки" нет

в пятом - не "шапка", а "подвал"

в шестом - таблица "перевернута" (строки стали столбцами и наоборот)

в седьмом данные вообще не в таблицном, а в некоем фривольном виде представлены

в восьмом - еще черт те что и сбоку бантик

и т.д. и т.п.

это отнюдь не говорит о нерешаемости задачи в целом, но надеяться на автоматический импорт всех 100 процентов имеющегося материала в базу не следует


 
Харлам   (2005-08-31 17:37) [13]

и все таки надежда есть :) ...
Спасибо большое .Попробую через парсинг строк скорее всего .С xml разобраться не успею - сроки поджимают . а шеф мягко говоря будет зол :)

Еще раз спасибо


 
BFG9k ©   (2005-08-31 18:16) [14]

Digitman:

> набор строк из исх.файла для последующего их РВ-анализа
> проще всего будет получить импортом html-файла в Ворд2000-документ
> и последующего экспорта в xml-документ


Где вы достаете такую траву ? :)


 
Digitman ©   (2005-09-01 09:01) [15]


> BFG9k ©   (31.08.05 18:16) [14]


Дык сам Майкрософт подогнал по случаю)
Отчего ж не воспользоваться халявой ?



Страницы: 1 вся ветка

Текущий архив: 2005.09.25;
Скачать: CL | DM;

Наверх




Память: 0.5 MB
Время: 0.052 c
14-1124491610
Andy BitOff
2005-08-20 02:46
2005.09.25
Google map, помните?


2-1124355965
Гость22
2005-08-18 13:06
2005.09.25
Как в поле DBLookupComboBox1 уствновить необходимое ...


14-1125921433
Иксик
2005-09-05 15:57
2005.09.25
Чего-то тихо...


2-1124061849
Saton
2005-08-15 03:24
2005.09.25
Помогите ламеру разобраться!!!!


9-1117142330
XCoder
2005-05-27 01:18
2005.09.25
Перемещение объекта по кривой