Обработка Htm докуменов

← →
Харлам (2005-08-31 16:41) [0]

Добрый день уважаемые участники форума.
Столкнулся с такой проблемой .У меня есть папка с более чем 1000 htm файлов , и мне нужно просмотреть содержимое каждого файла и выдрать оттуда необходимые строки ...
Как мне это можно сделать ?..Я никогда раньше не работал с веб документами поэтому даже ума не приложу как это сделать .
Помогите пожалуйста. Подскажите где копать

← →
Digitman © (2005-08-31 16:44) [1]

> выдрать оттуда необходимые строки

каков критерий необходимости "выдирания" стоки ?

← →
Харлам (2005-08-31 16:48) [2]

Это база данных о клиентах...
Нужно выбрать Имя Клиента Его Адрес Телефон и еще несколько позиций и перебросить все это MS Acces

← →
Digitman © (2005-08-31 16:50) [3]

> более чем 1000 htm файлов

все эти файлы имеют одну и ту же (регулярную) структуру ?
или кто во что горазд ?

← →
Jeer © (2005-08-31 16:51) [4]

*.htm - это обычный текстовый файл.
1.Перебор файлов:
TSearchRec,FindFirst,FindNext.
2.Чтение файла
3.Поиск в файле [части] строки.

← →
Digitman © (2005-08-31 16:53) [5]

> Харлам (31.08.05 16:48) [2]

и еще немаловажный вопрос : операция эта разовая или требуется всякий раз при "освежении" набора htm-файлов ?

← →
Харлам (2005-08-31 16:53) [6]

все файлы боле или менее имеет одинаковую структуру

← →
Харлам (2005-08-31 16:54) [7]

хотелось бы чтобы при добавлении файлов в папку они добавлялись и в базу ...

← →
Jeer © (2005-08-31 16:59) [8]

Харлам (31.08.05 16:54) [7]

Тогда учи матчасть и начни с простых вещей типа FindFirst, etc.

← →
Digitman © (2005-08-31 17:02) [9]

> Харлам (31.08.05 16:53) [6]

> боле или .. имеет одинаковую

будем считать , что НЕодинаковую..

в этом случае тебе прямая дорога к использованию анализатора рег.выражений (РВ)

набор строк из исх.файла для последующего их РВ-анализа проще всего будет получить импортом html-файла в Ворд2000-документ и последующего экспорта в xml-документ

далее доступ к содержимому xml-документа осуществляется средствами, например, стандартного MSXMLDOM-сервера автоматизации

бегаешь по нодам и распознаешь форму документа ..

← →
Харлам (2005-08-31 17:03) [10]

ну с этим проблем нет :) пробежаться по всем файлам я смогу , главное инфу выдрать из них

← →
Харлам (2005-08-31 17:06) [11]

этого я и боялся :) с этим вообще туговато с регеспами с xml ... ладненько спасибо , пойду подучу теорию .. Спасибо за ответы

> главное инфу выдрать из них

вот именно ..

в одном документе шапка таблицы выглядит как "Имя Адрес Телефон"

в другом - "Address ClientName Phone"

в третьем - "№п/п Клиент ЕгоМамаПапа Судимость НомерМобилы ХдеЖивет"

в четвертом - вообще "шапки" нет

в пятом - не "шапка", а "подвал"

в шестом - таблица "перевернута" (строки стали столбцами и наоборот)

в седьмом данные вообще не в таблицном, а в некоем фривольном виде представлены

в восьмом - еще черт те что и сбоку бантик

и т.д. и т.п.

это отнюдь не говорит о нерешаемости задачи в целом, но надеяться на автоматический импорт всех 100 процентов имеющегося материала в базу не следует

← →
Харлам (2005-08-31 17:37) [13]

и все таки надежда есть :) ...
Спасибо большое .Попробую через парсинг строк скорее всего .С xml разобраться не успею - сроки поджимают . а шеф мягко говоря будет зол :)

Еще раз спасибо

Digitman:

> набор строк из исх.файла для последующего их РВ-анализа
> проще всего будет получить импортом html-файла в Ворд2000-документ
> и последующего экспорта в xml-документ

Где вы достаете такую траву ? :)

Обработка Htm докуменов Найти похожие ветки