Текущий архив: 2005.09.25;
Скачать: CL | DM;
Вниз
Обработка Htm докуменов Найти похожие ветки
← →
Харлам (2005-08-31 16:41) [0]Добрый день уважаемые участники форума.
Столкнулся с такой проблемой .У меня есть папка с более чем 1000 htm файлов , и мне нужно просмотреть содержимое каждого файла и выдрать оттуда необходимые строки ...
Как мне это можно сделать ?..Я никогда раньше не работал с веб документами поэтому даже ума не приложу как это сделать .
Помогите пожалуйста. Подскажите где копать
← →
Digitman © (2005-08-31 16:44) [1]
> выдрать оттуда необходимые строки
каков критерий необходимости "выдирания" стоки ?
← →
Харлам (2005-08-31 16:48) [2]Это база данных о клиентах...
Нужно выбрать Имя Клиента Его Адрес Телефон и еще несколько позиций и перебросить все это MS Acces
← →
Digitman © (2005-08-31 16:50) [3]
> более чем 1000 htm файлов
все эти файлы имеют одну и ту же (регулярную) структуру ?
или кто во что горазд ?
← →
Jeer © (2005-08-31 16:51) [4]*.htm - это обычный текстовый файл.
1.Перебор файлов:
TSearchRec,FindFirst,FindNext.
2.Чтение файла
3.Поиск в файле [части] строки.
← →
Digitman © (2005-08-31 16:53) [5]
> Харлам (31.08.05 16:48) [2]
и еще немаловажный вопрос : операция эта разовая или требуется всякий раз при "освежении" набора htm-файлов ?
← →
Харлам (2005-08-31 16:53) [6]все файлы боле или менее имеет одинаковую структуру
← →
Харлам (2005-08-31 16:54) [7]хотелось бы чтобы при добавлении файлов в папку они добавлялись и в базу ...
← →
Jeer © (2005-08-31 16:59) [8]Харлам (31.08.05 16:54) [7]
Тогда учи матчасть и начни с простых вещей типа FindFirst, etc.
← →
Digitman © (2005-08-31 17:02) [9]
> Харлам (31.08.05 16:53) [6]
> боле или .. имеет одинаковую
будем считать , что НЕодинаковую..
в этом случае тебе прямая дорога к использованию анализатора рег.выражений (РВ)
набор строк из исх.файла для последующего их РВ-анализа проще всего будет получить импортом html-файла в Ворд2000-документ и последующего экспорта в xml-документ
далее доступ к содержимому xml-документа осуществляется средствами, например, стандартного MSXMLDOM-сервера автоматизации
бегаешь по нодам и распознаешь форму документа ..
← →
Харлам (2005-08-31 17:03) [10]ну с этим проблем нет :) пробежаться по всем файлам я смогу , главное инфу выдрать из них
← →
Харлам (2005-08-31 17:06) [11]этого я и боялся :) с этим вообще туговато с регеспами с xml ... ладненько спасибо , пойду подучу теорию .. Спасибо за ответы
← →
Digitman © (2005-08-31 17:12) [12]
> главное инфу выдрать из них
вот именно ..
в одном документе шапка таблицы выглядит как "Имя Адрес Телефон"
в другом - "Address ClientName Phone"
в третьем - "№п/п Клиент ЕгоМамаПапа Судимость НомерМобилы ХдеЖивет"
в четвертом - вообще "шапки" нет
в пятом - не "шапка", а "подвал"
в шестом - таблица "перевернута" (строки стали столбцами и наоборот)
в седьмом данные вообще не в таблицном, а в некоем фривольном виде представлены
в восьмом - еще черт те что и сбоку бантик
и т.д. и т.п.
это отнюдь не говорит о нерешаемости задачи в целом, но надеяться на автоматический импорт всех 100 процентов имеющегося материала в базу не следует
← →
Харлам (2005-08-31 17:37) [13]и все таки надежда есть :) ...
Спасибо большое .Попробую через парсинг строк скорее всего .С xml разобраться не успею - сроки поджимают . а шеф мягко говоря будет зол :)
Еще раз спасибо
← →
BFG9k © (2005-08-31 18:16) [14]Digitman:
> набор строк из исх.файла для последующего их РВ-анализа
> проще всего будет получить импортом html-файла в Ворд2000-документ
> и последующего экспорта в xml-документ
Где вы достаете такую траву ? :)
← →
Digitman © (2005-09-01 09:01) [15]
> BFG9k © (31.08.05 18:16) [14]
Дык сам Майкрософт подогнал по случаю)
Отчего ж не воспользоваться халявой ?
Страницы: 1 вся ветка
Текущий архив: 2005.09.25;
Скачать: CL | DM;
Память: 0.48 MB
Время: 0.034 c