Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2005.09.25;
Скачать: [xml.tar.bz2];

Вниз

Обработка Htm докуменов   Найти похожие ветки 

 
Харлам   (2005-08-31 16:41) [0]

Добрый день уважаемые участники форума.
Столкнулся с такой проблемой .У меня есть папка с более чем 1000 htm файлов , и мне нужно просмотреть содержимое каждого файла и выдрать оттуда необходимые строки ...
Как мне это можно сделать ?..Я никогда раньше не работал с веб документами поэтому даже ума не приложу как это сделать .
Помогите пожалуйста. Подскажите где копать


 
Digitman ©   (2005-08-31 16:44) [1]


> выдрать оттуда необходимые строки


каков критерий необходимости "выдирания" стоки ?


 
Харлам   (2005-08-31 16:48) [2]

Это база данных о клиентах...
Нужно выбрать Имя Клиента Его Адрес Телефон и еще несколько позиций и перебросить все это MS Acces


 
Digitman ©   (2005-08-31 16:50) [3]


> более чем 1000 htm файлов


все эти файлы имеют одну и ту же (регулярную) структуру ?
или кто во что горазд ?


 
Jeer ©   (2005-08-31 16:51) [4]

*.htm - это обычный текстовый файл.
1.Перебор файлов:
TSearchRec,FindFirst,FindNext.
2.Чтение файла
3.Поиск в файле [части] строки.


 
Digitman ©   (2005-08-31 16:53) [5]


> Харлам   (31.08.05 16:48) [2]


и еще немаловажный вопрос : операция эта разовая или требуется всякий раз при "освежении" набора htm-файлов ?


 
Харлам   (2005-08-31 16:53) [6]

все файлы боле или менее имеет одинаковую структуру


 
Харлам   (2005-08-31 16:54) [7]

хотелось бы чтобы при добавлении файлов в папку они добавлялись и в базу ...


 
Jeer ©   (2005-08-31 16:59) [8]

Харлам   (31.08.05 16:54) [7]

Тогда учи матчасть и начни с простых вещей типа FindFirst, etc.


 
Digitman ©   (2005-08-31 17:02) [9]


> Харлам   (31.08.05 16:53) [6]



> боле или .. имеет одинаковую


будем считать , что НЕодинаковую..

в этом случае тебе прямая дорога к использованию анализатора рег.выражений (РВ)

набор строк из исх.файла для последующего их РВ-анализа проще всего будет получить импортом html-файла в Ворд2000-документ и последующего экспорта в xml-документ

далее доступ к содержимому xml-документа осуществляется средствами, например, стандартного MSXMLDOM-сервера автоматизации

бегаешь по нодам и распознаешь форму документа ..


 
Харлам   (2005-08-31 17:03) [10]

ну с этим проблем нет :) пробежаться по всем файлам я смогу , главное инфу выдрать из них


 
Харлам   (2005-08-31 17:06) [11]

этого я и боялся :) с этим вообще туговато с регеспами с xml ... ладненько спасибо , пойду подучу теорию .. Спасибо за ответы


 
Digitman ©   (2005-08-31 17:12) [12]


> главное инфу выдрать из них


вот именно ..

в одном документе шапка таблицы выглядит как "Имя Адрес Телефон"

в другом - "Address ClientName Phone"

в третьем - "№п/п Клиент ЕгоМамаПапа Судимость НомерМобилы ХдеЖивет"

в четвертом - вообще "шапки" нет

в пятом - не "шапка", а "подвал"

в шестом - таблица "перевернута" (строки стали столбцами и наоборот)

в седьмом данные вообще не в таблицном, а в некоем фривольном виде представлены

в восьмом - еще черт те что и сбоку бантик

и т.д. и т.п.

это отнюдь не говорит о нерешаемости задачи в целом, но надеяться на автоматический импорт всех 100 процентов имеющегося материала в базу не следует


 
Харлам   (2005-08-31 17:37) [13]

и все таки надежда есть :) ...
Спасибо большое .Попробую через парсинг строк скорее всего .С xml разобраться не успею - сроки поджимают . а шеф мягко говоря будет зол :)

Еще раз спасибо


 
BFG9k ©   (2005-08-31 18:16) [14]

Digitman:

> набор строк из исх.файла для последующего их РВ-анализа
> проще всего будет получить импортом html-файла в Ворд2000-документ
> и последующего экспорта в xml-документ


Где вы достаете такую траву ? :)


 
Digitman ©   (2005-09-01 09:01) [15]


> BFG9k ©   (31.08.05 18:16) [14]


Дык сам Майкрософт подогнал по случаю)
Отчего ж не воспользоваться халявой ?



Страницы: 1 вся ветка

Форум: "Основная";
Текущий архив: 2005.09.25;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.48 MB
Время: 0.04 c
4-1122581515
Михаил(Киров)
2005-07-29 00:11
2005.09.25
Еще раз про горячие клавиши


14-1125378294
Shakal
2005-08-30 09:04
2005.09.25
Плейлист в Delphi?


4-1123053208
Wind_007
2005-08-03 11:13
2005.09.25
Wab камеры


4-1122276695
NeoMaster
2005-07-25 11:31
2005.09.25
Неправильная работа потока


2-1124205803
Ксардас
2005-08-16 19:23
2005.09.25
Как програмно удалить файл?





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский