Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.08.22;
Скачать: CL | DM;

Вниз

Парсер на основе IE   Найти похожие ветки 

 
leonidus   (2004-06-21 21:06) [0]

Мастера подскажите плиз, мне надо парсить скачанные HTML-страницы, для этого хочу применитьTWebBrowser, но вот червячок грызет, а на всех ли машинах он будет нормально работать (будем считать что установлена 98-я винда и выше и соот. 5-й IE и выше), может есть просто библиотека какая нибуди (из стандартных виндовских) которая обеспечит надежный разбор html-документов?


 
alienserg   (2004-06-22 01:48) [1]

что ты понимаешь под "парсить"?
Просто получить source страницы и вычленить определенные куски?
Так это дело не для TWebBrowser, а для простого HTTP_Client.
Дело TWebBrowser не столько скачивать страницы, сколько рендерить их, хранить куки, правильно исполнять JS и Flash и т.д.


 
leonidus   (2004-06-22 08:23) [2]

"Парсить" для меня это именно получить все ссылки со страницы HREF и SRC и то же самое из фреймов - больше ничего не надо. Очень громоздкий алгоритм получается если все это выковыривать ручками, и не нет гарантии, что будет всегда правильно, поэтому и хочется применить какой-то стандартный виндовский модуль "разделки" html-документов. Что посоветуете?


 
nikkie ©   (2004-06-23 02:39) [3]

>Так это дело не для TWebBrowser
почему же, микрософт предлагает MSHTML в том числе и так использовать.

>но вот червячок грызет, а на всех ли машинах он будет нормально работать
проверять надо на системах с установленным IE4-5-6. если будешь следить за тем, чтобы не использовать интерфейсы введенные в IE5-6, то скорее всего работать будет везде. но есть некоторые различия в функциональности и можешь напороться. все можно исправить, но тестировать обязательно.

>Очень громоздкий алгоритм получается если все это выковыривать ручками
а можно и не ручками. хорошо для этого подходят регулярные выражения.


 
leonidus   (2004-06-23 10:29) [4]

Ок, спасибо всем.



Страницы: 1 вся ветка

Текущий архив: 2004.08.22;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.03 c
1-1092038380
Максим
2004-08-09 11:59
2004.08.22
Заставка для программы


9-1082992489
S.W.I.N.E.
2004-04-26 19:14
2004.08.22
Алгоритм созжания карты


3-1090836150
MORA
2004-07-26 14:02
2004.08.22
Каскадное удаление вручную


3-1091013367
don-do
2004-07-28 15:16
2004.08.22
Помогите по коду ошибки получить ее текст из файла Interbas.msg


14-1091621884
sucer
2004-08-04 16:18
2004.08.22
Странный глюк на рабочем столе WinXP