Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2007.04.29;
Скачать: CL | DM;

Вниз

Поиск файлов определенного типа по сайту   Найти похожие ветки 

 
simplenick ©   (2006-11-03 14:00) [0]

Господа, подскажите как организовать поиск файлов определенного  типа (в данном случае RSS ленты) в пределах заданного сайта. Например, задаем сайт (заглавную страницу), на выходе получаем набор файлов с расширением .rss (.xml). Кроме того, ссылка на нужный файл может быть не в виде http://server.com/file.rss, а в виде http://server.com/rss/ т.е. файл генерируется сервером каждый раз при обращении.


 
Reindeer Moss Eater ©   (2006-11-03 14:02) [1]

xmldoc.SelectNodes("//needed_nodeName[@attributeName="нужный файл"]")


 
simplenick ©   (2006-11-03 14:11) [2]

Мне не известен "нужный файл", мне как раз надо просканировать сайт и найти все xml файлы для их последующей скачки и обработки.


 
DiamondShark ©   (2006-11-03 14:19) [3]

разбирай страничку, ищи ссылки.
грузи по ссылкам. смотри, что загрузилось, например, по Content-Type, или по самому содржимому.

ЗЫ
На http сервере нет файлов.


 
simplenick ©   (2006-11-03 14:21) [4]

Спасибо, правда трафику потратится - ужас...


 
DiamondShark ©   (2006-11-03 14:35) [5]

никакого ужоса.
для того, чтобы определить содержание контента, не надо выкачивать целиком.
в подавляющем большинстве ссылок достаточно будет хттп-хедеров. для других -- начального кусочка контента.
то, что контент не является XMLем определяется буквально по первым байтам.


 
simplenick ©   (2006-11-03 14:49) [6]

Так ведь чтоб получить список ссылок для проверки их хидеров, надо пропарсить все html.


 
DiamondShark ©   (2006-11-03 15:14) [7]

да, хтмл придётся все.
но хтмл без всей начинки -- картинок, объектов, и т.п. -- не такой уж страшный чёрт
;)


 
simplenick ©   (2006-11-03 15:19) [8]

Опять же могут быть динамические ссылки, вычисляемые в скриптах... Это наверное никак уже не обработать.


 
DiamondShark ©   (2006-11-04 22:16) [9]

да многое чего может быть.
но лучше исходить из презумпции разумности разработчика ;)

трудно вообразить себе причины, по которым потребовалось бы динамически генерировать ссылки на RSS-ленты



Страницы: 1 вся ветка

Текущий архив: 2007.04.29;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.036 c
2-1176065515
Officeman
2007-04-09 00:51
2007.04.29
TLIstView selected


9-1148392549
Другой
2006-05-23 17:55
2007.04.29
Программа - резак для BMP


11-1152569152
ANTPro
2006-07-11 02:05
2007.04.29
Unpacker для KOL


9-1148936287
TButton
2006-05-30 00:58
2007.04.29
OGL


1-1173073600
lyudmila
2007-03-05 08:46
2007.04.29
настройка StringGrid