Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2007.04.29;
Скачать: CL | DM;

Вниз

Поиск файлов определенного типа по сайту   Найти похожие ветки 

 
simplenick ©   (2006-11-03 14:00) [0]

Господа, подскажите как организовать поиск файлов определенного  типа (в данном случае RSS ленты) в пределах заданного сайта. Например, задаем сайт (заглавную страницу), на выходе получаем набор файлов с расширением .rss (.xml). Кроме того, ссылка на нужный файл может быть не в виде http://server.com/file.rss, а в виде http://server.com/rss/ т.е. файл генерируется сервером каждый раз при обращении.


 
Reindeer Moss Eater ©   (2006-11-03 14:02) [1]

xmldoc.SelectNodes("//needed_nodeName[@attributeName="нужный файл"]")


 
simplenick ©   (2006-11-03 14:11) [2]

Мне не известен "нужный файл", мне как раз надо просканировать сайт и найти все xml файлы для их последующей скачки и обработки.


 
DiamondShark ©   (2006-11-03 14:19) [3]

разбирай страничку, ищи ссылки.
грузи по ссылкам. смотри, что загрузилось, например, по Content-Type, или по самому содржимому.

ЗЫ
На http сервере нет файлов.


 
simplenick ©   (2006-11-03 14:21) [4]

Спасибо, правда трафику потратится - ужас...


 
DiamondShark ©   (2006-11-03 14:35) [5]

никакого ужоса.
для того, чтобы определить содержание контента, не надо выкачивать целиком.
в подавляющем большинстве ссылок достаточно будет хттп-хедеров. для других -- начального кусочка контента.
то, что контент не является XMLем определяется буквально по первым байтам.


 
simplenick ©   (2006-11-03 14:49) [6]

Так ведь чтоб получить список ссылок для проверки их хидеров, надо пропарсить все html.


 
DiamondShark ©   (2006-11-03 15:14) [7]

да, хтмл придётся все.
но хтмл без всей начинки -- картинок, объектов, и т.п. -- не такой уж страшный чёрт
;)


 
simplenick ©   (2006-11-03 15:19) [8]

Опять же могут быть динамические ссылки, вычисляемые в скриптах... Это наверное никак уже не обработать.


 
DiamondShark ©   (2006-11-04 22:16) [9]

да многое чего может быть.
но лучше исходить из презумпции разумности разработчика ;)

трудно вообразить себе причины, по которым потребовалось бы динамически генерировать ссылки на RSS-ленты



Страницы: 1 вся ветка

Текущий архив: 2007.04.29;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.041 c
2-1175955394
=Guest=
2007-04-07 18:16
2007.04.29
Количество файлов в папке


15-1175624279
Стас
2007-04-03 22:17
2007.04.29
PII и PIV


2-1176103591
Sapos
2007-04-09 11:26
2007.04.29
Установка компонентов.


15-1175720351
Германн
2007-04-05 00:59
2007.04.29
Не долго музыка играла :(((


2-1176190517
Катеринка
2007-04-10 11:35
2007.04.29
Обработка нажатий клавиш всех процессов