Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2007.04.29;
Скачать: CL | DM;

Вниз

Поиск файлов определенного типа по сайту   Найти похожие ветки 

 
simplenick ©   (2006-11-03 14:00) [0]

Господа, подскажите как организовать поиск файлов определенного  типа (в данном случае RSS ленты) в пределах заданного сайта. Например, задаем сайт (заглавную страницу), на выходе получаем набор файлов с расширением .rss (.xml). Кроме того, ссылка на нужный файл может быть не в виде http://server.com/file.rss, а в виде http://server.com/rss/ т.е. файл генерируется сервером каждый раз при обращении.


 
Reindeer Moss Eater ©   (2006-11-03 14:02) [1]

xmldoc.SelectNodes("//needed_nodeName[@attributeName="нужный файл"]")


 
simplenick ©   (2006-11-03 14:11) [2]

Мне не известен "нужный файл", мне как раз надо просканировать сайт и найти все xml файлы для их последующей скачки и обработки.


 
DiamondShark ©   (2006-11-03 14:19) [3]

разбирай страничку, ищи ссылки.
грузи по ссылкам. смотри, что загрузилось, например, по Content-Type, или по самому содржимому.

ЗЫ
На http сервере нет файлов.


 
simplenick ©   (2006-11-03 14:21) [4]

Спасибо, правда трафику потратится - ужас...


 
DiamondShark ©   (2006-11-03 14:35) [5]

никакого ужоса.
для того, чтобы определить содержание контента, не надо выкачивать целиком.
в подавляющем большинстве ссылок достаточно будет хттп-хедеров. для других -- начального кусочка контента.
то, что контент не является XMLем определяется буквально по первым байтам.


 
simplenick ©   (2006-11-03 14:49) [6]

Так ведь чтоб получить список ссылок для проверки их хидеров, надо пропарсить все html.


 
DiamondShark ©   (2006-11-03 15:14) [7]

да, хтмл придётся все.
но хтмл без всей начинки -- картинок, объектов, и т.п. -- не такой уж страшный чёрт
;)


 
simplenick ©   (2006-11-03 15:19) [8]

Опять же могут быть динамические ссылки, вычисляемые в скриптах... Это наверное никак уже не обработать.


 
DiamondShark ©   (2006-11-04 22:16) [9]

да многое чего может быть.
но лучше исходить из презумпции разумности разработчика ;)

трудно вообразить себе причины, по которым потребовалось бы динамически генерировать ссылки на RSS-ленты



Страницы: 1 вся ветка

Текущий архив: 2007.04.29;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.07 c
15-1175840061
Anubis2
2007-04-06 10:14
2007.04.29
Создание текстового файла


2-1176365667
dzhagr
2007-04-12 12:14
2007.04.29
TDBGrid


4-1165163623
RealGanj
2006-12-03 19:33
2007.04.29
BallonHint


15-1175674636
Vlad Oshin
2007-04-04 12:17
2007.04.29
Программный доступ к проекту Visual Basic не является доверенным


6-1162551641
simplenick
2006-11-03 14:00
2007.04.29
Поиск файлов определенного типа по сайту