Форум: "Сети";
Текущий архив: 2007.04.29;
Скачать: [xml.tar.bz2];
ВнизПоиск файлов определенного типа по сайту Найти похожие ветки
← →
simplenick © (2006-11-03 14:00) [0]Господа, подскажите как организовать поиск файлов определенного типа (в данном случае RSS ленты) в пределах заданного сайта. Например, задаем сайт (заглавную страницу), на выходе получаем набор файлов с расширением .rss (.xml). Кроме того, ссылка на нужный файл может быть не в виде http://server.com/file.rss, а в виде http://server.com/rss/ т.е. файл генерируется сервером каждый раз при обращении.
← →
Reindeer Moss Eater © (2006-11-03 14:02) [1]xmldoc.SelectNodes("//needed_nodeName[@attributeName="нужный файл"]")
← →
simplenick © (2006-11-03 14:11) [2]Мне не известен "нужный файл", мне как раз надо просканировать сайт и найти все xml файлы для их последующей скачки и обработки.
← →
DiamondShark © (2006-11-03 14:19) [3]разбирай страничку, ищи ссылки.
грузи по ссылкам. смотри, что загрузилось, например, по Content-Type, или по самому содржимому.
ЗЫ
На http сервере нет файлов.
← →
simplenick © (2006-11-03 14:21) [4]Спасибо, правда трафику потратится - ужас...
← →
DiamondShark © (2006-11-03 14:35) [5]никакого ужоса.
для того, чтобы определить содержание контента, не надо выкачивать целиком.
в подавляющем большинстве ссылок достаточно будет хттп-хедеров. для других -- начального кусочка контента.
то, что контент не является XMLем определяется буквально по первым байтам.
← →
simplenick © (2006-11-03 14:49) [6]Так ведь чтоб получить список ссылок для проверки их хидеров, надо пропарсить все html.
← →
DiamondShark © (2006-11-03 15:14) [7]да, хтмл придётся все.
но хтмл без всей начинки -- картинок, объектов, и т.п. -- не такой уж страшный чёрт
;)
← →
simplenick © (2006-11-03 15:19) [8]Опять же могут быть динамические ссылки, вычисляемые в скриптах... Это наверное никак уже не обработать.
← →
DiamondShark © (2006-11-04 22:16) [9]да многое чего может быть.
но лучше исходить из презумпции разумности разработчика ;)
трудно вообразить себе причины, по которым потребовалось бы динамически генерировать ссылки на RSS-ленты
Страницы: 1 вся ветка
Форум: "Сети";
Текущий архив: 2007.04.29;
Скачать: [xml.tar.bz2];
Память: 0.46 MB
Время: 0.042 c