Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Сети";
Текущий архив: 2007.04.29;
Скачать: [xml.tar.bz2];

Вниз

Поиск файлов определенного типа по сайту   Найти похожие ветки 

 
simplenick ©   (2006-11-03 14:00) [0]

Господа, подскажите как организовать поиск файлов определенного  типа (в данном случае RSS ленты) в пределах заданного сайта. Например, задаем сайт (заглавную страницу), на выходе получаем набор файлов с расширением .rss (.xml). Кроме того, ссылка на нужный файл может быть не в виде http://server.com/file.rss, а в виде http://server.com/rss/ т.е. файл генерируется сервером каждый раз при обращении.


 
Reindeer Moss Eater ©   (2006-11-03 14:02) [1]

xmldoc.SelectNodes("//needed_nodeName[@attributeName="нужный файл"]")


 
simplenick ©   (2006-11-03 14:11) [2]

Мне не известен "нужный файл", мне как раз надо просканировать сайт и найти все xml файлы для их последующей скачки и обработки.


 
DiamondShark ©   (2006-11-03 14:19) [3]

разбирай страничку, ищи ссылки.
грузи по ссылкам. смотри, что загрузилось, например, по Content-Type, или по самому содржимому.

ЗЫ
На http сервере нет файлов.


 
simplenick ©   (2006-11-03 14:21) [4]

Спасибо, правда трафику потратится - ужас...


 
DiamondShark ©   (2006-11-03 14:35) [5]

никакого ужоса.
для того, чтобы определить содержание контента, не надо выкачивать целиком.
в подавляющем большинстве ссылок достаточно будет хттп-хедеров. для других -- начального кусочка контента.
то, что контент не является XMLем определяется буквально по первым байтам.


 
simplenick ©   (2006-11-03 14:49) [6]

Так ведь чтоб получить список ссылок для проверки их хидеров, надо пропарсить все html.


 
DiamondShark ©   (2006-11-03 15:14) [7]

да, хтмл придётся все.
но хтмл без всей начинки -- картинок, объектов, и т.п. -- не такой уж страшный чёрт
;)


 
simplenick ©   (2006-11-03 15:19) [8]

Опять же могут быть динамические ссылки, вычисляемые в скриптах... Это наверное никак уже не обработать.


 
DiamondShark ©   (2006-11-04 22:16) [9]

да многое чего может быть.
но лучше исходить из презумпции разумности разработчика ;)

трудно вообразить себе причины, по которым потребовалось бы динамически генерировать ссылки на RSS-ленты



Страницы: 1 вся ветка

Форум: "Сети";
Текущий архив: 2007.04.29;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.46 MB
Время: 0.05 c
4-1165068114
leonidus
2006-12-02 17:01
2007.04.29
Некорректное извлечение иконки из ресурса


9-1148392549
Другой
2006-05-23 17:55
2007.04.29
Программа - резак для BMP


15-1175376233
Gero
2007-04-01 01:23
2007.04.29
Всем, кому интересна судьба DMClient


15-1175416141
Yanis
2007-04-01 12:29
2007.04.29
С праздником


2-1176060381
Ezorcist
2007-04-08 23:26
2007.04.29
перевести итый символ строки в верхний регистр?





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский