Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Сети";
Текущий архив: 2007.04.29;
Скачать: [xml.tar.bz2];

Вниз

Поиск файлов определенного типа по сайту   Найти похожие ветки 

 
simplenick ©   (2006-11-03 14:00) [0]

Господа, подскажите как организовать поиск файлов определенного  типа (в данном случае RSS ленты) в пределах заданного сайта. Например, задаем сайт (заглавную страницу), на выходе получаем набор файлов с расширением .rss (.xml). Кроме того, ссылка на нужный файл может быть не в виде http://server.com/file.rss, а в виде http://server.com/rss/ т.е. файл генерируется сервером каждый раз при обращении.


 
Reindeer Moss Eater ©   (2006-11-03 14:02) [1]

xmldoc.SelectNodes("//needed_nodeName[@attributeName="нужный файл"]")


 
simplenick ©   (2006-11-03 14:11) [2]

Мне не известен "нужный файл", мне как раз надо просканировать сайт и найти все xml файлы для их последующей скачки и обработки.


 
DiamondShark ©   (2006-11-03 14:19) [3]

разбирай страничку, ищи ссылки.
грузи по ссылкам. смотри, что загрузилось, например, по Content-Type, или по самому содржимому.

ЗЫ
На http сервере нет файлов.


 
simplenick ©   (2006-11-03 14:21) [4]

Спасибо, правда трафику потратится - ужас...


 
DiamondShark ©   (2006-11-03 14:35) [5]

никакого ужоса.
для того, чтобы определить содержание контента, не надо выкачивать целиком.
в подавляющем большинстве ссылок достаточно будет хттп-хедеров. для других -- начального кусочка контента.
то, что контент не является XMLем определяется буквально по первым байтам.


 
simplenick ©   (2006-11-03 14:49) [6]

Так ведь чтоб получить список ссылок для проверки их хидеров, надо пропарсить все html.


 
DiamondShark ©   (2006-11-03 15:14) [7]

да, хтмл придётся все.
но хтмл без всей начинки -- картинок, объектов, и т.п. -- не такой уж страшный чёрт
;)


 
simplenick ©   (2006-11-03 15:19) [8]

Опять же могут быть динамические ссылки, вычисляемые в скриптах... Это наверное никак уже не обработать.


 
DiamondShark ©   (2006-11-04 22:16) [9]

да многое чего может быть.
но лучше исходить из презумпции разумности разработчика ;)

трудно вообразить себе причины, по которым потребовалось бы динамически генерировать ссылки на RSS-ленты



Страницы: 1 вся ветка

Форум: "Сети";
Текущий архив: 2007.04.29;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.46 MB
Время: 0.045 c
6-1162540138
sfn
2006-11-03 10:48
2007.04.29
ICS — TWSocket


2-1175962435
Simba
2007-04-07 20:13
2007.04.29
Com-порт и графики


2-1176374431
denmin
2007-04-12 14:40
2007.04.29
Как открыть ранее сохраненный файл Quickreport a?


2-1176299333
BatonPolnii
2007-04-11 17:48
2007.04.29
Округление чисел


2-1176369807
vlv
2007-04-12 13:23
2007.04.29
Можно ли в Delphi создавать приложения для Windows CE?





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский