Форум: "Сети";
Текущий архив: 2005.01.30;
Скачать: [xml.tar.bz2];
ВнизОпределение изменения Web-страницы Найти похожие ветки
← →
Sergey18 (2004-11-09 13:18) [0]Суть проблемы:
Есть программа, которая закачивает себе содержимое страниц с разнообразных сайтов в БД. Если страничка осталась неизменной, то она пропускается. Если изменилась, то она снова заносится в базу. Это я в общем плане, но суть не в этом. Проблема в определении изменения страницы:
* Возможно ли определить изменилась ли страница или нет, не загружая ее целиком? По содержимому страницы определять новизну невозможно по двум причинам:
1) База планируется большая. Запросы для сравнения будут выполняться очень долго.
2) Для экономии трафика. Чтобы каждый раз не заходить на одну и ту же страницу.
Возможно, это можно определять каким-либо образом по дате изменения или размеру страницы? Возможно ли получить каким-то образом эти данные от Web-сервера?
Спасибо.
p.s. Ведь как-то это делают различные Web-Downloader"ы...
← →
panov © (2004-11-09 13:35) [1]Использовать метод HEAD для получения заголовка страницы.
← →
Sergey18 (2004-11-10 00:00) [2]Чем мне может помочь метод HEAD? Ведь возможно, что в странице был изменен текст, а TITLE остался прежним?..
Страницы: 1 вся ветка
Форум: "Сети";
Текущий архив: 2005.01.30;
Скачать: [xml.tar.bz2];
Память: 0.44 MB
Время: 0.052 c