Форум: "Прочее";
Текущий архив: 2008.03.09;
Скачать: [xml.tar.bz2];
Внизвопрос по Wget Найти похожие ветки
← →
Tirael (2008-02-01 03:55) [0]нашел вот замечательную утилитку, только есть проблема - пишут что принимает во внимание файл robots.txt, и в настройках я не нашел как это отключить.
а поблема вот в чем: мне нужно скачать страницу со всеми картинками и т.п. содержимым, но на некоторых сайтах, например яндексе, робот.тхт запрещает индексирование, и соответственно wget выдает только HTML :(
кто нить знает как это побороть?
← →
Zeqfreed © (2008-02-01 07:08) [1]Блин, люди.
sed -i "s/robots = on/robots = off/" /etc/wget/wgetrc
← →
homm © (2008-02-01 07:35) [2]> [0] Tirael (01.02.08 03:55)
> но на некоторых сайтах, например яндексе, робот.тхт запрещает
> индексирование, и соответственно wget выдает только HTML
Я что-то здесь не улавливаю никаково соответствия. При чем здесь картинки и индексирование?
← →
ketmar © (2008-02-01 12:51) [3]>При чем здесь картинки и индексирование?
при том, что психоактивные вещества.
← →
TUser © (2008-02-01 13:08) [4]wget -p ?
← →
Tirael (2008-02-01 14:44) [5]
> TUser © (01.02.08 13:08) [4]
> wget -p ?
угу, вот только если индексирование запрещено то вернет только HTML, я ж об этом писал, попробуй например на главной странице яндекса
> Zeqfreed © (01.02.08 07:08) [1]
> Блин, люди.sed -i "s/robots = on/robots = off/" /etc/wget/wgetrc
если честно, ничего не понял, можешь поподробнее?
← →
Zeqfreed © (2008-02-01 14:49) [6]> Tirael (01.02.08 14:44) [5]
У wget есть конфигурационный файл. В нем есть комментарии. В них все расписано подробненько. Даже есть закомментированная дефолтная настройка robots = on.
← →
Tirael (2008-02-01 15:52) [7]
> Zeqfreed © (01.02.08 14:49) [6]
> > Tirael (01.02.08 14:44) [5]У wget есть конфигурационный
> файл. В нем есть комментарии. В них все расписано подробненько.
> Даже есть закомментированная дефолтная настройка robots
> = on.
у меня нет никакого файла, просто эксешник размером 304 кб, при запуске никаких конфигурационных файлов не создает
← →
Style © (2008-02-01 16:17) [8]
> эксешник
8-O
ты вообще в какой ОС работаеш?
← →
Tirael (2008-02-01 16:42) [9]в винде...
← →
Zeqfreed © (2008-02-01 17:28) [10]> Tirael (01.02.08 15:52) [7]
Набираем в гугле «wget windows configuration file».
Идем по ссылкам. Попадаем на http://gnuwin32.sourceforge.net/packages/wget.htm
Скачиваем архив с документацией. Открываем из него wget.html любимым браузером.
Читаем следующее:
If you know what you are doing and really really wish to turn off the robot exclusion, set the robots variable to `off" in your .wgetrc. You can achieve the same effect from the command line using the -e switch, e.g. `wget -e robots=off url...".
Свои мозги кому-то продал?
← →
Tirael (2008-02-01 19:00) [11]
> Zeqfreed © (01.02.08 17:28) [10]
> > Tirael (01.02.08 15:52) [7]Набираем в гугле «wget windows
> configuration file».Идем по ссылкам. Попадаем на http://gnuwin32.
> sourceforge.net/packages/wget.htmСкачиваем архив с документацией.
> Открываем из него wget.html любимым браузером.Читаем следующее:
> If you know what you are doing and really really wish to
> turn off the robot exclusion, set the robots variable to
> `off" in your .wgetrc. You can achieve the same effect from
> the command line using the -e switch, e.g. `wget -e robots=off
> url...".Свои мозги кому-то продал?
ну не все же такие умные как ты...
← →
Tirael (2008-02-01 19:09) [12]нда, дело видать было не в этом, с отключенным роботс.тхт все равно с яндекса не качает картинки :(
← →
VirEx © (2008-02-01 19:32) [13]там же в википедии говорят что http://ru.wikipedia.org/wiki/CURL лучше, а еще лучше не использовать эту обертку, а прямо - Libcurl
← →
ketmar © (2008-02-01 23:19) [14]>Свои мозги кому-то продал?
их там дизайном не предусмотрено.
Страницы: 1 вся ветка
Форум: "Прочее";
Текущий архив: 2008.03.09;
Скачать: [xml.tar.bz2];
Память: 0.47 MB
Время: 0.044 c