Форум: "Прочее";
Текущий архив: 2013.03.22;
Скачать: [xml.tar.bz2];
ВнизПростой парсинг Найти похожие ветки
← →
Artem (2012-11-18 17:30) [0]Как программно считать все ссылки на странице на запрос в google? На любом языке.
← →
DVM © (2012-11-18 17:36) [1]забанят тебя в гугле
← →
Artem (2012-11-18 17:37) [2]
> DVM © (18.11.12 17:36) [1]
> забанят тебя в гугле
Это серьезно?
← →
Artem (2012-11-18 17:44) [3]Понятно что нет. И как?
← →
Медвежонок Пятачок © (2012-11-18 17:45) [4]в чем проблема-то?
страницу получил?
ссылки значит есть.
найти не можешь?
use regular expressions
← →
xayam © (2012-11-18 17:45) [5]
> И как?
регулярные выражения?
← →
Artem (2012-11-18 17:50) [6]Спасибо
Я думал выделять все href"ы, но тогда много лишнего получиться. Что конкретно нужно "схватывать" в регулярках?
← →
Медвежонок Пятачок © (2012-11-18 17:51) [7]Странный ты перец.
Чего тебе надо, то и схватывай.
А то я скажу, что надо схватывать ссылки на винокурни острова Айла. Оно тебе надо?
← →
Artem (2012-11-18 17:59) [8]Так я никак не разберу формат этого html googlевского
← →
AV © (2012-11-18 18:13) [9]только надо отключить все навороты, потому что гугля могёт показывать.. как это.. когда слои и прочая красивость..
А правильные сайты кажут правильно :)
wb1: TWebBrowser;
mmo1: TMemo;
wb1.Navigate("http://www.delphimaster.ru");
for j := 0 to wb1.OleObject.Document.all.tags("a").length - 1 do
begin
mmo1.Lines.Add("-----------");
mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).innerhtml);
mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).outerhtml);
mmo1.Lines.Add("-----------");
end;
← →
Artem (2012-11-18 19:43) [10]Чего-то в этом google вообще ничего нельзя разобрать...
← →
DVM © (2012-11-18 19:46) [11]
> Artem (18.11.12 17:37) [2]
>
> > DVM © (18.11.12 17:36) [1]
> > забанят тебя в гугле
>
> Это серьезно?
Вполне. Поисковикам невыгодно, чтобы кто-то парсил их выдачу. Для предотвращения этого они вынуждены формировать страницу javascript-ом, блокировать на некоторое время IP, с которого было слишком быстро для человека просмотрено несколько страниц выдачи (а значит смотрел робот) и т.д. Особо упертых банят.
← →
DVM © (2012-11-18 19:48) [12]и эта, регулярками тут не обойтись, у гугл выдача формируется jаvaScript.
← →
Artem (2012-11-18 19:48) [13]DVM, Мне просто надо сделать лабу. В которой это используется. То есть можно это в качестве аргумента использовать?))
← →
Eraser © (2012-11-18 19:54) [14]
> Artem (18.11.12 19:48) [13]
в качестве аргумента можно использовать EULA гугла.
← →
DVM © (2012-11-18 19:55) [15]
> Artem (18.11.12 19:48) [13]
> DVM, Мне просто надо сделать лабу.
Тот кто лабу задал видел исходник выдачи гугла? Без использования браузера там смотреть нечего.
> То есть можно это в качестве аргумента использовать?))
аргумента не делать лабу?
← →
Artem (2012-11-18 20:04) [16]DVM © (18.11.12 19:55) [15]
Могу задание показать...
← →
DVM © (2012-11-18 20:04) [17]
> Artem (18.11.12 20:04) [16]
ну покажи
← →
Artem (2012-11-18 20:12) [18]http://webfile.ru/6220940
← →
Artem (2012-11-18 20:13) [19]Ладно возьму другой поисковик - думаю ничего страшного.
← →
DVM © (2012-11-18 20:22) [20]
> Artem (18.11.12 20:12) [18]
Судя по заданию надо использовать браузер. Используя его DOM модель можно перебрать все ссылки (надеюсь, что они там есть, а может и даже их не быть, т.е тегов <a> может и не быть).
Вообще говоря у гугла есть недокументированная возможность получить выдачу в формате XML. Ее разбирать проще простого. Этой возможностью Google Toolbar пользуется. В интернете есть инфа по этой теме.
← →
DVM © (2012-11-18 20:24) [21]
> Ладно возьму другой поисковик - думаю ничего страшного.
возьми бинг или яндекс, там есть API выдающие данные в XML формате. Как правило там есть ограничение на число запросов в день с IP но тебе так много не понадобится.
http://yul1a.blogspot.ru/2011/07/xml.html
← →
Artem (2012-11-19 17:57) [22]Спасибо
← →
БарЛог © (2012-11-19 18:18) [23]> Как программно считать все ссылки на странице на запрос в google? На любом языке.
powershell 3.0 умеет парсить HTML-страницы
Страницы: 1 вся ветка
Форум: "Прочее";
Текущий архив: 2013.03.22;
Скачать: [xml.tar.bz2];
Память: 0.49 MB
Время: 0.087 c