Простой парсинг

← →
Artem (2012-11-18 17:30) [0]

Как программно считать все ссылки на странице на запрос в google? На любом языке.

← →
DVM © (2012-11-18 17:36) [1]

забанят тебя в гугле

← →
Artem (2012-11-18 17:37) [2]

> DVM © (18.11.12 17:36) [1]
> забанят тебя в гугле

Это серьезно?

← →
Artem (2012-11-18 17:44) [3]

Понятно что нет. И как?

← →
Медвежонок Пятачок © (2012-11-18 17:45) [4]

в чем проблема-то?
страницу получил?
ссылки значит есть.
найти не можешь?

use regular expressions

← →
xayam © (2012-11-18 17:45) [5]

> И как?

регулярные выражения?

← →
Artem (2012-11-18 17:50) [6]

Спасибо
Я думал выделять все href"ы, но тогда много лишнего получиться. Что конкретно нужно "схватывать" в регулярках?

← →
Медвежонок Пятачок © (2012-11-18 17:51) [7]

Странный ты перец.
Чего тебе надо, то и схватывай.
А то я скажу, что надо схватывать ссылки на винокурни острова Айла. Оно тебе надо?

← →
Artem (2012-11-18 17:59) [8]

Так я никак не разберу формат этого html googlевского

← →
AV © (2012-11-18 18:13) [9]

только надо отключить все навороты, потому что гугля могёт показывать.. как это.. когда слои и прочая красивость..

А правильные сайты кажут правильно :)

wb1: TWebBrowser;
mmo1: TMemo;

wb1.Navigate("http://www.delphimaster.ru");

for j := 0 to wb1.OleObject.Document.all.tags("a").length - 1 do
begin
mmo1.Lines.Add("-----------");
mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).innerhtml);
mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).outerhtml);
mmo1.Lines.Add("-----------");
end;

← →
Artem (2012-11-18 19:43) [10]

Чего-то в этом google вообще ничего нельзя разобрать...

← →
DVM © (2012-11-18 19:46) [11]

> Artem (18.11.12 17:37) [2]
>
> > DVM © (18.11.12 17:36) [1]
> > забанят тебя в гугле
>
> Это серьезно?

Вполне. Поисковикам невыгодно, чтобы кто-то парсил их выдачу. Для предотвращения этого они вынуждены формировать страницу javascript-ом, блокировать на некоторое время IP, с которого было слишком быстро для человека просмотрено несколько страниц выдачи (а значит смотрел робот) и т.д. Особо упертых банят.

← →
DVM © (2012-11-18 19:48) [12]

и эта, регулярками тут не обойтись, у гугл выдача формируется jаvaScript.

← →
Artem (2012-11-18 19:48) [13]

DVM, Мне просто надо сделать лабу. В которой это используется. То есть можно это в качестве аргумента использовать?))

← →
Eraser © (2012-11-18 19:54) [14]

> Artem (18.11.12 19:48) [13]

в качестве аргумента можно использовать EULA гугла.

← →
DVM © (2012-11-18 19:55) [15]

> Artem (18.11.12 19:48) [13]
> DVM, Мне просто надо сделать лабу.

Тот кто лабу задал видел исходник выдачи гугла? Без использования браузера там смотреть нечего.

> То есть можно это в качестве аргумента использовать?))

аргумента не делать лабу?

← →
Artem (2012-11-18 20:04) [16]

DVM © (18.11.12 19:55) [15]
Могу задание показать...

> Artem (18.11.12 20:04) [16]

ну покажи

← →
Artem (2012-11-18 20:12) [18]

http://webfile.ru/6220940

← →
Artem (2012-11-18 20:13) [19]

Ладно возьму другой поисковик - думаю ничего страшного.

> Artem (18.11.12 20:12) [18]

Судя по заданию надо использовать браузер. Используя его DOM модель можно перебрать все ссылки (надеюсь, что они там есть, а может и даже их не быть, т.е тегов <a> может и не быть).

Вообще говоря у гугла есть недокументированная возможность получить выдачу в формате XML. Ее разбирать проще простого. Этой возможностью Google Toolbar пользуется. В интернете есть инфа по этой теме.

> Ладно возьму другой поисковик - думаю ничего страшного.

возьми бинг или яндекс, там есть API выдающие данные в XML формате. Как правило там есть ограничение на число запросов в день с IP но тебе так много не понадобится.

http://yul1a.blogspot.ru/2011/07/xml.html

← →
Artem (2012-11-19 17:57) [22]

Спасибо

> Как программно считать все ссылки на странице на запрос в google? На любом языке.

powershell 3.0 умеет парсить HTML-страницы

Простой парсинг Найти похожие ветки