Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2013.03.22;
Скачать: CL | DM;

Вниз

Простой парсинг   Найти похожие ветки 

 
Artem   (2012-11-18 17:30) [0]

Как программно считать все ссылки на странице на запрос в google? На любом языке.


 
DVM ©   (2012-11-18 17:36) [1]

забанят тебя в гугле


 
Artem   (2012-11-18 17:37) [2]


> DVM ©   (18.11.12 17:36) [1]
> забанят тебя в гугле

Это серьезно?


 
Artem   (2012-11-18 17:44) [3]

Понятно что нет. И как?


 
Медвежонок Пятачок ©   (2012-11-18 17:45) [4]

в чем проблема-то?
страницу получил?
ссылки значит есть.
найти не можешь?

use regular expressions


 
xayam ©   (2012-11-18 17:45) [5]


> И как?

регулярные выражения?


 
Artem   (2012-11-18 17:50) [6]

Спасибо
Я думал выделять все href"ы, но тогда много лишнего получиться. Что конкретно нужно "схватывать" в регулярках?


 
Медвежонок Пятачок ©   (2012-11-18 17:51) [7]

Странный ты перец.
Чего тебе надо, то и схватывай.
А то я скажу, что надо схватывать ссылки на винокурни острова Айла. Оно тебе надо?


 
Artem   (2012-11-18 17:59) [8]

Так я никак не разберу формат этого html googlевского


 
AV ©   (2012-11-18 18:13) [9]

только надо отключить все навороты, потому что гугля могёт показывать.. как это.. когда слои и прочая красивость..

А правильные сайты кажут правильно :)

   wb1: TWebBrowser;
   mmo1: TMemo;

 wb1.Navigate("http://www.delphimaster.ru");

 for j := 0 to wb1.OleObject.Document.all.tags("a").length - 1 do
 begin
   mmo1.Lines.Add("-----------");
   mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).innerhtml);
   mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).outerhtml);
   mmo1.Lines.Add("-----------");
 end;


 
Artem   (2012-11-18 19:43) [10]

Чего-то в этом google вообще ничего нельзя разобрать...


 
DVM ©   (2012-11-18 19:46) [11]


> Artem   (18.11.12 17:37) [2]
>
> > DVM ©   (18.11.12 17:36) [1]
> > забанят тебя в гугле
>
> Это серьезно?

Вполне. Поисковикам невыгодно, чтобы кто-то парсил их выдачу. Для предотвращения этого они вынуждены формировать страницу javascript-ом, блокировать на некоторое время IP, с которого было слишком быстро для человека просмотрено несколько страниц выдачи (а значит смотрел робот) и т.д. Особо упертых банят.


 
DVM ©   (2012-11-18 19:48) [12]

и эта, регулярками тут не обойтись, у гугл выдача формируется jаvaScript.


 
Artem   (2012-11-18 19:48) [13]

DVM, Мне просто надо сделать лабу. В которой это используется. То есть можно это в качестве аргумента использовать?))


 
Eraser ©   (2012-11-18 19:54) [14]


> Artem   (18.11.12 19:48) [13]

в качестве аргумента можно использовать EULA гугла.


 
DVM ©   (2012-11-18 19:55) [15]


> Artem   (18.11.12 19:48) [13]
> DVM, Мне просто надо сделать лабу.

Тот кто лабу задал видел исходник выдачи гугла? Без использования браузера там смотреть нечего.


> То есть можно это в качестве аргумента использовать?))

аргумента не делать лабу?


 
Artem   (2012-11-18 20:04) [16]

DVM ©   (18.11.12 19:55) [15]
Могу задание показать...


 
DVM ©   (2012-11-18 20:04) [17]


> Artem   (18.11.12 20:04) [16]

ну покажи


 
Artem   (2012-11-18 20:12) [18]

http://webfile.ru/6220940


 
Artem   (2012-11-18 20:13) [19]

Ладно возьму другой поисковик - думаю ничего страшного.


 
DVM ©   (2012-11-18 20:22) [20]


> Artem   (18.11.12 20:12) [18]

Судя по заданию надо использовать браузер. Используя его DOM модель можно перебрать все ссылки (надеюсь, что они там есть, а может и даже их не быть, т.е тегов <a> может и не быть).

Вообще говоря у гугла есть недокументированная возможность получить выдачу в формате XML. Ее разбирать проще простого. Этой возможностью Google Toolbar пользуется. В интернете есть инфа по этой теме.


 
DVM ©   (2012-11-18 20:24) [21]


> Ладно возьму другой поисковик - думаю ничего страшного.

возьми бинг или яндекс, там есть API выдающие данные в XML формате. Как правило там есть ограничение на число запросов в день с IP но тебе так много не понадобится.

http://yul1a.blogspot.ru/2011/07/xml.html


 
Artem   (2012-11-19 17:57) [22]

Спасибо


 
БарЛог ©   (2012-11-19 18:18) [23]

> Как программно считать все ссылки на странице на запрос в google? На любом языке.

powershell 3.0 умеет парсить HTML-страницы



Страницы: 1 вся ветка

Текущий архив: 2013.03.22;
Скачать: CL | DM;

Наверх




Память: 0.51 MB
Время: 0.048 c
15-1337788427
AV
2012-05-23 19:53
2013.03.22
Прошу помощи по .htaccess. Переназначить параметр можно?


15-1345822753
brother
2012-08-24 19:39
2013.03.22
Сис админ - диагноз?


2-1347157458
alexdn
2012-09-09 06:24
2013.03.22
Сохранить картинку


15-1353960706
Дмитрий С
2012-11-27 00:11
2013.03.22
Удаленная отладка Lazarus


2-1335432052
Pcrepair
2012-04-26 13:20
2013.03.22
Многопользовательский режим работы проги