Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2013.03.22;
Скачать: [xml.tar.bz2];

Вниз

Простой парсинг   Найти похожие ветки 

 
Artem   (2012-11-18 17:30) [0]

Как программно считать все ссылки на странице на запрос в google? На любом языке.


 
DVM ©   (2012-11-18 17:36) [1]

забанят тебя в гугле


 
Artem   (2012-11-18 17:37) [2]


> DVM ©   (18.11.12 17:36) [1]
> забанят тебя в гугле

Это серьезно?


 
Artem   (2012-11-18 17:44) [3]

Понятно что нет. И как?


 
Медвежонок Пятачок ©   (2012-11-18 17:45) [4]

в чем проблема-то?
страницу получил?
ссылки значит есть.
найти не можешь?

use regular expressions


 
xayam ©   (2012-11-18 17:45) [5]


> И как?

регулярные выражения?


 
Artem   (2012-11-18 17:50) [6]

Спасибо
Я думал выделять все href"ы, но тогда много лишнего получиться. Что конкретно нужно "схватывать" в регулярках?


 
Медвежонок Пятачок ©   (2012-11-18 17:51) [7]

Странный ты перец.
Чего тебе надо, то и схватывай.
А то я скажу, что надо схватывать ссылки на винокурни острова Айла. Оно тебе надо?


 
Artem   (2012-11-18 17:59) [8]

Так я никак не разберу формат этого html googlевского


 
AV ©   (2012-11-18 18:13) [9]

только надо отключить все навороты, потому что гугля могёт показывать.. как это.. когда слои и прочая красивость..

А правильные сайты кажут правильно :)

   wb1: TWebBrowser;
   mmo1: TMemo;

 wb1.Navigate("http://www.delphimaster.ru");

 for j := 0 to wb1.OleObject.Document.all.tags("a").length - 1 do
 begin
   mmo1.Lines.Add("-----------");
   mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).innerhtml);
   mmo1.Lines.Add(wb1.OleObject.Document.all.tags("a").item(j).outerhtml);
   mmo1.Lines.Add("-----------");
 end;


 
Artem   (2012-11-18 19:43) [10]

Чего-то в этом google вообще ничего нельзя разобрать...


 
DVM ©   (2012-11-18 19:46) [11]


> Artem   (18.11.12 17:37) [2]
>
> > DVM ©   (18.11.12 17:36) [1]
> > забанят тебя в гугле
>
> Это серьезно?

Вполне. Поисковикам невыгодно, чтобы кто-то парсил их выдачу. Для предотвращения этого они вынуждены формировать страницу javascript-ом, блокировать на некоторое время IP, с которого было слишком быстро для человека просмотрено несколько страниц выдачи (а значит смотрел робот) и т.д. Особо упертых банят.


 
DVM ©   (2012-11-18 19:48) [12]

и эта, регулярками тут не обойтись, у гугл выдача формируется jаvaScript.


 
Artem   (2012-11-18 19:48) [13]

DVM, Мне просто надо сделать лабу. В которой это используется. То есть можно это в качестве аргумента использовать?))


 
Eraser ©   (2012-11-18 19:54) [14]


> Artem   (18.11.12 19:48) [13]

в качестве аргумента можно использовать EULA гугла.


 
DVM ©   (2012-11-18 19:55) [15]


> Artem   (18.11.12 19:48) [13]
> DVM, Мне просто надо сделать лабу.

Тот кто лабу задал видел исходник выдачи гугла? Без использования браузера там смотреть нечего.


> То есть можно это в качестве аргумента использовать?))

аргумента не делать лабу?


 
Artem   (2012-11-18 20:04) [16]

DVM ©   (18.11.12 19:55) [15]
Могу задание показать...


 
DVM ©   (2012-11-18 20:04) [17]


> Artem   (18.11.12 20:04) [16]

ну покажи


 
Artem   (2012-11-18 20:12) [18]

http://webfile.ru/6220940


 
Artem   (2012-11-18 20:13) [19]

Ладно возьму другой поисковик - думаю ничего страшного.


 
DVM ©   (2012-11-18 20:22) [20]


> Artem   (18.11.12 20:12) [18]

Судя по заданию надо использовать браузер. Используя его DOM модель можно перебрать все ссылки (надеюсь, что они там есть, а может и даже их не быть, т.е тегов <a> может и не быть).

Вообще говоря у гугла есть недокументированная возможность получить выдачу в формате XML. Ее разбирать проще простого. Этой возможностью Google Toolbar пользуется. В интернете есть инфа по этой теме.


 
DVM ©   (2012-11-18 20:24) [21]


> Ладно возьму другой поисковик - думаю ничего страшного.

возьми бинг или яндекс, там есть API выдающие данные в XML формате. Как правило там есть ограничение на число запросов в день с IP но тебе так много не понадобится.

http://yul1a.blogspot.ru/2011/07/xml.html


 
Artem   (2012-11-19 17:57) [22]

Спасибо


 
БарЛог ©   (2012-11-19 18:18) [23]

> Как программно считать все ссылки на странице на запрос в google? На любом языке.

powershell 3.0 умеет парсить HTML-страницы



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2013.03.22;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.49 MB
Время: 0.073 c
15-1329646997
Чайник
2012-02-19 14:23
2013.03.22
Direct 3D и Delphi 2010


4-1261055064
Андрей Пл
2009-12-17 16:04
2013.03.22
Работа с СОМ портом, пакет AsyncPro406


6-1258651624
DesWind
2009-11-19 20:27
2013.03.22
Формирование запроса idHTTP


15-1343680202
Юрий
2012-07-31 00:30
2013.03.22
С днем рождения ! 31 июля 2012 вторник


15-1340596830
ArchValentin
2012-06-25 08:00
2013.03.22
Обучение





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский