Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2008.07.20;
Скачать: CL | DM;

Вниз

Поиск в I-нете..   Найти похожие ветки 

 
AlexDan ©   (2008-06-04 11:48) [0]

Глупый вопрос. Ликбез. Как яндекс или др. может так быстро искать информацию? Там что, всё в оперативной (электронной) памяти? Ведь поиск одного файла даже на простом кампе(не говоря о его просмотре, т.е. внутреннем поиске) процесс далеко не мгновенный. На сколько же там(на поисковиках) больше информации..


 
Kerk ©   (2008-06-04 11:49) [1]

Почитай про индексы в базах данных


 
Ega23 ©   (2008-06-04 11:50) [2]


> ам что, всё в оперативной (электронной) памяти?


Не, там специальные ini-файлы такие.


 
brother ©   (2008-06-04 11:58) [3]


> Не, там специальные ini-файлы такие.

))))))) Прям таки и ini?)
ИМХО Бд там, а скорость выборки у нее приличная... ну и железо ясен пень...


 
Ega23 ©   (2008-06-04 12:04) [4]


> ))))))) Прям таки и ini?)


Конечно. У них расширение чуть-чуть другое и используется там специальный TIniFileEx из юнита IniFilesEx (секретная разработка CG для поисковых систем). Типа, он там быстрее читает и в память всё грузит.


 
Zeqfreed ©   (2008-06-04 12:06) [5]

На Google I/O, вроде, проскакивала информация, что один запрос обрабатывают от 700 до 1000 серверов.


 
tesseract ©   (2008-06-04 14:50) [6]


> Zeqfreed ©   (04.06.08 12:06) [5]


Вполне вероятно. Распределёнка  нехилая такая выходит.


 
Ega23 ©   (2008-06-04 15:03) [7]


> Вполне вероятно. Распределёнка  нехилая такая выходит.


И ini-файлы - они тоже в пространстве размазаны...


 
Anatoly Podgoretsky ©   (2008-06-04 15:11) [8]

> Zeqfreed  (04.06.2008 12:06:05)  [5]

Гугл младенец по сравнению с Яху, у тех многие сотни тысяч компьютеров, когда меня индексировали, то это очень наглядно было видно, бедный яндекс индексировал с одной машниы, в несколько потоков. Гугл уже сотни, но с одной сети, Яху множество машин с разных сетей класса А.
имена поисковых машин у них - ccdddddd
Заодно они протестировали мой сайт на нагрузку, выдерживал до 800 подключений одновременно. Оно бы было и больше, но у меня не 100мбитная сеть.


 
Юрий ©   (2008-06-04 15:15) [9]

> [8] Anatoly Podgoretsky ©   (04.06.08 15:11)
> Гугл младенец по сравнению с Яху, у тех многие сотни тысяч
> компьютеров, когда меня индексировали, то это очень наглядно
> было видно, бедный яндекс индексировал с одной машниы, в
> несколько потоков. Гугл уже сотни, но с одной сети, Яху
> множество машин с разных сетей класса А.

Во где, наверное, поработать интересно.


 
Правильный_Вася   (2008-06-04 15:23) [10]


> Во где, наверное, поработать интересно.

превратить яндекс в яху?


 
Kerk ©   (2008-06-04 15:26) [11]


> Anatoly Podgoretsky ©   (04.06.08 15:11) [8]
> > Zeqfreed  (04.06.2008 12:06:05)  [5]
>
> Гугл младенец по сравнению с Яху, у тех многие сотни тысяч
> компьютеров, когда меня индексировали, то это очень наглядно
> было видно, бедный яндекс индексировал с одной машниы, в
> несколько потоков. Гугл уже сотни, но с одной сети, Яху
> множество машин с разных сетей класса А.
> имена поисковых машин у них - ccdddddd
> Заодно они протестировали мой сайт на нагрузку, выдерживал
> до 800 подключений одновременно

DDoS практически, нафиг не нужны такие немладенцы.


 
ketmar ©   (2008-06-04 15:31) [12]

>[8] Anatoly Podgoretsky © (2008-06-04 15:11:00)
>Гугл уже сотни, но с одной сети

и знал бы ты, как я заколебался файрволом банить этих идиотских ботов!

---
All Your Base Are Belong to Us


 
Юрий ©   (2008-06-04 15:31) [13]

> [10] Правильный_Вася   (04.06.08 15:23)
> превратить яндекс в яху?

Просто поработать. :)


 
Kerk ©   (2008-06-04 16:05) [14]


> ketmar ©   (04.06.08 15:31) [12]

robots.txt настроить религия не позволяет?


 
ketmar ©   (2008-06-04 16:21) [15]

>[14] Kerk © (2008-06-04 16:05:00)
если бы оно его нормально спрашивало — это раз. мне эти запросы вообще не нужны, даже запросы robots.txt — это два. гадит в лог всяким мусором. чем раскидывать по разным местам текстовый файл, который мне мешает (и это для удобства робота, который ко мне вообще отношения не имеет, бесплатно, причём), я тупо забанил подсеть. и стало тихо да спокойно.

---
Understanding is not required. Only obedience.


 
ketmar ©   (2008-06-04 16:23) [16]

а всё потому, что идеология неверна. надо не «лазить по умолчанию, не лазить если попросят», а «лазить только если явно разрешили лазить», для чего сделать веб-морду с одним edit"ом и кнопкой «я хочу!»

любые другие действия (в частности, частое и регулярное посещение моего ресурса ботами, которых я не звал) — есть действия как минимум некорректные, караютс вечным баном.

---
All Your Base Are Belong to Us


 
Anatoly Podgoretsky ©   (2008-06-04 16:54) [17]

> Юрий  (04.06.2008 15:15:09)  [9]

Не уверен, что работать в гигантской корпорации интересно.


 
Anatoly Podgoretsky ©   (2008-06-04 16:55) [18]

> Правильный_Вася  (04.06.2008 15:23:10)  [10]

Бабок и Гугла не хватит, не то что у Яндекса.
Не зря Микрософт хотел купить именно их, они в курсе их технологий.


 
Anatoly Podgoretsky ©   (2008-06-04 16:56) [19]

> Kerk  (04.06.2008 15:26:11)  [11]

Ничего не умер, правда фильтр временами отказывался работать, говорил слишком великая скорость запросов.


 
Anatoly Podgoretsky ©   (2008-06-04 16:56) [20]

> ketmar  (04.06.2008 15:31:12)  [12]

А не пробовал robots.txt применить, выше указаные боты слушаются.


 
Anatoly Podgoretsky ©   (2008-06-04 16:57) [21]

> ketmar  (04.06.2008 16:21:15)  [15]

Будешь блокировать несколько сетей класса А, в которых не только боты?


 
Пробегал...   (2008-06-04 17:01) [22]

> хотел купить

Почему же хотел? Он и сейчас хочет. Правда, переговоры отложили на месяц-другой. Yahoo! не против сделки, ни в коем разе! Они просто сказали... что стоят больше, чем предлагает майкрософт, и согласились на сделку, но по более высокой цене. У МС пока таких денег нет :) Следующая попытка будет летом, и я уверен, что уже удачная

:) Улыбнуло, что в нете сделку уже окрестили Microhoo


 
ketmar ©   (2008-06-04 18:12) [23]

>[21] Anatoly Podgoretsky © (2008-06-04 16:57:00)
>Будешь блокировать несколько сетей класса А, в которых не только боты?

не просто «буду», а заблокировал. %-)

---
Understanding is not required. Only obedience.


 
Palladin ©   (2008-06-04 18:13) [24]

иногда, у меня возникае ощущение, что кроме кетмара никто на ресурс кетмара зайти не может )


 
ketmar ©   (2008-06-04 18:20) [25]

>[24] Palladin © (2008-06-04 18:13:00)
а оно почти так и есть. тут речь о сугубо секретном ресурсе, который в инет хоть и торчит, но никто почти о нём не знает. вопрос «какая скотина засветила ссылку» открыт, кстати. %-)

---
Understanding is not required. Only obedience.


 
Palladin ©   (2008-06-04 18:33) [26]

просто нужно знать волшебные слова для поиска :)


 
Anatoly Podgoretsky ©   (2008-06-04 19:21) [27]

> Palladin  (04.06.2008 18:13:24)  [24]

Все заблокировал :-)


 
Kerk ©   (2008-06-04 19:22) [28]


> ketmar ©   (04.06.08 18:20) [25]

Достаточно было кому-нибудь зайти с установленным Google Toolbar.


 
ketmar ©   (2008-06-04 19:38) [29]

>[28] Kerk © (2008-06-04 19:22:00)
таких посетителей точно не надо.

---
Understanding is not required. Only obedience.


 
ketmar ©   (2008-06-04 19:38) [30]

>[28] Kerk © (2008-06-04 19:22:00)
впрочем, их и не должно было быть: по идее знающие о ресурсе адекватны, мусора не ставят.

---
All Your Base Are Belong to Us


 
Правильный_Вася   (2008-06-04 20:29) [31]


> вопрос «какая скотина засветила ссылку» открыт, кстати.

ты сам ее раздавал пару лет назад


 
ketmar ©   (2008-06-04 20:44) [32]

>[31] Правильный_Вася (2008-06-04 20:29:00)
ссылку я давал одну, а робот лазит на другие. на которые с той одной ссылок нет. и списки файлов у меня не показываются, потому что lighttpd не умеет этого.

---
Understanding is not required. Only obedience.


 
VirEx ©   (2008-06-05 10:52) [33]

http://jdmc.kladovka.net.ru/log.txt


 
DrPass ©   (2008-06-05 12:36) [34]


> ketmar ©   (04.06.08 16:23) [16]


> а всё потому, что идеология неверна. надо не «лазить по
> умолчанию, не лазить если попросят», а «лазить только если
> явно разрешили лазить»

Идеология как раз верна. Спайдер поисковика заинтересован в том, чтобы собрать всю информацию, до которой он доберется, ему глубоко начхать, забанят его или нет - в конце концов, желающих быть проиндексированными намного больше, чем нежелающих. Забота же о нагрузке на сервер - это личная проблема хозяев сервера.


 
Anatoly Podgoretsky ©   (2008-06-05 13:17) [35]

> DrPass  (05.06.2008 12:36:34)  [34]

Тот который лезет, куда запрещено является сетевым вирусом, это просто атака на сайт.
Его обязаности описаны в robots.txt - те кто не подчиняется этому является зловредной программой.


 
ketmar ©   (2008-06-05 13:25) [36]

>[34] DrPass © (2008-06-05 12:36:00)
как ты думаешь, лично меня сильно волнуют интересы поисковика?

>[35] Anatoly Podgoretsky © (2008-06-05 13:17:00)
неа.
правильная логика программы: «пока мне не разрешили, я не делаю».
неправильная логика зловредной программы: «пока мне не запретили, я делаю что хочу».
надо не запрет в явно виде прописывать, а разрешение в явном виде. любая программа, которая по-умолчанию считает, что ей можно всё, что не запрещено — зловредная.

---
All Your Base Are Belong to Us


 
Anatoly Podgoretsky ©   (2008-06-05 14:31) [37]

> ketmar  (05.06.2008 13:25:36)  [36]

Я не хочу искать описание robots.txt кажется что-то там есть.


 
ketmar ©   (2008-06-05 14:34) [38]

>[37] Anatoly Podgoretsky © (2008-06-05 14:31:00)
штука в том, что я должен создать роботс.тхт чтобы запретить. а правильно будет — создать, чтобы разрешить, и потом явно указать на сайте поисковика, что вот сюда теперь ходи — тут тебе еды положили.

---
Understanding is not required. Only obedience.


 
Anatoly Podgoretsky ©   (2008-06-05 15:18) [39]

> ketmar  (05.06.2008 14:34:38)  [38]

Ну тут твои представления с разработчиками не совпадают.


 
Пробегал2....   (2008-06-05 15:20) [40]

Anatoly Podgoretsky ©   (04.06.08 15:11) [8]
бедный яндекс индексировал с одной машниы, в несколько потоков. Гугл уже сотни, но с одной сети, Яху множество машин с разных сетей класса А.


о как. Оказывается теперь яху кручу всех. Совсем недавно как-то по другому было:

>Вот еще и gogle подключился, но у этих математика получше, а Яху >работает как спамбот.

Младенцы? Просто кто-то умеет работать адекватно, а кто-то нет.

ketmar ©   (04.06.08 15:31) [12]
и знал бы ты, как я заколебался файрволом банить этих идиотских ботов!


вот же делать кому-то нечего...



Страницы: 1 2 3 вся ветка

Текущий архив: 2008.07.20;
Скачать: CL | DM;

Наверх




Память: 0.57 MB
Время: 0.024 c
15-1212655691
Alkid
2008-06-05 12:48
2008.07.20
Planner


2-1214198328
ganda
2008-06-23 09:18
2008.07.20
Class + Memory


15-1212757849
Vlad Oshin
2008-06-06 17:10
2008.07.20
Услышал, что Windows генерирует GUID на каждую свою копию


2-1213650701
rhammer
2008-06-17 01:11
2008.07.20
Значение TComboBox


15-1212597081
ProgRAMmer Dimonych
2008-06-04 20:31
2008.07.20
Туплю (MySQLi+PHP)