Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2008.07.20;
Скачать: [xml.tar.bz2];

Вниз

Поиск в I-нете..   Найти похожие ветки 

 
AlexDan ©   (2008-06-04 11:48) [0]

Глупый вопрос. Ликбез. Как яндекс или др. может так быстро искать информацию? Там что, всё в оперативной (электронной) памяти? Ведь поиск одного файла даже на простом кампе(не говоря о его просмотре, т.е. внутреннем поиске) процесс далеко не мгновенный. На сколько же там(на поисковиках) больше информации..


 
Kerk ©   (2008-06-04 11:49) [1]

Почитай про индексы в базах данных


 
Ega23 ©   (2008-06-04 11:50) [2]


> ам что, всё в оперативной (электронной) памяти?


Не, там специальные ini-файлы такие.


 
brother ©   (2008-06-04 11:58) [3]


> Не, там специальные ini-файлы такие.

))))))) Прям таки и ini?)
ИМХО Бд там, а скорость выборки у нее приличная... ну и железо ясен пень...


 
Ega23 ©   (2008-06-04 12:04) [4]


> ))))))) Прям таки и ini?)


Конечно. У них расширение чуть-чуть другое и используется там специальный TIniFileEx из юнита IniFilesEx (секретная разработка CG для поисковых систем). Типа, он там быстрее читает и в память всё грузит.


 
Zeqfreed ©   (2008-06-04 12:06) [5]

На Google I/O, вроде, проскакивала информация, что один запрос обрабатывают от 700 до 1000 серверов.


 
tesseract ©   (2008-06-04 14:50) [6]


> Zeqfreed ©   (04.06.08 12:06) [5]


Вполне вероятно. Распределёнка  нехилая такая выходит.


 
Ega23 ©   (2008-06-04 15:03) [7]


> Вполне вероятно. Распределёнка  нехилая такая выходит.


И ini-файлы - они тоже в пространстве размазаны...


 
Anatoly Podgoretsky ©   (2008-06-04 15:11) [8]

> Zeqfreed  (04.06.2008 12:06:05)  [5]

Гугл младенец по сравнению с Яху, у тех многие сотни тысяч компьютеров, когда меня индексировали, то это очень наглядно было видно, бедный яндекс индексировал с одной машниы, в несколько потоков. Гугл уже сотни, но с одной сети, Яху множество машин с разных сетей класса А.
имена поисковых машин у них - ccdddddd
Заодно они протестировали мой сайт на нагрузку, выдерживал до 800 подключений одновременно. Оно бы было и больше, но у меня не 100мбитная сеть.


 
Юрий ©   (2008-06-04 15:15) [9]

> [8] Anatoly Podgoretsky ©   (04.06.08 15:11)
> Гугл младенец по сравнению с Яху, у тех многие сотни тысяч
> компьютеров, когда меня индексировали, то это очень наглядно
> было видно, бедный яндекс индексировал с одной машниы, в
> несколько потоков. Гугл уже сотни, но с одной сети, Яху
> множество машин с разных сетей класса А.

Во где, наверное, поработать интересно.


 
Правильный_Вася   (2008-06-04 15:23) [10]


> Во где, наверное, поработать интересно.

превратить яндекс в яху?


 
Kerk ©   (2008-06-04 15:26) [11]


> Anatoly Podgoretsky ©   (04.06.08 15:11) [8]
> > Zeqfreed  (04.06.2008 12:06:05)  [5]
>
> Гугл младенец по сравнению с Яху, у тех многие сотни тысяч
> компьютеров, когда меня индексировали, то это очень наглядно
> было видно, бедный яндекс индексировал с одной машниы, в
> несколько потоков. Гугл уже сотни, но с одной сети, Яху
> множество машин с разных сетей класса А.
> имена поисковых машин у них - ccdddddd
> Заодно они протестировали мой сайт на нагрузку, выдерживал
> до 800 подключений одновременно

DDoS практически, нафиг не нужны такие немладенцы.


 
ketmar ©   (2008-06-04 15:31) [12]

>[8] Anatoly Podgoretsky © (2008-06-04 15:11:00)
>Гугл уже сотни, но с одной сети

и знал бы ты, как я заколебался файрволом банить этих идиотских ботов!

---
All Your Base Are Belong to Us


 
Юрий ©   (2008-06-04 15:31) [13]

> [10] Правильный_Вася   (04.06.08 15:23)
> превратить яндекс в яху?

Просто поработать. :)


 
Kerk ©   (2008-06-04 16:05) [14]


> ketmar ©   (04.06.08 15:31) [12]

robots.txt настроить религия не позволяет?


 
ketmar ©   (2008-06-04 16:21) [15]

>[14] Kerk © (2008-06-04 16:05:00)
если бы оно его нормально спрашивало — это раз. мне эти запросы вообще не нужны, даже запросы robots.txt — это два. гадит в лог всяким мусором. чем раскидывать по разным местам текстовый файл, который мне мешает (и это для удобства робота, который ко мне вообще отношения не имеет, бесплатно, причём), я тупо забанил подсеть. и стало тихо да спокойно.

---
Understanding is not required. Only obedience.


 
ketmar ©   (2008-06-04 16:23) [16]

а всё потому, что идеология неверна. надо не «лазить по умолчанию, не лазить если попросят», а «лазить только если явно разрешили лазить», для чего сделать веб-морду с одним edit"ом и кнопкой «я хочу!»

любые другие действия (в частности, частое и регулярное посещение моего ресурса ботами, которых я не звал) — есть действия как минимум некорректные, караютс вечным баном.

---
All Your Base Are Belong to Us


 
Anatoly Podgoretsky ©   (2008-06-04 16:54) [17]

> Юрий  (04.06.2008 15:15:09)  [9]

Не уверен, что работать в гигантской корпорации интересно.


 
Anatoly Podgoretsky ©   (2008-06-04 16:55) [18]

> Правильный_Вася  (04.06.2008 15:23:10)  [10]

Бабок и Гугла не хватит, не то что у Яндекса.
Не зря Микрософт хотел купить именно их, они в курсе их технологий.


 
Anatoly Podgoretsky ©   (2008-06-04 16:56) [19]

> Kerk  (04.06.2008 15:26:11)  [11]

Ничего не умер, правда фильтр временами отказывался работать, говорил слишком великая скорость запросов.


 
Anatoly Podgoretsky ©   (2008-06-04 16:56) [20]

> ketmar  (04.06.2008 15:31:12)  [12]

А не пробовал robots.txt применить, выше указаные боты слушаются.


 
Anatoly Podgoretsky ©   (2008-06-04 16:57) [21]

> ketmar  (04.06.2008 16:21:15)  [15]

Будешь блокировать несколько сетей класса А, в которых не только боты?


 
Пробегал...   (2008-06-04 17:01) [22]

> хотел купить

Почему же хотел? Он и сейчас хочет. Правда, переговоры отложили на месяц-другой. Yahoo! не против сделки, ни в коем разе! Они просто сказали... что стоят больше, чем предлагает майкрософт, и согласились на сделку, но по более высокой цене. У МС пока таких денег нет :) Следующая попытка будет летом, и я уверен, что уже удачная

:) Улыбнуло, что в нете сделку уже окрестили Microhoo


 
ketmar ©   (2008-06-04 18:12) [23]

>[21] Anatoly Podgoretsky © (2008-06-04 16:57:00)
>Будешь блокировать несколько сетей класса А, в которых не только боты?

не просто «буду», а заблокировал. %-)

---
Understanding is not required. Only obedience.


 
Palladin ©   (2008-06-04 18:13) [24]

иногда, у меня возникае ощущение, что кроме кетмара никто на ресурс кетмара зайти не может )


 
ketmar ©   (2008-06-04 18:20) [25]

>[24] Palladin © (2008-06-04 18:13:00)
а оно почти так и есть. тут речь о сугубо секретном ресурсе, который в инет хоть и торчит, но никто почти о нём не знает. вопрос «какая скотина засветила ссылку» открыт, кстати. %-)

---
Understanding is not required. Only obedience.


 
Palladin ©   (2008-06-04 18:33) [26]

просто нужно знать волшебные слова для поиска :)


 
Anatoly Podgoretsky ©   (2008-06-04 19:21) [27]

> Palladin  (04.06.2008 18:13:24)  [24]

Все заблокировал :-)


 
Kerk ©   (2008-06-04 19:22) [28]


> ketmar ©   (04.06.08 18:20) [25]

Достаточно было кому-нибудь зайти с установленным Google Toolbar.


 
ketmar ©   (2008-06-04 19:38) [29]

>[28] Kerk © (2008-06-04 19:22:00)
таких посетителей точно не надо.

---
Understanding is not required. Only obedience.


 
ketmar ©   (2008-06-04 19:38) [30]

>[28] Kerk © (2008-06-04 19:22:00)
впрочем, их и не должно было быть: по идее знающие о ресурсе адекватны, мусора не ставят.

---
All Your Base Are Belong to Us


 
Правильный_Вася   (2008-06-04 20:29) [31]


> вопрос «какая скотина засветила ссылку» открыт, кстати.

ты сам ее раздавал пару лет назад


 
ketmar ©   (2008-06-04 20:44) [32]

>[31] Правильный_Вася (2008-06-04 20:29:00)
ссылку я давал одну, а робот лазит на другие. на которые с той одной ссылок нет. и списки файлов у меня не показываются, потому что lighttpd не умеет этого.

---
Understanding is not required. Only obedience.


 
VirEx ©   (2008-06-05 10:52) [33]

http://jdmc.kladovka.net.ru/log.txt


 
DrPass ©   (2008-06-05 12:36) [34]


> ketmar ©   (04.06.08 16:23) [16]


> а всё потому, что идеология неверна. надо не «лазить по
> умолчанию, не лазить если попросят», а «лазить только если
> явно разрешили лазить»

Идеология как раз верна. Спайдер поисковика заинтересован в том, чтобы собрать всю информацию, до которой он доберется, ему глубоко начхать, забанят его или нет - в конце концов, желающих быть проиндексированными намного больше, чем нежелающих. Забота же о нагрузке на сервер - это личная проблема хозяев сервера.


 
Anatoly Podgoretsky ©   (2008-06-05 13:17) [35]

> DrPass  (05.06.2008 12:36:34)  [34]

Тот который лезет, куда запрещено является сетевым вирусом, это просто атака на сайт.
Его обязаности описаны в robots.txt - те кто не подчиняется этому является зловредной программой.


 
ketmar ©   (2008-06-05 13:25) [36]

>[34] DrPass © (2008-06-05 12:36:00)
как ты думаешь, лично меня сильно волнуют интересы поисковика?

>[35] Anatoly Podgoretsky © (2008-06-05 13:17:00)
неа.
правильная логика программы: «пока мне не разрешили, я не делаю».
неправильная логика зловредной программы: «пока мне не запретили, я делаю что хочу».
надо не запрет в явно виде прописывать, а разрешение в явном виде. любая программа, которая по-умолчанию считает, что ей можно всё, что не запрещено — зловредная.

---
All Your Base Are Belong to Us


 
Anatoly Podgoretsky ©   (2008-06-05 14:31) [37]

> ketmar  (05.06.2008 13:25:36)  [36]

Я не хочу искать описание robots.txt кажется что-то там есть.


 
ketmar ©   (2008-06-05 14:34) [38]

>[37] Anatoly Podgoretsky © (2008-06-05 14:31:00)
штука в том, что я должен создать роботс.тхт чтобы запретить. а правильно будет — создать, чтобы разрешить, и потом явно указать на сайте поисковика, что вот сюда теперь ходи — тут тебе еды положили.

---
Understanding is not required. Only obedience.


 
Anatoly Podgoretsky ©   (2008-06-05 15:18) [39]

> ketmar  (05.06.2008 14:34:38)  [38]

Ну тут твои представления с разработчиками не совпадают.


 
Пробегал2....   (2008-06-05 15:20) [40]

Anatoly Podgoretsky ©   (04.06.08 15:11) [8]
бедный яндекс индексировал с одной машниы, в несколько потоков. Гугл уже сотни, но с одной сети, Яху множество машин с разных сетей класса А.


о как. Оказывается теперь яху кручу всех. Совсем недавно как-то по другому было:

>Вот еще и gogle подключился, но у этих математика получше, а Яху >работает как спамбот.

Младенцы? Просто кто-то умеет работать адекватно, а кто-то нет.

ketmar ©   (04.06.08 15:31) [12]
и знал бы ты, как я заколебался файрволом банить этих идиотских ботов!


вот же делать кому-то нечего...



Страницы: 1 2 3 вся ветка

Форум: "Прочее";
Текущий архив: 2008.07.20;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.55 MB
Время: 0.04 c
2-1213792192
ciborg
2008-06-18 16:29
2008.07.20
Как отключить сообщения об эксепшенах?


15-1212052025
YurikGL
2008-05-29 13:07
2008.07.20
Нормативный документ с указанием "как именовать объекты"


2-1213682365
lewka-serdceed
2008-06-17 09:59
2008.07.20
Выбор католога


1-1195638277
sia
2007-11-21 12:44
2008.07.20
применение свойства Anchors


2-1213984177
Res
2008-06-20 21:49
2008.07.20
exit и procedure





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский