Форум: "Прочее";
Текущий архив: 2008.07.20;
Скачать: [xml.tar.bz2];
ВнизПоиск в I-нете.. Найти похожие ветки
← →
AlexDan © (2008-06-04 11:48) [0]Глупый вопрос. Ликбез. Как яндекс или др. может так быстро искать информацию? Там что, всё в оперативной (электронной) памяти? Ведь поиск одного файла даже на простом кампе(не говоря о его просмотре, т.е. внутреннем поиске) процесс далеко не мгновенный. На сколько же там(на поисковиках) больше информации..
← →
Kerk © (2008-06-04 11:49) [1]Почитай про индексы в базах данных
← →
Ega23 © (2008-06-04 11:50) [2]
> ам что, всё в оперативной (электронной) памяти?
Не, там специальные ini-файлы такие.
← →
brother © (2008-06-04 11:58) [3]
> Не, там специальные ini-файлы такие.
))))))) Прям таки и ini?)
ИМХО Бд там, а скорость выборки у нее приличная... ну и железо ясен пень...
← →
Ega23 © (2008-06-04 12:04) [4]
> ))))))) Прям таки и ini?)
Конечно. У них расширение чуть-чуть другое и используется там специальный TIniFileEx из юнита IniFilesEx (секретная разработка CG для поисковых систем). Типа, он там быстрее читает и в память всё грузит.
← →
Zeqfreed © (2008-06-04 12:06) [5]На Google I/O, вроде, проскакивала информация, что один запрос обрабатывают от 700 до 1000 серверов.
← →
tesseract © (2008-06-04 14:50) [6]
> Zeqfreed © (04.06.08 12:06) [5]
Вполне вероятно. Распределёнка нехилая такая выходит.
← →
Ega23 © (2008-06-04 15:03) [7]
> Вполне вероятно. Распределёнка нехилая такая выходит.
И ini-файлы - они тоже в пространстве размазаны...
← →
Anatoly Podgoretsky © (2008-06-04 15:11) [8]> Zeqfreed (04.06.2008 12:06:05) [5]
Гугл младенец по сравнению с Яху, у тех многие сотни тысяч компьютеров, когда меня индексировали, то это очень наглядно было видно, бедный яндекс индексировал с одной машниы, в несколько потоков. Гугл уже сотни, но с одной сети, Яху множество машин с разных сетей класса А.
имена поисковых машин у них - ccdddddd
Заодно они протестировали мой сайт на нагрузку, выдерживал до 800 подключений одновременно. Оно бы было и больше, но у меня не 100мбитная сеть.
← →
Юрий © (2008-06-04 15:15) [9]> [8] Anatoly Podgoretsky © (04.06.08 15:11)
> Гугл младенец по сравнению с Яху, у тех многие сотни тысяч
> компьютеров, когда меня индексировали, то это очень наглядно
> было видно, бедный яндекс индексировал с одной машниы, в
> несколько потоков. Гугл уже сотни, но с одной сети, Яху
> множество машин с разных сетей класса А.
Во где, наверное, поработать интересно.
← →
Правильный_Вася (2008-06-04 15:23) [10]
> Во где, наверное, поработать интересно.
превратить яндекс в яху?
← →
Kerk © (2008-06-04 15:26) [11]
> Anatoly Podgoretsky © (04.06.08 15:11) [8]
> > Zeqfreed (04.06.2008 12:06:05) [5]
>
> Гугл младенец по сравнению с Яху, у тех многие сотни тысяч
> компьютеров, когда меня индексировали, то это очень наглядно
> было видно, бедный яндекс индексировал с одной машниы, в
> несколько потоков. Гугл уже сотни, но с одной сети, Яху
> множество машин с разных сетей класса А.
> имена поисковых машин у них - ccdddddd
> Заодно они протестировали мой сайт на нагрузку, выдерживал
> до 800 подключений одновременно
DDoS практически, нафиг не нужны такие немладенцы.
← →
ketmar © (2008-06-04 15:31) [12]>[8] Anatoly Podgoretsky © (2008-06-04 15:11:00)
>Гугл уже сотни, но с одной сети
и знал бы ты, как я заколебался файрволом банить этих идиотских ботов!
---
All Your Base Are Belong to Us
← →
Юрий © (2008-06-04 15:31) [13]> [10] Правильный_Вася (04.06.08 15:23)
> превратить яндекс в яху?
Просто поработать. :)
← →
Kerk © (2008-06-04 16:05) [14]
> ketmar © (04.06.08 15:31) [12]
robots.txt настроить религия не позволяет?
← →
ketmar © (2008-06-04 16:21) [15]>[14] Kerk © (2008-06-04 16:05:00)
если бы оно его нормально спрашивало — это раз. мне эти запросы вообще не нужны, даже запросы robots.txt — это два. гадит в лог всяким мусором. чем раскидывать по разным местам текстовый файл, который мне мешает (и это для удобства робота, который ко мне вообще отношения не имеет, бесплатно, причём), я тупо забанил подсеть. и стало тихо да спокойно.
---
Understanding is not required. Only obedience.
← →
ketmar © (2008-06-04 16:23) [16]а всё потому, что идеология неверна. надо не «лазить по умолчанию, не лазить если попросят», а «лазить только если явно разрешили лазить», для чего сделать веб-морду с одним edit"ом и кнопкой «я хочу!»
любые другие действия (в частности, частое и регулярное посещение моего ресурса ботами, которых я не звал) — есть действия как минимум некорректные, караютс вечным баном.
---
All Your Base Are Belong to Us
← →
Anatoly Podgoretsky © (2008-06-04 16:54) [17]> Юрий (04.06.2008 15:15:09) [9]
Не уверен, что работать в гигантской корпорации интересно.
← →
Anatoly Podgoretsky © (2008-06-04 16:55) [18]> Правильный_Вася (04.06.2008 15:23:10) [10]
Бабок и Гугла не хватит, не то что у Яндекса.
Не зря Микрософт хотел купить именно их, они в курсе их технологий.
← →
Anatoly Podgoretsky © (2008-06-04 16:56) [19]> Kerk (04.06.2008 15:26:11) [11]
Ничего не умер, правда фильтр временами отказывался работать, говорил слишком великая скорость запросов.
← →
Anatoly Podgoretsky © (2008-06-04 16:56) [20]> ketmar (04.06.2008 15:31:12) [12]
А не пробовал robots.txt применить, выше указаные боты слушаются.
← →
Anatoly Podgoretsky © (2008-06-04 16:57) [21]> ketmar (04.06.2008 16:21:15) [15]
Будешь блокировать несколько сетей класса А, в которых не только боты?
← →
Пробегал... (2008-06-04 17:01) [22]> хотел купить
Почему же хотел? Он и сейчас хочет. Правда, переговоры отложили на месяц-другой. Yahoo! не против сделки, ни в коем разе! Они просто сказали... что стоят больше, чем предлагает майкрософт, и согласились на сделку, но по более высокой цене. У МС пока таких денег нет :) Следующая попытка будет летом, и я уверен, что уже удачная
:) Улыбнуло, что в нете сделку уже окрестили Microhoo
← →
ketmar © (2008-06-04 18:12) [23]>[21] Anatoly Podgoretsky © (2008-06-04 16:57:00)
>Будешь блокировать несколько сетей класса А, в которых не только боты?
не просто «буду», а заблокировал. %-)
---
Understanding is not required. Only obedience.
← →
Palladin © (2008-06-04 18:13) [24]иногда, у меня возникае ощущение, что кроме кетмара никто на ресурс кетмара зайти не может )
← →
ketmar © (2008-06-04 18:20) [25]>[24] Palladin © (2008-06-04 18:13:00)
а оно почти так и есть. тут речь о сугубо секретном ресурсе, который в инет хоть и торчит, но никто почти о нём не знает. вопрос «какая скотина засветила ссылку» открыт, кстати. %-)
---
Understanding is not required. Only obedience.
← →
Palladin © (2008-06-04 18:33) [26]просто нужно знать волшебные слова для поиска :)
← →
Anatoly Podgoretsky © (2008-06-04 19:21) [27]> Palladin (04.06.2008 18:13:24) [24]
Все заблокировал :-)
← →
Kerk © (2008-06-04 19:22) [28]
> ketmar © (04.06.08 18:20) [25]
Достаточно было кому-нибудь зайти с установленным Google Toolbar.
← →
ketmar © (2008-06-04 19:38) [29]>[28] Kerk © (2008-06-04 19:22:00)
таких посетителей точно не надо.
---
Understanding is not required. Only obedience.
← →
ketmar © (2008-06-04 19:38) [30]>[28] Kerk © (2008-06-04 19:22:00)
впрочем, их и не должно было быть: по идее знающие о ресурсе адекватны, мусора не ставят.
---
All Your Base Are Belong to Us
← →
Правильный_Вася (2008-06-04 20:29) [31]
> вопрос «какая скотина засветила ссылку» открыт, кстати.
ты сам ее раздавал пару лет назад
← →
ketmar © (2008-06-04 20:44) [32]>[31] Правильный_Вася (2008-06-04 20:29:00)
ссылку я давал одну, а робот лазит на другие. на которые с той одной ссылок нет. и списки файлов у меня не показываются, потому что lighttpd не умеет этого.
---
Understanding is not required. Only obedience.
← →
VirEx © (2008-06-05 10:52) [33]http://jdmc.kladovka.net.ru/log.txt
← →
DrPass © (2008-06-05 12:36) [34]
> ketmar © (04.06.08 16:23) [16]
> а всё потому, что идеология неверна. надо не «лазить по
> умолчанию, не лазить если попросят», а «лазить только если
> явно разрешили лазить»
Идеология как раз верна. Спайдер поисковика заинтересован в том, чтобы собрать всю информацию, до которой он доберется, ему глубоко начхать, забанят его или нет - в конце концов, желающих быть проиндексированными намного больше, чем нежелающих. Забота же о нагрузке на сервер - это личная проблема хозяев сервера.
← →
Anatoly Podgoretsky © (2008-06-05 13:17) [35]> DrPass (05.06.2008 12:36:34) [34]
Тот который лезет, куда запрещено является сетевым вирусом, это просто атака на сайт.
Его обязаности описаны в robots.txt - те кто не подчиняется этому является зловредной программой.
← →
ketmar © (2008-06-05 13:25) [36]>[34] DrPass © (2008-06-05 12:36:00)
как ты думаешь, лично меня сильно волнуют интересы поисковика?
>[35] Anatoly Podgoretsky © (2008-06-05 13:17:00)
неа.
правильная логика программы: «пока мне не разрешили, я не делаю».
неправильная логика зловредной программы: «пока мне не запретили, я делаю что хочу».
надо не запрет в явно виде прописывать, а разрешение в явном виде. любая программа, которая по-умолчанию считает, что ей можно всё, что не запрещено — зловредная.
---
All Your Base Are Belong to Us
← →
Anatoly Podgoretsky © (2008-06-05 14:31) [37]> ketmar (05.06.2008 13:25:36) [36]
Я не хочу искать описание robots.txt кажется что-то там есть.
← →
ketmar © (2008-06-05 14:34) [38]>[37] Anatoly Podgoretsky © (2008-06-05 14:31:00)
штука в том, что я должен создать роботс.тхт чтобы запретить. а правильно будет — создать, чтобы разрешить, и потом явно указать на сайте поисковика, что вот сюда теперь ходи — тут тебе еды положили.
---
Understanding is not required. Only obedience.
← →
Anatoly Podgoretsky © (2008-06-05 15:18) [39]> ketmar (05.06.2008 14:34:38) [38]
Ну тут твои представления с разработчиками не совпадают.
← →
Пробегал2.... (2008-06-05 15:20) [40]Anatoly Podgoretsky © (04.06.08 15:11) [8]
бедный яндекс индексировал с одной машниы, в несколько потоков. Гугл уже сотни, но с одной сети, Яху множество машин с разных сетей класса А.
о как. Оказывается теперь яху кручу всех. Совсем недавно как-то по другому было:>Вот еще и gogle подключился, но у этих математика получше, а Яху >работает как спамбот.
Младенцы? Просто кто-то умеет работать адекватно, а кто-то нет.
ketmar © (04.06.08 15:31) [12]
и знал бы ты, как я заколебался файрволом банить этих идиотских ботов!
вот же делать кому-то нечего...
Страницы: 1 2 3 вся ветка
Форум: "Прочее";
Текущий архив: 2008.07.20;
Скачать: [xml.tar.bz2];
Память: 0.55 MB
Время: 0.048 c