Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2007.01.28;
Скачать: [xml.tar.bz2];

Вниз

Что мешает Гуглу реализовать внутрифайловый поиск?   Найти похожие ветки 

 
Real ©   (2006-12-28 22:47) [0]

Почему бы гугулу или другому какому-нить поисковику - не кешировать бы небольшие участки всех файлов встречающихся на страницах, и хранить их в ассоцииации с этим сайтом как и текст в базе? То есть, например я ишу программу, о которой неизвестно ничего - но есть ее экзешник, и я хочу проискать где он встречается в инете по совпадению внутреннего содержимого? Или - проверить, не встречается ли где в инете - фотка девушки? (например, нет ли на порно сайте :))) Да практически для любого типа файла - может это понадобится. Локальный поиск - ведь частенько используют не только среди текстовых файлов. Выдирались бы данные - для каждого формата по своим правилам, таким образом - чтобы это были (по возможности) уникальный блок для разных файлов. Ну а если блоки и совпадут - ну так поиск по тексту - обычно выводит на несколько тысяч результатов :) Всех правил не перечислить так сразу, но в целом - мог бы получится полезный сервис?...


 
vrem   (2006-12-28 22:54) [1]

ищи по размеру файла, а среди результатов - по контрольной сумме. и ничего хранить не надо. я кстати именно по размеру часто нахожу, размер имеет значение :)


 
ProgRAMmer Dimonych ©   (2006-12-28 22:57) [2]

> Real ©   (28.12.06 22:47)
Проблема в том, что на разных сайтах файлы, например, с одним и тем же расширением могут иметь разное применение. Например, я создаю на своём сайте файл DoNotDownloadMe.txt, куда запихиваю чего-нибудь даже отдалённое не напоминающее текст. Там же лежит файл robots.txt, типичный текстовик. Как определить, какой файл добавлять в базу, какой нет (пример с robots.txt, конечно, неудачный, но...). Да и размеры такой базы... :(


 
Real ©   (2006-12-29 00:03) [3]


> ищи по размеру файла, а среди результатов - по контрольной
> сумме. и ничего хранить не надо. я кстати именно по размеру
> часто нахожу, размер имеет значение :)

Не катит например для ресайзнутых картинок (правда не уверен что мой метод будет катить для них же :)))


> Проблема в том, что на разных сайтах файлы, например, с
> одним и тем же расширением могут иметь разное применение.

При чем тут расширение файла?


 
Kerk ©   (2006-12-29 00:06) [4]

Сегодня очень нужен был сервис по поиску картинок по образцу. RecogMission вроде взялась за такую штуку, тока хз что получится.


 
Gero ©   (2006-12-29 00:07) [5]

> [4] Kerk ©   (29.12.06 00:06)

Я уже видел сервис, которе такое делал.


 
Kerk ©   (2006-12-29 00:07) [6]

> [5] Gero ©   (29.12.06 00:07)

Сцылку!


 
Gero ©   (2006-12-29 00:35) [7]

> [6] Kerk ©   (29.12.06 00:07)

Не помню.


 
>   (2006-12-29 01:16) [8]


> Gero ©   (29.12.06 00:35) [7]

Гад :) Такое -- и не запомнить...


 
MeF Dei Corvi ©   (2006-12-29 02:55) [9]

Поставил я себе как-то Гугл Десктоп на комп и понял, как тяжело там им)) Мои 160 гб сканировались сутки, размер индекса составил 2гб, заняв всё доступное свободное место... При этом, индексировалось лишь содержимое некоторых типов файлов. Не представляю, что будет, если индексировать содержимое всех файлов.


 
Kirr.   (2006-12-29 17:01) [10]

Ага, прикинь, лежат на сайте всякие инсталяшки по 160М, фильмы или еще какие архивы, а бедный гугл должен будет их всех качать, чтобы проиндексировать. Конечно, можно скачивать лишь маленький кусочек, но все равно дофига и непонятно как ты будешь искать по куску содержимого.


 
Anatoly Podgoretsky ©   (2006-12-29 17:14) [11]

> Kirr.  (29.12.2006 17:01:10)  [10]

Не надо, Гугл посадит трояна, он будет индексировать.


 
oldman ©   (2006-12-29 17:19) [12]


> То есть, например я ишу программу, о которой неизвестно
> ничего - но есть ее экзешник...


А если есть экзешник, зачем ты ее ищешь?


 
vrem   (2006-12-29 17:21) [13]

Если гуглу можно рассказать о сайте, то могут сделать "расскажи о своих файлах"


 
Real ©   (2007-01-07 21:47) [14]


> Ага, прикинь, лежат на сайте всякие инсталяшки по 160М,
> фильмы или еще какие архивы, а бедный гугл должен будет
> их всех качать, чтобы проиндексировать. Конечно, можно скачивать
> лишь маленький кусочек, но все равно дофига и непонятно
> как ты будешь искать по куску содержимого.

А так, что вдранный кусок, даже пусть 500 байт - даст мне результат на этот файл. Нужна лишь некая система и договоренность по какому принципу выбирается кусок (надо учесть специфику разных форматов). Например, поисковик мог для этой цели давать бесплатного клиента, который бы сам выдирал нужный кусок из файла и послыл запрос поисковику. Конечно, результат будет не одно совпадение - но проще просмотреть пару десятков найденных чем искать наобум по всему инету.


> > То есть, например я ишу программу, о которой неизвестно
> > ничего - но есть ее экзешник...
>
> А если есть экзешник, зачем ты ее ищешь?

Например, узнать о новых версиях


 
Anatoly Podgoretsky ©   (2007-01-07 22:05) [15]

> Real  (07.01.2007 21:47:14)  [14]

Клиента пошлем подальше, надавали уже.


 
isasa ©   (2007-01-07 22:28) [16]

Просто вопрос.
А что есть админы, которые разрешают опцию "Обзор каталогов" в том же IIS, например ?


 
Real ©   (2007-01-07 23:11) [17]


> Просто вопрос.
> А что есть админы, которые разрешают опцию "Обзор каталогов"
> в том же IIS, например ?

Речь шла о файлах доступных на страницах, то есть к тем - для которых разрешен доступ на чтение. Разумеется, никто не говорит о кэшировании ВСЕХ файлов доступных на хосте


 
Kerk ©   (2007-01-07 23:59) [18]

> Нужна лишь некая система и договоренность по какому принципу
> выбирается кусок (надо учесть специфику разных форматов)
> .

Нафига кусок?
CRC или MD5 лучше тогда уж



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2007.01.28;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.49 MB
Время: 0.052 c
4-1158529926
ph0sgen
2006-09-18 01:52
2007.01.28
вопрос по потоку


3-1163013159
ivan8511
2006-11-08 22:12
2007.01.28
Создать программно базу данных


15-1168031933
PHPdeveloper
2007-01-06 00:18
2007.01.28
Хммм


2-1168494771
swip
2007-01-11 08:52
2007.01.28
Снимок экрана с курсором мыши


15-1167919316
1111
2007-01-04 17:01
2007.01.28
AutoCAD





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский