Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.09.19;
Скачать: CL | DM;

Вниз

Индексация текста   Найти похожие ветки 

 
Ермак ©   (2004-08-31 00:31) [0]

Народ! Кто-нибудь когда-нибудь делал индексацию текстов для последующего быстрого поиска? Если да, то что это, в общих чертах, за алгоритм и с чем его вообще едят? И нет ли хороших статеек в РуНете по этому поводу? Заранее огромное спасибо.


 
Palladin ©   (2004-08-31 01:01) [1]

http://www.rsdn.ru/article/alg/textsearch.xml


 
Германн ©   (2004-08-31 03:12) [2]

"индексацию текстов для последующего быстрого поиска"?
Тогда Вам в "Базы", имхо.


 
Ермак ©   (2004-08-31 12:53) [3]

2 Германн

Не в базе данных, а в полнотекстовом архиве документов. Т.е. всякие там Oracle, Interbase, SQL и т.п. не годятся.


 
Думкин ©   (2004-08-31 13:01) [4]

> Ермак ©   (31.08.04 00:31)

Есть файлы, есть слова, есть позиции.
Создаем список файлов.
Создаем словарь в котором храним возле каждого слова - наборы - (номер файла, номера позиций).
По объему - это может превысить исходный материал. Но вы ведь этого хотите?

Можно тут и над вариациями подумать. Но описанное выше использовалось в реальных проектах, народу нравилось.


 
Ермак ©   (2004-08-31 16:16) [5]

Спасибо, Palladin, Думкин.

А такие системы, как Евфрат и т.п. по этому принципу работают?
Мне кажется, они какой-то отбор слов по значимости делают, чтобы не хранить огромную базу. Или я ошибаюсь?



Страницы: 1 вся ветка

Текущий архив: 2004.09.19;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.028 c
1-1094222899
MetalFan
2004-09-03 18:48
2004.09.19
снова про приведение типов)


9-1082294750
ork
2004-04-18 17:25
2004.09.19
rushvild


14-1093527977
Анонимщик
2004-08-26 17:46
2004.09.19
Красное перечеркнутое имя. Удалено модератором.


8-1088505767
sashok
2004-06-29 14:42
2004.09.19
Проигрывание видео на форме.


6-1089716484
Djon007
2004-07-13 15:01
2004.09.19
Протокол работи мирка есть,аси есть агде же протокол работи ODIGO