Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.09.19;
Скачать: CL | DM;

Вниз

Индексация текста   Найти похожие ветки 

 
Ермак ©   (2004-08-31 00:31) [0]

Народ! Кто-нибудь когда-нибудь делал индексацию текстов для последующего быстрого поиска? Если да, то что это, в общих чертах, за алгоритм и с чем его вообще едят? И нет ли хороших статеек в РуНете по этому поводу? Заранее огромное спасибо.


 
Palladin ©   (2004-08-31 01:01) [1]

http://www.rsdn.ru/article/alg/textsearch.xml


 
Германн ©   (2004-08-31 03:12) [2]

"индексацию текстов для последующего быстрого поиска"?
Тогда Вам в "Базы", имхо.


 
Ермак ©   (2004-08-31 12:53) [3]

2 Германн

Не в базе данных, а в полнотекстовом архиве документов. Т.е. всякие там Oracle, Interbase, SQL и т.п. не годятся.


 
Думкин ©   (2004-08-31 13:01) [4]

> Ермак ©   (31.08.04 00:31)

Есть файлы, есть слова, есть позиции.
Создаем список файлов.
Создаем словарь в котором храним возле каждого слова - наборы - (номер файла, номера позиций).
По объему - это может превысить исходный материал. Но вы ведь этого хотите?

Можно тут и над вариациями подумать. Но описанное выше использовалось в реальных проектах, народу нравилось.


 
Ермак ©   (2004-08-31 16:16) [5]

Спасибо, Palladin, Думкин.

А такие системы, как Евфрат и т.п. по этому принципу работают?
Мне кажется, они какой-то отбор слов по значимости делают, чтобы не хранить огромную базу. Или я ошибаюсь?



Страницы: 1 вся ветка

Текущий архив: 2004.09.19;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.036 c
1-1094313788
Луарвик
2004-09-04 20:03
2004.09.19
Как скопировать недоступный файл?


3-1093244961
kukuikar
2004-08-23 11:09
2004.09.19
Защита паролем таблиц Paradox


14-1093525319
VMcL
2004-08-26 17:01
2004.09.19
Документирование кода (щас меня будут бить ногами :-)


1-1094132658
Соколов
2004-09-02 17:44
2004.09.19
Chart


4-1091865374
Ded Moroz
2004-08-07 11:56
2004.09.19
Timer, Ticks