Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.09.19;
Скачать: CL | DM;

Вниз

Индексация текста   Найти похожие ветки 

 
Ермак ©   (2004-08-31 00:31) [0]

Народ! Кто-нибудь когда-нибудь делал индексацию текстов для последующего быстрого поиска? Если да, то что это, в общих чертах, за алгоритм и с чем его вообще едят? И нет ли хороших статеек в РуНете по этому поводу? Заранее огромное спасибо.


 
Palladin ©   (2004-08-31 01:01) [1]

http://www.rsdn.ru/article/alg/textsearch.xml


 
Германн ©   (2004-08-31 03:12) [2]

"индексацию текстов для последующего быстрого поиска"?
Тогда Вам в "Базы", имхо.


 
Ермак ©   (2004-08-31 12:53) [3]

2 Германн

Не в базе данных, а в полнотекстовом архиве документов. Т.е. всякие там Oracle, Interbase, SQL и т.п. не годятся.


 
Думкин ©   (2004-08-31 13:01) [4]

> Ермак ©   (31.08.04 00:31)

Есть файлы, есть слова, есть позиции.
Создаем список файлов.
Создаем словарь в котором храним возле каждого слова - наборы - (номер файла, номера позиций).
По объему - это может превысить исходный материал. Но вы ведь этого хотите?

Можно тут и над вариациями подумать. Но описанное выше использовалось в реальных проектах, народу нравилось.


 
Ермак ©   (2004-08-31 16:16) [5]

Спасибо, Palladin, Думкин.

А такие системы, как Евфрат и т.п. по этому принципу работают?
Мне кажется, они какой-то отбор слов по значимости делают, чтобы не хранить огромную базу. Или я ошибаюсь?



Страницы: 1 вся ветка

Текущий архив: 2004.09.19;
Скачать: CL | DM;

Наверх




Память: 0.47 MB
Время: 0.029 c
3-1093334823
vicky
2004-08-24 12:07
2004.09.19
ADOQuery екщгиду вызывает ошибку


11-1080637617
avakss
2004-03-30 13:06
2004.09.19
KoleDB+Access2000rus+Delphi7+Win2000rus


1-1094032448
Anderson
2004-09-01 13:54
2004.09.19
Уменьшение/увеличение прозрачности отдельных цветов формы


1-1094188853
Гость83
2004-09-03 09:20
2004.09.19
Уважаемые мастера! Подскажите, как программно TListBox прокрутить


6-1089625657
Zheks
2004-07-12 13:47
2004.09.19
Delphi7 + TServer(Client)Socket