Форум: "Основная";
Текущий архив: 2004.09.19;
Скачать: [xml.tar.bz2];
ВнизИндексация текста Найти похожие ветки
← →
Ермак © (2004-08-31 00:31) [0]Народ! Кто-нибудь когда-нибудь делал индексацию текстов для последующего быстрого поиска? Если да, то что это, в общих чертах, за алгоритм и с чем его вообще едят? И нет ли хороших статеек в РуНете по этому поводу? Заранее огромное спасибо.
← →
Palladin © (2004-08-31 01:01) [1]http://www.rsdn.ru/article/alg/textsearch.xml
← →
Германн © (2004-08-31 03:12) [2]"индексацию текстов для последующего быстрого поиска"?
Тогда Вам в "Базы", имхо.
← →
Ермак © (2004-08-31 12:53) [3]2 Германн
Не в базе данных, а в полнотекстовом архиве документов. Т.е. всякие там Oracle, Interbase, SQL и т.п. не годятся.
← →
Думкин © (2004-08-31 13:01) [4]> Ермак © (31.08.04 00:31)
Есть файлы, есть слова, есть позиции.
Создаем список файлов.
Создаем словарь в котором храним возле каждого слова - наборы - (номер файла, номера позиций).
По объему - это может превысить исходный материал. Но вы ведь этого хотите?
Можно тут и над вариациями подумать. Но описанное выше использовалось в реальных проектах, народу нравилось.
← →
Ермак © (2004-08-31 16:16) [5]Спасибо, Palladin, Думкин.
А такие системы, как Евфрат и т.п. по этому принципу работают?
Мне кажется, они какой-то отбор слов по значимости делают, чтобы не хранить огромную базу. Или я ошибаюсь?
Страницы: 1 вся ветка
Форум: "Основная";
Текущий архив: 2004.09.19;
Скачать: [xml.tar.bz2];
Память: 0.45 MB
Время: 0.03 c