Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2004.09.19;
Скачать: [xml.tar.bz2];

Вниз

Индексация текста   Найти похожие ветки 

 
Ермак ©   (2004-08-31 00:31) [0]

Народ! Кто-нибудь когда-нибудь делал индексацию текстов для последующего быстрого поиска? Если да, то что это, в общих чертах, за алгоритм и с чем его вообще едят? И нет ли хороших статеек в РуНете по этому поводу? Заранее огромное спасибо.


 
Palladin ©   (2004-08-31 01:01) [1]

http://www.rsdn.ru/article/alg/textsearch.xml


 
Германн ©   (2004-08-31 03:12) [2]

"индексацию текстов для последующего быстрого поиска"?
Тогда Вам в "Базы", имхо.


 
Ермак ©   (2004-08-31 12:53) [3]

2 Германн

Не в базе данных, а в полнотекстовом архиве документов. Т.е. всякие там Oracle, Interbase, SQL и т.п. не годятся.


 
Думкин ©   (2004-08-31 13:01) [4]

> Ермак ©   (31.08.04 00:31)

Есть файлы, есть слова, есть позиции.
Создаем список файлов.
Создаем словарь в котором храним возле каждого слова - наборы - (номер файла, номера позиций).
По объему - это может превысить исходный материал. Но вы ведь этого хотите?

Можно тут и над вариациями подумать. Но описанное выше использовалось в реальных проектах, народу нравилось.


 
Ермак ©   (2004-08-31 16:16) [5]

Спасибо, Palladin, Думкин.

А такие системы, как Евфрат и т.п. по этому принципу работают?
Мне кажется, они какой-то отбор слов по значимости делают, чтобы не хранить огромную базу. Или я ошибаюсь?



Страницы: 1 вся ветка

Форум: "Основная";
Текущий архив: 2004.09.19;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.45 MB
Время: 0.03 c
14-1092674721
Soft
2004-08-16 20:45
2004.09.19
Можно научить правильно думать не робота, а человека?


14-1092765485
ИМХО
2004-08-17 21:58
2004.09.19
Олимпийские игры: Афины 2004


14-1092599346
Vasya.ru
2004-08-15 23:49
2004.09.19
alg.exe - что за процесс?


3-1093256010
vovchik
2004-08-23 14:13
2004.09.19
Как запихнуть html страницы в exe файл


1-1094464652
???
2004-09-06 13:57
2004.09.19
Как предотвратить появления PopupMenu основной ф. в MDI дочерних?





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский