Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Основная";
Текущий архив: 2004.09.19;
Скачать: [xml.tar.bz2];

Вниз

Индексация текста   Найти похожие ветки 

 
Ермак ©   (2004-08-31 00:31) [0]

Народ! Кто-нибудь когда-нибудь делал индексацию текстов для последующего быстрого поиска? Если да, то что это, в общих чертах, за алгоритм и с чем его вообще едят? И нет ли хороших статеек в РуНете по этому поводу? Заранее огромное спасибо.


 
Palladin ©   (2004-08-31 01:01) [1]

http://www.rsdn.ru/article/alg/textsearch.xml


 
Германн ©   (2004-08-31 03:12) [2]

"индексацию текстов для последующего быстрого поиска"?
Тогда Вам в "Базы", имхо.


 
Ермак ©   (2004-08-31 12:53) [3]

2 Германн

Не в базе данных, а в полнотекстовом архиве документов. Т.е. всякие там Oracle, Interbase, SQL и т.п. не годятся.


 
Думкин ©   (2004-08-31 13:01) [4]

> Ермак ©   (31.08.04 00:31)

Есть файлы, есть слова, есть позиции.
Создаем список файлов.
Создаем словарь в котором храним возле каждого слова - наборы - (номер файла, номера позиций).
По объему - это может превысить исходный материал. Но вы ведь этого хотите?

Можно тут и над вариациями подумать. Но описанное выше использовалось в реальных проектах, народу нравилось.


 
Ермак ©   (2004-08-31 16:16) [5]

Спасибо, Palladin, Думкин.

А такие системы, как Евфрат и т.п. по этому принципу работают?
Мне кажется, они какой-то отбор слов по значимости делают, чтобы не хранить огромную базу. Или я ошибаюсь?



Страницы: 1 вся ветка

Форум: "Основная";
Текущий архив: 2004.09.19;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.45 MB
Время: 0.035 c
14-1093525219
ИМХО
2004-08-26 17:00
2004.09.19
Список из 50 программ


1-1094531963
Леприкон
2004-09-07 08:39
2004.09.19
Вставка знака диаметра в Excel


1-1094110543
DesWind
2004-09-02 11:35
2004.09.19
XP Manifest


14-1093456378
Piter
2004-08-25 21:52
2004.09.19
Монитор LG-1910P


1-1094479078
pavelgr
2004-09-06 17:57
2004.09.19
убрать выделение





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский