Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Базы";
Текущий архив: 2004.02.06;
Скачать: [xml.tar.bz2];

Вниз

Поиск одинаковых фрагментов текста в БД   Найти похожие ветки 

 
Леонид   (2004-01-10 01:41) [0]

Доброго времени суток!
У меня такая проблема. Есть база анекдотов порядка
20.000 записей в Memo-поле. В этой базе попадаются одни и те же анекдоты. Как их найти?
Т.е. чтоб самая первая запись прошлась по всей базе в поисках своего двойника, затем вторая запись и т.д. Элементарный поиск по одному слову по всей базе занимает 30 сек на Duron 1200. Получается займет около недели :-(.
Может есть у кого какие соображения по этой проблеме? Как сделать быстрый поиск или сам алгоритм поиска одинаковых фрагментов текста в БД (большой БД)?
Помогите, пожалуйста!!!


 
Sergey13   (2004-01-10 09:09) [1]

Тут, ИМХО, нужен не просто Искуственный Интелект, а ИИ с чувством юмора. 8-)
Задача, ИМХО, в полном объеме на данный момент не решаема в принципе. Только ручками.


 
Vemer   (2004-01-10 09:16) [2]

Сортирровка анекдотов на несколько групп + ключевые слова заметно ускорят процесс...


 
Леонид   (2004-01-10 23:53) [3]

Сортировка анекдотов на несколько групп по смыслу (это уж точно придется делать вручную) займет приличное время.


 
unreger   (2004-01-12 07:16) [4]

я начинал диссертацию писать по теме
надо не просто совпадения искать а перефразировки и использования одного сюжета с разными персонажами

пытался решить через трансформационную грамматику и семантические шаблоны, но потом "28 мне уже - поцелуйте меня в ж"
и проблема с армией/написанием диссертации отпала сама собой

а жаль
идея такая, что получаем формальное (формализованное) содержание анекдота с которым уже идут операции сравнения, поиска и т.д.

кстати решается проблема избыточности: каждый анекдот следует рассматривать как лаконизм (за исключением пары категорий)(что не все понимают), а из формального описания анекдот синтезируется оптимальным образом

эх


 
Vemer   (2004-01-12 10:33) [5]

Разбить анекдоты на несколько групп недолго, можно м полуавтоматом (там где слово "Штирлиц" явно в "Штирлица" попадают). Прогу такую написать - 30 минут + поле группы анекдота и поле для ключевого слова. А оставшиеся (25-30%) - ручками..



Страницы: 1 вся ветка

Форум: "Базы";
Текущий архив: 2004.02.06;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.45 MB
Время: 0.03 c
1-16379
Olphi
2004-01-23 18:13
2004.02.06
Как выровнять текст по ширине в TMemo или TRichEdit?


1-16419
Евгыш
2004-01-22 15:45
2004.02.06
Минимизация кучи


6-16548
stud
2003-12-03 17:01
2004.02.06
сети,сети.....


1-16380
Gitr
2004-01-28 13:01
2004.02.06
Как сделать на заставке смену картинок?


1-16414
denis24
2004-01-22 13:56
2004.02.06
функция разбиения строки на слова





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский