Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.02.06;
Скачать: CL | DM;

Вниз

Поиск одинаковых фрагментов текста в БД   Найти похожие ветки 

 
Леонид   (2004-01-10 01:41) [0]

Доброго времени суток!
У меня такая проблема. Есть база анекдотов порядка
20.000 записей в Memo-поле. В этой базе попадаются одни и те же анекдоты. Как их найти?
Т.е. чтоб самая первая запись прошлась по всей базе в поисках своего двойника, затем вторая запись и т.д. Элементарный поиск по одному слову по всей базе занимает 30 сек на Duron 1200. Получается займет около недели :-(.
Может есть у кого какие соображения по этой проблеме? Как сделать быстрый поиск или сам алгоритм поиска одинаковых фрагментов текста в БД (большой БД)?
Помогите, пожалуйста!!!


 
Sergey13 ©   (2004-01-10 09:09) [1]

Тут, ИМХО, нужен не просто Искуственный Интелект, а ИИ с чувством юмора. 8-)
Задача, ИМХО, в полном объеме на данный момент не решаема в принципе. Только ручками.


 
Vemer ©   (2004-01-10 09:16) [2]

Сортирровка анекдотов на несколько групп + ключевые слова заметно ускорят процесс...


 
Леонид   (2004-01-10 23:53) [3]

Сортировка анекдотов на несколько групп по смыслу (это уж точно придется делать вручную) займет приличное время.


 
unreger   (2004-01-12 07:16) [4]

я начинал диссертацию писать по теме
надо не просто совпадения искать а перефразировки и использования одного сюжета с разными персонажами

пытался решить через трансформационную грамматику и семантические шаблоны, но потом "28 мне уже - поцелуйте меня в ж"
и проблема с армией/написанием диссертации отпала сама собой

а жаль
идея такая, что получаем формальное (формализованное) содержание анекдота с которым уже идут операции сравнения, поиска и т.д.

кстати решается проблема избыточности: каждый анекдот следует рассматривать как лаконизм (за исключением пары категорий)(что не все понимают), а из формального описания анекдот синтезируется оптимальным образом

эх


 
Vemer ©   (2004-01-12 10:33) [5]

Разбить анекдоты на несколько групп недолго, можно м полуавтоматом (там где слово "Штирлиц" явно в "Штирлица" попадают). Прогу такую написать - 30 минут + поле группы анекдота и поле для ключевого слова. А оставшиеся (25-30%) - ручками..



Страницы: 1 вся ветка

Текущий архив: 2004.02.06;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.022 c
1-16325
NailMan
2004-01-28 13:11
2004.02.06
Потоки: запутался с обработчиком событий


3-16113
Volodya_
2004-01-16 01:29
2004.02.06
DBGrid


3-16101
CraKer
2004-01-10 23:12
2004.02.06
Сортировка по алфавиту


14-16650
Кукушкинд
2004-01-13 14:08
2004.02.06
Друзья! Есть


3-16140
sohat
2004-01-13 12:11
2004.02.06
Можно ли получить список полей запроса не выполняя оный?