Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.02.06;
Скачать: CL | DM;

Вниз

Поиск одинаковых фрагментов текста в БД   Найти похожие ветки 

 
Леонид   (2004-01-10 01:41) [0]

Доброго времени суток!
У меня такая проблема. Есть база анекдотов порядка
20.000 записей в Memo-поле. В этой базе попадаются одни и те же анекдоты. Как их найти?
Т.е. чтоб самая первая запись прошлась по всей базе в поисках своего двойника, затем вторая запись и т.д. Элементарный поиск по одному слову по всей базе занимает 30 сек на Duron 1200. Получается займет около недели :-(.
Может есть у кого какие соображения по этой проблеме? Как сделать быстрый поиск или сам алгоритм поиска одинаковых фрагментов текста в БД (большой БД)?
Помогите, пожалуйста!!!


 
Sergey13 ©   (2004-01-10 09:09) [1]

Тут, ИМХО, нужен не просто Искуственный Интелект, а ИИ с чувством юмора. 8-)
Задача, ИМХО, в полном объеме на данный момент не решаема в принципе. Только ручками.


 
Vemer ©   (2004-01-10 09:16) [2]

Сортирровка анекдотов на несколько групп + ключевые слова заметно ускорят процесс...


 
Леонид   (2004-01-10 23:53) [3]

Сортировка анекдотов на несколько групп по смыслу (это уж точно придется делать вручную) займет приличное время.


 
unreger   (2004-01-12 07:16) [4]

я начинал диссертацию писать по теме
надо не просто совпадения искать а перефразировки и использования одного сюжета с разными персонажами

пытался решить через трансформационную грамматику и семантические шаблоны, но потом "28 мне уже - поцелуйте меня в ж"
и проблема с армией/написанием диссертации отпала сама собой

а жаль
идея такая, что получаем формальное (формализованное) содержание анекдота с которым уже идут операции сравнения, поиска и т.д.

кстати решается проблема избыточности: каждый анекдот следует рассматривать как лаконизм (за исключением пары категорий)(что не все понимают), а из формального описания анекдот синтезируется оптимальным образом

эх


 
Vemer ©   (2004-01-12 10:33) [5]

Разбить анекдоты на несколько групп недолго, можно м полуавтоматом (там где слово "Штирлиц" явно в "Штирлица" попадают). Прогу такую написать - 30 минут + поле группы анекдота и поле для ключевого слова. А оставшиеся (25-30%) - ручками..



Страницы: 1 вся ветка

Текущий архив: 2004.02.06;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.019 c
1-16425
cyborg
2004-01-21 17:31
2004.02.06
Перевод текста KOI8 или других кодировок в нормальный вид


3-16151
Lider
2004-01-14 20:14
2004.02.06
Как получить возвращаемое значение SQL сервером


1-16307
Tosha
2004-01-25 19:15
2004.02.06
TRichEdit


3-16170
Tt
2004-01-14 12:08
2004.02.06
Логич.поля и dxDBGrid


1-16397
Yegorchic
2004-01-22 20:16
2004.02.06
MDIForm ы