Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2004.02.06;
Скачать: CL | DM;

Вниз

Поиск одинаковых фрагментов текста в БД   Найти похожие ветки 

 
Леонид   (2004-01-10 01:41) [0]

Доброго времени суток!
У меня такая проблема. Есть база анекдотов порядка
20.000 записей в Memo-поле. В этой базе попадаются одни и те же анекдоты. Как их найти?
Т.е. чтоб самая первая запись прошлась по всей базе в поисках своего двойника, затем вторая запись и т.д. Элементарный поиск по одному слову по всей базе занимает 30 сек на Duron 1200. Получается займет около недели :-(.
Может есть у кого какие соображения по этой проблеме? Как сделать быстрый поиск или сам алгоритм поиска одинаковых фрагментов текста в БД (большой БД)?
Помогите, пожалуйста!!!


 
Sergey13 ©   (2004-01-10 09:09) [1]

Тут, ИМХО, нужен не просто Искуственный Интелект, а ИИ с чувством юмора. 8-)
Задача, ИМХО, в полном объеме на данный момент не решаема в принципе. Только ручками.


 
Vemer ©   (2004-01-10 09:16) [2]

Сортирровка анекдотов на несколько групп + ключевые слова заметно ускорят процесс...


 
Леонид   (2004-01-10 23:53) [3]

Сортировка анекдотов на несколько групп по смыслу (это уж точно придется делать вручную) займет приличное время.


 
unreger   (2004-01-12 07:16) [4]

я начинал диссертацию писать по теме
надо не просто совпадения искать а перефразировки и использования одного сюжета с разными персонажами

пытался решить через трансформационную грамматику и семантические шаблоны, но потом "28 мне уже - поцелуйте меня в ж"
и проблема с армией/написанием диссертации отпала сама собой

а жаль
идея такая, что получаем формальное (формализованное) содержание анекдота с которым уже идут операции сравнения, поиска и т.д.

кстати решается проблема избыточности: каждый анекдот следует рассматривать как лаконизм (за исключением пары категорий)(что не все понимают), а из формального описания анекдот синтезируется оптимальным образом

эх


 
Vemer ©   (2004-01-12 10:33) [5]

Разбить анекдоты на несколько групп недолго, можно м полуавтоматом (там где слово "Штирлиц" явно в "Штирлица" попадают). Прогу такую написать - 30 минут + поле группы анекдота и поле для ключевого слова. А оставшиеся (25-30%) - ручками..



Страницы: 1 вся ветка

Текущий архив: 2004.02.06;
Скачать: CL | DM;

Наверх




Память: 0.48 MB
Время: 0.02 c
14-16608
Стесняюсь...
2004-01-02 00:57
2004.02.06
Пачеко


14-16588
Домарощинер
2004-01-15 18:58
2004.02.06
Глюки с сетевухой


9-16014
lokid7
2003-07-21 12:07
2004.02.06
Помогите мне в D3D


14-16703
Piter
2004-01-18 01:33
2004.02.06
CreateToolhelp32Snapshot возвращает неверный дескриптор


3-16118
Yurij-71@ukr.net
2004-01-14 19:18
2004.02.06
Связывание таблиц в Halcyon