Форум: "Базы";
Текущий архив: 2004.02.06;
Скачать: [xml.tar.bz2];
ВнизПоиск одинаковых фрагментов текста в БД Найти похожие ветки
← →
Леонид (2004-01-10 01:41) [0]Доброго времени суток!
У меня такая проблема. Есть база анекдотов порядка
20.000 записей в Memo-поле. В этой базе попадаются одни и те же анекдоты. Как их найти?
Т.е. чтоб самая первая запись прошлась по всей базе в поисках своего двойника, затем вторая запись и т.д. Элементарный поиск по одному слову по всей базе занимает 30 сек на Duron 1200. Получается займет около недели :-(.
Может есть у кого какие соображения по этой проблеме? Как сделать быстрый поиск или сам алгоритм поиска одинаковых фрагментов текста в БД (большой БД)?
Помогите, пожалуйста!!!
← →
Sergey13 (2004-01-10 09:09) [1]Тут, ИМХО, нужен не просто Искуственный Интелект, а ИИ с чувством юмора. 8-)
Задача, ИМХО, в полном объеме на данный момент не решаема в принципе. Только ручками.
← →
Vemer (2004-01-10 09:16) [2]Сортирровка анекдотов на несколько групп + ключевые слова заметно ускорят процесс...
← →
Леонид (2004-01-10 23:53) [3]Сортировка анекдотов на несколько групп по смыслу (это уж точно придется делать вручную) займет приличное время.
← →
unreger (2004-01-12 07:16) [4]я начинал диссертацию писать по теме
надо не просто совпадения искать а перефразировки и использования одного сюжета с разными персонажами
пытался решить через трансформационную грамматику и семантические шаблоны, но потом "28 мне уже - поцелуйте меня в ж"
и проблема с армией/написанием диссертации отпала сама собой
а жаль
идея такая, что получаем формальное (формализованное) содержание анекдота с которым уже идут операции сравнения, поиска и т.д.
кстати решается проблема избыточности: каждый анекдот следует рассматривать как лаконизм (за исключением пары категорий)(что не все понимают), а из формального описания анекдот синтезируется оптимальным образом
эх
← →
Vemer (2004-01-12 10:33) [5]Разбить анекдоты на несколько групп недолго, можно м полуавтоматом (там где слово "Штирлиц" явно в "Штирлица" попадают). Прогу такую написать - 30 минут + поле группы анекдота и поле для ключевого слова. А оставшиеся (25-30%) - ручками..
Страницы: 1 вся ветка
Форум: "Базы";
Текущий архив: 2004.02.06;
Скачать: [xml.tar.bz2];
Память: 0.45 MB
Время: 0.03 c