Форум: "Потрепаться";
Текущий архив: 2005.11.27;
Скачать: [xml.tar.bz2];
ВнизАлгоритмы выявления индентичности предложений? Найти похожие ветки
← →
karat © (2005-10-31 12:49) [0]Существуют статьи на эту тему?
К примеру, есть предложения:
1) "Mitsubishi Galant"
2) " Mitsubishi Galant "
3) "Mitsubishi "Galant" "
По сути они одинаковы, но по написанию разные. Существуют алгоритмы сравнения таких строк?
← →
Digitman © (2005-10-31 12:58) [1]да, существуют
например, объект VBScript.RegExpr реализует такой алгоритм
← →
TUser © (2005-10-31 13:24) [2]Кто-то говорил, что делал на эту тему диплом, только там компьютерные железки были. Понятно, что это сложнее.
В данном случае - можно сравнивать только значимые символы, любую последоватлеьность из незначащих символов заменяя одним пробелом.
Если последовательность значащих символов может незначительно отичаться, то для сравнения используют алгоритм Левенталя.
← →
paul_k © (2005-10-31 13:26) [3]TUser © (31.10.05 13:24) [2]
Левенталя?
← →
paul_k © (2005-10-31 13:30) [4]http://algolist.manual.ru/search/lcs/index.php
http://aforge.ibd.lv/?27
← →
Nikolay M. © (2005-10-31 13:32) [5]
> TUser © (31.10.05 13:24) [2]
> Кто-то
Этот кто-то - я :)
Для примера из сабжа достаточно заменить несколько пробелов, идущих подряд на один и убрать спецсимволы и пробелы по бокам.
← →
TUser © (2005-10-31 13:36) [6]> paul_k © (31.10.05 13:26) [3]
Плохая у меня память на фамилии, увы.
← →
Джо © (2005-10-31 13:37) [7]
> Алгоритмы выявления индентичности предложений?
А Левенталь с таким справится?
1. Маша -- девушка не слишком строгих правил.
2. Я в восторге от Маши
:)
← →
vertal © (2005-11-01 02:04) [8]Вот сайтик, целиком посвященный проблеме нечеткого поиска:
itman.narod.ru
> алгоритм Левенталя
Может быть, Левештейна, или это разные алгоритмы?
Но он (Левештейна) - по сути только для сравнения слов, в фразах есть куча своих особенностей.
← →
TUser © (2005-11-01 07:38) [9]> Может быть, Левештейна
Да я в [6] уже признался. Ашипка у меня :)
Чем он не годится для сравнения фраз? Тем что "казнить нельзя помиловать" во всех вариантах будет похожа на себя? Ну, таких фраз не очень много.
← →
vertal © (2005-11-01 21:33) [10]Сорри, я как-то не понял, к чему [6] относится
У меня тоже опечатка - надо бы Левенштейна
Для сравнения фраз в лоб он не годится хотя бы тем, что порядок слов в фразах не всегда важен, пробелы опять же, падежи, есть грамматически различные, но по смыслу эквивалентные способы сопряжения слов.
Страницы: 1 вся ветка
Форум: "Потрепаться";
Текущий архив: 2005.11.27;
Скачать: [xml.tar.bz2];
Память: 0.46 MB
Время: 0.015 c