Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.11.27;
Скачать: CL | DM;

Вниз

Алгоритмы выявления индентичности предложений?   Найти похожие ветки 

 
karat ©   (2005-10-31 12:49) [0]

Существуют статьи на эту тему?
К примеру, есть предложения:
1) "Mitsubishi Galant"
2) "   Mitsubishi   Galant  "
3) "Mitsubishi "Galant" "
По сути они одинаковы, но по написанию разные. Существуют алгоритмы сравнения таких строк?


 
Digitman ©   (2005-10-31 12:58) [1]

да, существуют

например, объект VBScript.RegExpr реализует такой алгоритм


 
TUser ©   (2005-10-31 13:24) [2]

Кто-то говорил, что делал на эту тему диплом, только там компьютерные железки были. Понятно, что это сложнее.

В данном случае - можно сравнивать только значимые символы, любую последоватлеьность из незначащих символов заменяя одним пробелом.

Если последовательность значащих символов может незначительно отичаться, то для сравнения используют алгоритм Левенталя.


 
paul_k ©   (2005-10-31 13:26) [3]

TUser ©   (31.10.05 13:24) [2]
Левенталя?


 
paul_k ©   (2005-10-31 13:30) [4]

http://algolist.manual.ru/search/lcs/index.php
http://aforge.ibd.lv/?27


 
Nikolay M. ©   (2005-10-31 13:32) [5]


> TUser ©   (31.10.05 13:24) [2]
> Кто-то

Этот кто-то - я :)
Для примера из сабжа достаточно заменить несколько пробелов, идущих подряд на один и убрать спецсимволы и пробелы по бокам.


 
TUser ©   (2005-10-31 13:36) [6]

> paul_k ©   (31.10.05 13:26) [3]

Плохая у меня память на фамилии, увы.


 
Джо ©   (2005-10-31 13:37) [7]


> Алгоритмы выявления индентичности предложений?

А Левенталь с таким справится?
1. Маша -- девушка не слишком строгих правил.
2. Я в восторге от Маши
:)


 
vertal ©   (2005-11-01 02:04) [8]

Вот сайтик, целиком посвященный проблеме нечеткого поиска:
itman.narod.ru
> алгоритм Левенталя
Может быть, Левештейна, или это разные алгоритмы?
Но он (Левештейна) - по сути только для сравнения слов, в фразах есть куча своих особенностей.


 
TUser ©   (2005-11-01 07:38) [9]

> Может быть, Левештейна

Да я в [6] уже признался. Ашипка у меня :)

Чем он не годится для сравнения фраз? Тем что "казнить нельзя помиловать" во всех вариантах будет похожа на себя? Ну, таких фраз не очень много.


 
vertal ©   (2005-11-01 21:33) [10]

Сорри, я как-то не понял, к чему [6] относится
У меня тоже опечатка - надо бы Левенштейна
Для сравнения фраз в лоб он не годится хотя бы тем, что порядок слов в фразах не всегда важен, пробелы опять же, падежи, есть грамматически различные, но по смыслу эквивалентные способы сопряжения слов.



Страницы: 1 вся ветка

Текущий архив: 2005.11.27;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.026 c
14-1130948774
Erl
2005-11-02 19:26
2005.11.27
статистика


14-1131265857
Леший
2005-11-06 11:30
2005.11.27
Прошивка мобильника


11-1112327970
DmiSb
2005-04-01 07:59
2005.11.27
Не получается в DLL, собранную на VCL, передать PStream.


4-1127738787
NikNet
2005-09-26 16:46
2005.11.27
Как закрасить весь PageControl?


14-1131179091
ArtemESC
2005-11-05 11:24
2005.11.27
программа