Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.11.27;
Скачать: CL | DM;

Вниз

Алгоритмы выявления индентичности предложений?   Найти похожие ветки 

 
karat ©   (2005-10-31 12:49) [0]

Существуют статьи на эту тему?
К примеру, есть предложения:
1) "Mitsubishi Galant"
2) "   Mitsubishi   Galant  "
3) "Mitsubishi "Galant" "
По сути они одинаковы, но по написанию разные. Существуют алгоритмы сравнения таких строк?


 
Digitman ©   (2005-10-31 12:58) [1]

да, существуют

например, объект VBScript.RegExpr реализует такой алгоритм


 
TUser ©   (2005-10-31 13:24) [2]

Кто-то говорил, что делал на эту тему диплом, только там компьютерные железки были. Понятно, что это сложнее.

В данном случае - можно сравнивать только значимые символы, любую последоватлеьность из незначащих символов заменяя одним пробелом.

Если последовательность значащих символов может незначительно отичаться, то для сравнения используют алгоритм Левенталя.


 
paul_k ©   (2005-10-31 13:26) [3]

TUser ©   (31.10.05 13:24) [2]
Левенталя?


 
paul_k ©   (2005-10-31 13:30) [4]

http://algolist.manual.ru/search/lcs/index.php
http://aforge.ibd.lv/?27


 
Nikolay M. ©   (2005-10-31 13:32) [5]


> TUser ©   (31.10.05 13:24) [2]
> Кто-то

Этот кто-то - я :)
Для примера из сабжа достаточно заменить несколько пробелов, идущих подряд на один и убрать спецсимволы и пробелы по бокам.


 
TUser ©   (2005-10-31 13:36) [6]

> paul_k ©   (31.10.05 13:26) [3]

Плохая у меня память на фамилии, увы.


 
Джо ©   (2005-10-31 13:37) [7]


> Алгоритмы выявления индентичности предложений?

А Левенталь с таким справится?
1. Маша -- девушка не слишком строгих правил.
2. Я в восторге от Маши
:)


 
vertal ©   (2005-11-01 02:04) [8]

Вот сайтик, целиком посвященный проблеме нечеткого поиска:
itman.narod.ru
> алгоритм Левенталя
Может быть, Левештейна, или это разные алгоритмы?
Но он (Левештейна) - по сути только для сравнения слов, в фразах есть куча своих особенностей.


 
TUser ©   (2005-11-01 07:38) [9]

> Может быть, Левештейна

Да я в [6] уже признался. Ашипка у меня :)

Чем он не годится для сравнения фраз? Тем что "казнить нельзя помиловать" во всех вариантах будет похожа на себя? Ну, таких фраз не очень много.


 
vertal ©   (2005-11-01 21:33) [10]

Сорри, я как-то не понял, к чему [6] относится
У меня тоже опечатка - надо бы Левенштейна
Для сравнения фраз в лоб он не годится хотя бы тем, что порядок слов в фразах не всегда важен, пробелы опять же, падежи, есть грамматически различные, но по смыслу эквивалентные способы сопряжения слов.



Страницы: 1 вся ветка

Текущий архив: 2005.11.27;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.031 c
14-1131007741
DiamondShark
2005-11-03 11:49
2005.11.27
Есть ли утилита?


8-1120337067
ronyn
2005-07-03 00:44
2005.11.27
ПРОПАЛО ИЗОБРАЖЕНИЕ на TMediaPlayer


1-1130765633
JLes
2005-10-31 16:33
2005.11.27
Виртуальное клонирование


4-1127330070
марсианин
2005-09-21 23:14
2005.11.27
Как создать директорию?


6-1124186136
AMB
2005-08-16 13:55
2005.11.27
Почта из Delphi