Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2005.11.27;
Скачать: CL | DM;

Вниз

Алгоритмы выявления индентичности предложений?   Найти похожие ветки 

 
karat ©   (2005-10-31 12:49) [0]

Существуют статьи на эту тему?
К примеру, есть предложения:
1) "Mitsubishi Galant"
2) "   Mitsubishi   Galant  "
3) "Mitsubishi "Galant" "
По сути они одинаковы, но по написанию разные. Существуют алгоритмы сравнения таких строк?


 
Digitman ©   (2005-10-31 12:58) [1]

да, существуют

например, объект VBScript.RegExpr реализует такой алгоритм


 
TUser ©   (2005-10-31 13:24) [2]

Кто-то говорил, что делал на эту тему диплом, только там компьютерные железки были. Понятно, что это сложнее.

В данном случае - можно сравнивать только значимые символы, любую последоватлеьность из незначащих символов заменяя одним пробелом.

Если последовательность значащих символов может незначительно отичаться, то для сравнения используют алгоритм Левенталя.


 
paul_k ©   (2005-10-31 13:26) [3]

TUser ©   (31.10.05 13:24) [2]
Левенталя?


 
paul_k ©   (2005-10-31 13:30) [4]

http://algolist.manual.ru/search/lcs/index.php
http://aforge.ibd.lv/?27


 
Nikolay M. ©   (2005-10-31 13:32) [5]


> TUser ©   (31.10.05 13:24) [2]
> Кто-то

Этот кто-то - я :)
Для примера из сабжа достаточно заменить несколько пробелов, идущих подряд на один и убрать спецсимволы и пробелы по бокам.


 
TUser ©   (2005-10-31 13:36) [6]

> paul_k ©   (31.10.05 13:26) [3]

Плохая у меня память на фамилии, увы.


 
Джо ©   (2005-10-31 13:37) [7]


> Алгоритмы выявления индентичности предложений?

А Левенталь с таким справится?
1. Маша -- девушка не слишком строгих правил.
2. Я в восторге от Маши
:)


 
vertal ©   (2005-11-01 02:04) [8]

Вот сайтик, целиком посвященный проблеме нечеткого поиска:
itman.narod.ru
> алгоритм Левенталя
Может быть, Левештейна, или это разные алгоритмы?
Но он (Левештейна) - по сути только для сравнения слов, в фразах есть куча своих особенностей.


 
TUser ©   (2005-11-01 07:38) [9]

> Может быть, Левештейна

Да я в [6] уже признался. Ашипка у меня :)

Чем он не годится для сравнения фраз? Тем что "казнить нельзя помиловать" во всех вариантах будет похожа на себя? Ну, таких фраз не очень много.


 
vertal ©   (2005-11-01 21:33) [10]

Сорри, я как-то не понял, к чему [6] относится
У меня тоже опечатка - надо бы Левенштейна
Для сравнения фраз в лоб он не годится хотя бы тем, что порядок слов в фразах не всегда важен, пробелы опять же, падежи, есть грамматически различные, но по смыслу эквивалентные способы сопряжения слов.



Страницы: 1 вся ветка

Текущий архив: 2005.11.27;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.07 c
14-1131122018
Дмитрий_05
2005-11-04 19:33
2005.11.27
Label определенной длиной а текст переносился по строкам


3-1129097530
erika
2005-10-12 10:12
2005.11.27
получении значения по дополнительной таблице


3-1129533126
antoxa2005
2005-10-17 11:12
2005.11.27
Кто-то писал о том, как сохранять в Access документ Word или Карт


2-1131394631
JBL
2005-11-07 23:17
2005.11.27
количество записей (sql)


5-1112470347
Антон
2005-04-02 23:32
2005.11.27
TFieldDataLink