Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Потрепаться";
Текущий архив: 2005.11.27;
Скачать: [xml.tar.bz2];

Вниз

Алгоритмы выявления индентичности предложений?   Найти похожие ветки 

 
karat ©   (2005-10-31 12:49) [0]

Существуют статьи на эту тему?
К примеру, есть предложения:
1) "Mitsubishi Galant"
2) "   Mitsubishi   Galant  "
3) "Mitsubishi "Galant" "
По сути они одинаковы, но по написанию разные. Существуют алгоритмы сравнения таких строк?


 
Digitman ©   (2005-10-31 12:58) [1]

да, существуют

например, объект VBScript.RegExpr реализует такой алгоритм


 
TUser ©   (2005-10-31 13:24) [2]

Кто-то говорил, что делал на эту тему диплом, только там компьютерные железки были. Понятно, что это сложнее.

В данном случае - можно сравнивать только значимые символы, любую последоватлеьность из незначащих символов заменяя одним пробелом.

Если последовательность значащих символов может незначительно отичаться, то для сравнения используют алгоритм Левенталя.


 
paul_k ©   (2005-10-31 13:26) [3]

TUser ©   (31.10.05 13:24) [2]
Левенталя?


 
paul_k ©   (2005-10-31 13:30) [4]

http://algolist.manual.ru/search/lcs/index.php
http://aforge.ibd.lv/?27


 
Nikolay M. ©   (2005-10-31 13:32) [5]


> TUser ©   (31.10.05 13:24) [2]
> Кто-то

Этот кто-то - я :)
Для примера из сабжа достаточно заменить несколько пробелов, идущих подряд на один и убрать спецсимволы и пробелы по бокам.


 
TUser ©   (2005-10-31 13:36) [6]

> paul_k ©   (31.10.05 13:26) [3]

Плохая у меня память на фамилии, увы.


 
Джо ©   (2005-10-31 13:37) [7]


> Алгоритмы выявления индентичности предложений?

А Левенталь с таким справится?
1. Маша -- девушка не слишком строгих правил.
2. Я в восторге от Маши
:)


 
vertal ©   (2005-11-01 02:04) [8]

Вот сайтик, целиком посвященный проблеме нечеткого поиска:
itman.narod.ru
> алгоритм Левенталя
Может быть, Левештейна, или это разные алгоритмы?
Но он (Левештейна) - по сути только для сравнения слов, в фразах есть куча своих особенностей.


 
TUser ©   (2005-11-01 07:38) [9]

> Может быть, Левештейна

Да я в [6] уже признался. Ашипка у меня :)

Чем он не годится для сравнения фраз? Тем что "казнить нельзя помиловать" во всех вариантах будет похожа на себя? Ну, таких фраз не очень много.


 
vertal ©   (2005-11-01 21:33) [10]

Сорри, я как-то не понял, к чему [6] относится
У меня тоже опечатка - надо бы Левенштейна
Для сравнения фраз в лоб он не годится хотя бы тем, что порядок слов в фразах не всегда важен, пробелы опять же, падежи, есть грамматически различные, но по смыслу эквивалентные способы сопряжения слов.



Страницы: 1 вся ветка

Форум: "Потрепаться";
Текущий архив: 2005.11.27;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.46 MB
Время: 0.015 c
6-1124122719
GreySkil
2005-08-15 20:18
2005.11.27
Трафик приложений


2-1131565651
Haillies
2005-11-09 22:47
2005.11.27
Пинг


3-1129306926
suharew
2005-10-14 20:22
2005.11.27
Trim в IBX


14-1130827728
igi
2005-11-01 09:48
2005.11.27
Регулярные выражения


14-1131447395
Гамлет
2005-11-08 13:56
2005.11.27
Выложите, пожалуйста, deepbase.gdb





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский