Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Потрепаться";
Текущий архив: 2005.11.27;
Скачать: [xml.tar.bz2];

Вниз

Алгоритмы выявления индентичности предложений?   Найти похожие ветки 

 
karat ©   (2005-10-31 12:49) [0]

Существуют статьи на эту тему?
К примеру, есть предложения:
1) "Mitsubishi Galant"
2) "   Mitsubishi   Galant  "
3) "Mitsubishi "Galant" "
По сути они одинаковы, но по написанию разные. Существуют алгоритмы сравнения таких строк?


 
Digitman ©   (2005-10-31 12:58) [1]

да, существуют

например, объект VBScript.RegExpr реализует такой алгоритм


 
TUser ©   (2005-10-31 13:24) [2]

Кто-то говорил, что делал на эту тему диплом, только там компьютерные железки были. Понятно, что это сложнее.

В данном случае - можно сравнивать только значимые символы, любую последоватлеьность из незначащих символов заменяя одним пробелом.

Если последовательность значащих символов может незначительно отичаться, то для сравнения используют алгоритм Левенталя.


 
paul_k ©   (2005-10-31 13:26) [3]

TUser ©   (31.10.05 13:24) [2]
Левенталя?


 
paul_k ©   (2005-10-31 13:30) [4]

http://algolist.manual.ru/search/lcs/index.php
http://aforge.ibd.lv/?27


 
Nikolay M. ©   (2005-10-31 13:32) [5]


> TUser ©   (31.10.05 13:24) [2]
> Кто-то

Этот кто-то - я :)
Для примера из сабжа достаточно заменить несколько пробелов, идущих подряд на один и убрать спецсимволы и пробелы по бокам.


 
TUser ©   (2005-10-31 13:36) [6]

> paul_k ©   (31.10.05 13:26) [3]

Плохая у меня память на фамилии, увы.


 
Джо ©   (2005-10-31 13:37) [7]


> Алгоритмы выявления индентичности предложений?

А Левенталь с таким справится?
1. Маша -- девушка не слишком строгих правил.
2. Я в восторге от Маши
:)


 
vertal ©   (2005-11-01 02:04) [8]

Вот сайтик, целиком посвященный проблеме нечеткого поиска:
itman.narod.ru
> алгоритм Левенталя
Может быть, Левештейна, или это разные алгоритмы?
Но он (Левештейна) - по сути только для сравнения слов, в фразах есть куча своих особенностей.


 
TUser ©   (2005-11-01 07:38) [9]

> Может быть, Левештейна

Да я в [6] уже признался. Ашипка у меня :)

Чем он не годится для сравнения фраз? Тем что "казнить нельзя помиловать" во всех вариантах будет похожа на себя? Ну, таких фраз не очень много.


 
vertal ©   (2005-11-01 21:33) [10]

Сорри, я как-то не понял, к чему [6] относится
У меня тоже опечатка - надо бы Левенштейна
Для сравнения фраз в лоб он не годится хотя бы тем, что порядок слов в фразах не всегда важен, пробелы опять же, падежи, есть грамматически различные, но по смыслу эквивалентные способы сопряжения слов.



Страницы: 1 вся ветка

Форум: "Потрепаться";
Текущий архив: 2005.11.27;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.46 MB
Время: 0.015 c
14-1131277515
Pazitron_Brain
2005-11-06 14:45
2005.11.27
Как бы вы обновили такой компьютер?


2-1131469867
pathfinder
2005-11-08 20:11
2005.11.27
Как вставить содержимое перeменной string в код программы?


14-1131102516
Megabyte
2005-11-04 14:08
2005.11.27
Обращение к Юре Федорову


5-1112868857
Helene
2005-04-07 14:14
2005.11.27
Компонент "Счетчик электроэнергии"


2-1131736686
Mozart
2005-11-11 22:18
2005.11.27
Delphi + PostGreSQL





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский