Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2008.05.11;
Скачать: [xml.tar.bz2];

Вниз

Как сравнить строки на "похожесть"?   Найти похожие ветки 

 
asdf2   (2008-03-26 10:56) [0]

Добрый день.
Подскажите кто знает, как определить, напр:
"мама мыла раму"
более похожа на
"мама мылом мыла рамы"
чем
"мама не мыла раму"
Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?


 
Ega23 ©   (2008-03-26 10:59) [1]

гугли по "Data Mining", "Business Intelligence"


 
Gydvin ©   (2008-03-26 11:02) [2]


> asdf2   (26.03.08 10:56) 


Никак имхо


 
{RASkov} ©   (2008-03-26 11:03) [3]

ИИ - пусть и не шибко умный, но нужен разум :)


 
asdf2   (2008-03-26 11:06) [4]


> Ega23 ©   (26.03.08 10:59) [1]

спс, то, что нужно.


> {RASkov} ©   (26.03.08 11:03) [3]

я б с удовольствием, тока не знаю как его состряпать


 
{RASkov} ©   (2008-03-26 11:08) [5]

> [4] asdf2   (26.03.08 11:06)
> тока не знаю как его состряпать

Думаешь ты один такой? :)


 
Ega23 ©   (2008-03-26 11:08) [6]


> я б с удовольствием, тока не знаю как его состряпать


Нормальная такая... заявка на победу....  :)


 
TUser ©   (2008-03-26 11:08) [7]

Алгоритм Левенштейна глянь


 
asdf2   (2008-03-26 11:14) [8]


> Ega23 ©   (26.03.08 11:08) [6]

я очень скромный и самокритичный :)


 
Правильный_Вася   (2008-03-26 11:29) [9]


> Как сравнить строки на "похожесть"?

забыл слово "смысловую"
а это уже не буквы сравнивать...
"родитель женского пола мыла фрамугу окна со стеклами"...


 
Ega23 ©   (2008-03-26 11:33) [10]


> "родитель женского пола мыла фрамугу окна со стеклами"..


совершал вращательно-поступательные движения мокрым куском ткани...   :)


 
Reindeer Moss Eater ©   (2008-03-26 11:37) [11]

Добрый день.
Подскажите кто знает, как определить, напр:
"мама мыла раму"
более похожа на
"мама мылом мыла рамы"
чем
"мама не мыла раму"
Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?


Сначала надо решить подобное без вычислительной техники.
С чего ты взял, что "мыть раму" более похоже на "мыть раму мылом", чем на "не мыть раму"?

Я например утверждаю, что более похожи те, где не упоминается ничего про моющее средство.


 
Grand Pedro   (2008-03-26 11:43) [12]

asdf2   (26.03.08 10:56)

>Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?

Критерии нужно самому определять, если есть онтология.
То есть, нужно искать по словам: text semantic similarity ontology
Если набор фраз не ограничен какой-то областью, то труд такой - воистину сизифов и требует много килограммов денег для успеха.


 
asdf2   (2008-03-26 12:15) [13]


> Правильный_Вася   (26.03.08 11:29) [9]

да, забыл


> Reindeer Moss Eater ©   (26.03.08 11:37) [11]

см [9]


> Grand Pedro   (26.03.08 11:43) [12]


> Если набор фраз не ограничен какой-то областью, то труд
> такой - воистину сизифов и требует много килограммов денег
> для успеха.


хорошо хоть не мозгов :)


 
Gydvin ©   (2008-03-26 12:15) [14]

тут бы еще понять слово "мыла" - это глагол или слово "мыло" (сущ.) в родительном падеже
;0)


 
asdf2   (2008-03-26 12:16) [15]


> Gydvin ©   (26.03.08 12:15) [14]

так понимать прога должна


 
Gydvin ©   (2008-03-26 12:20) [16]

ну это понятно, что не я )

А как объяснять будешь?
так что только [3]


 
Reindeer Moss Eater ©   (2008-03-26 12:22) [17]

> Reindeer Moss Eater ©   (26.03.08 11:37) [11]

см [9]

и чо?

Там где без мыла все равно более похоже.
PS дядька, я тебе пытаюсь объяснить, что контекстов может быть миллион.


 
Ega23 ©   (2008-03-26 12:24) [18]


> asdf2   (26.03.08 12:16) [15]
>
>
> > Gydvin ©   (26.03.08 12:15) [14]
>
> так понимать прога должна


вот задашь ты ей фразу "Я вчера писал."
А она прямо так сходу и определит, чем же ты вчера занималсо.


 
Reindeer Moss Eater ©   (2008-03-26 12:29) [19]

а здесь как?

мама мыла раму.
мама ела рыбу.
мама не мыла раму.

на что похоже "мыла раму"?

на то, где она тоже что-то делает (в отличие от не делает)
или на то, где она что-то другое делает с этим же чем-то?


 
Сергей М. ©   (2008-03-26 12:30) [20]


> asdf2


Томас Байес тебе поможет в какой-то степени)


 
Правильный_Вася   (2008-03-26 13:03) [21]

интереснопосмотреть на обработку устойчивых выражений ака фразеологизмов
про рака на горе или про пальцы на асфальте


 
asdf2   (2008-03-26 13:05) [22]


> Reindeer Moss Eater ©   (26.03.08 12:22) [17]


> PS дядька, я тебе пытаюсь объяснить, что контекстов может
> быть миллион.

нужный контекст должен быть обозначен. Как думаешь, племяш?


> Ega23 ©   (26.03.08 12:24) [18]

ну что-то(или все?) из предметной области должно быть в базе


> Сергей М. ©   (26.03.08 12:30) [20]

помолясь, приступлю к чтению


 
Ega23 ©   (2008-03-26 13:12) [23]


> ну что-то(или все?) из предметной области должно быть в
> базе


так пИсал, или писАл?  :)


 
Правильный_Вася   (2008-03-26 13:15) [24]

а еще интересно посмотреть на обработку текста с опечатками


 
asdf2   (2008-03-26 13:18) [25]


> Ega23 ©   (26.03.08 13:12) [23]

на рабочем месте пИсал?


> а еще интересно посмотреть на обработку текста с опечатками

мне тож


 
boriskb ©   (2008-03-26 13:43) [26]

Вобщем понятно, что в изложеном виде задача неразрешима не только тобой, но и никем вобще.
Так что пора навешивать ограничения:
1) На предметную область
2) На смыл слова "похожесть"
2) На допустимый процент ошибки
.
.
. и т.п.

Полезно поднять из архива ветку про "алгоритм переноса слов по правилам русского языка"


 
Правильный_Вася   (2008-03-26 13:45) [27]

а еще интересно посмотреть на обработку текста с сокращениями, жаргоном и т.п.


 
asdf2   (2008-03-26 13:49) [28]


> boriskb ©   (26.03.08 13:43) [26]

1) предметная область - само-собойъ
2) смысловая "похожесть"
3) хм... меньше - лучше.


 
Правильный_Вася   (2008-03-26 14:00) [29]

короче, это ничуть не легче, чем переводчик написать


 
boriskb ©   (2008-03-26 14:41) [30]

> [28] asdf2   (26.03.08 13:49)

Это ты вроде как нам задание уточняешь? :))

Это ты себе отвечай на вопросы.
И не в таком стиле. Ибо не ответ.
Иначе - забудь про задачу.


 
Andy BitOff ©   (2008-03-26 15:00) [31]


> Там где без мыла все равно более похоже.

Я несколько раз прочел пока не догнал.
А как с этим будет справляться программа? 8/
Всмысле, сначала я прочел как "без мыла", типа, без мыла =) всмысле без хозяйственного мыла. А потом, подругому, как глагол.
ИМХО [3]


 
Reindeer Moss Eater ©   (2008-03-26 15:02) [32]

А как с этим будет справляться программа? 8/

речь шла вообще не про программу, а про автора вопроса.


 
clickmaker ©   (2008-03-27 12:08) [33]


> Добрый день.
> Подскажите кто знает, как определить, напр:
> "мама мыла раму"
> более похожа на
> "мама мылом мыла рамы"
> чем
> "мама не мыла раму"

тут напрашивается критерий - наличие или отсутствие частицы "не".
Ну так это просто: if Pos(" не ", str) > 0 then ...
o)


 
Галинка ©   (2008-03-27 13:04) [34]

для русского языка действительно трудно сделать будет. Потому что нет определенного порядки слов в предложении. В немейком, например, трудно себе представить схему отличную от:

1) спрягаемая часть сказуемого обычно на втором месте;
2) полдежащее обычно на 1-ом или 3-ем месте;
3) строгое следование обстоятельств;
и т.п.

В русском такого нет. В общем случае у членов предложения нет строго определнного места. Хотя наверное к лингвисту обратится надо.


 
Kolan ©   (2008-03-27 13:06) [35]

Яндекс вродеже бессплатно раздает свой сервер. Там сравнение на основе морфологии сделано&#133


 
clickmaker ©   (2008-03-27 13:06) [36]


> [34] Галинка ©   (27.03.08 13:04)

еще классик писал "умом Россию не понять..."
а уж ИИ - тем более )


 
han_malign ©   (2008-03-27 13:08) [37]


> тут напрашивается критерий - наличие или отсутствие частицы "не".

не мама мыла раму
мама мыла не раму
...


 
clickmaker ©   (2008-03-27 13:11) [38]


>  [37] han_malign ©   (27.03.08 13:08)

с точки зрения результата это одно и то же )


 
Игорь Шевченко ©   (2008-03-27 13:14) [39]

han_malign ©   (27.03.08 13:08) [37]


> > тут напрашивается критерий - наличие или отсутствие частицы
> "не".
>
> не мама мыла раму
> мама мыла не раму


"Маша доила корову, а в реке отражалось все наоборот" (с)


 
Галинка ©   (2008-03-27 13:15) [40]

clickmaker ©   (27.03.08 13:11) [38]

это со стороны мамы ))) А со стороны рамы? Во втором случае она так немытой и осталась )))



Страницы: 1 2 вся ветка

Форум: "Прочее";
Текущий архив: 2008.05.11;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.54 MB
Время: 0.008 c
2-1208263641
AlexanderMS
2008-04-15 16:47
2008.05.11
Реально ли такой код перевести с C++ на Delphi?


2-1208252372
arinyshka
2008-04-15 13:39
2008.05.11
Drag&Drop


15-1206609144
Denis__
2008-03-27 12:12
2008.05.11
Edit и звук.


4-1188469370
istok
2007-08-30 14:22
2008.05.11
проблема с unhook...


2-1208161609
lod
2008-04-14 12:26
2008.05.11
Разбить определёный периуд времени на недели.





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский