Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2008.05.11;
Скачать: CL | DM;

Вниз

Как сравнить строки на "похожесть"?   Найти похожие ветки 

 
asdf2   (2008-03-26 10:56) [0]

Добрый день.
Подскажите кто знает, как определить, напр:
"мама мыла раму"
более похожа на
"мама мылом мыла рамы"
чем
"мама не мыла раму"
Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?


 
Ega23 ©   (2008-03-26 10:59) [1]

гугли по "Data Mining", "Business Intelligence"


 
Gydvin ©   (2008-03-26 11:02) [2]


> asdf2   (26.03.08 10:56) 


Никак имхо


 
{RASkov} ©   (2008-03-26 11:03) [3]

ИИ - пусть и не шибко умный, но нужен разум :)


 
asdf2   (2008-03-26 11:06) [4]


> Ega23 ©   (26.03.08 10:59) [1]

спс, то, что нужно.


> {RASkov} ©   (26.03.08 11:03) [3]

я б с удовольствием, тока не знаю как его состряпать


 
{RASkov} ©   (2008-03-26 11:08) [5]

> [4] asdf2   (26.03.08 11:06)
> тока не знаю как его состряпать

Думаешь ты один такой? :)


 
Ega23 ©   (2008-03-26 11:08) [6]


> я б с удовольствием, тока не знаю как его состряпать


Нормальная такая... заявка на победу....  :)


 
TUser ©   (2008-03-26 11:08) [7]

Алгоритм Левенштейна глянь


 
asdf2   (2008-03-26 11:14) [8]


> Ega23 ©   (26.03.08 11:08) [6]

я очень скромный и самокритичный :)


 
Правильный_Вася   (2008-03-26 11:29) [9]


> Как сравнить строки на "похожесть"?

забыл слово "смысловую"
а это уже не буквы сравнивать...
"родитель женского пола мыла фрамугу окна со стеклами"...


 
Ega23 ©   (2008-03-26 11:33) [10]


> "родитель женского пола мыла фрамугу окна со стеклами"..


совершал вращательно-поступательные движения мокрым куском ткани...   :)


 
Reindeer Moss Eater ©   (2008-03-26 11:37) [11]

Добрый день.
Подскажите кто знает, как определить, напр:
"мама мыла раму"
более похожа на
"мама мылом мыла рамы"
чем
"мама не мыла раму"
Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?


Сначала надо решить подобное без вычислительной техники.
С чего ты взял, что "мыть раму" более похоже на "мыть раму мылом", чем на "не мыть раму"?

Я например утверждаю, что более похожи те, где не упоминается ничего про моющее средство.


 
Grand Pedro   (2008-03-26 11:43) [12]

asdf2   (26.03.08 10:56)

>Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?

Критерии нужно самому определять, если есть онтология.
То есть, нужно искать по словам: text semantic similarity ontology
Если набор фраз не ограничен какой-то областью, то труд такой - воистину сизифов и требует много килограммов денег для успеха.


 
asdf2   (2008-03-26 12:15) [13]


> Правильный_Вася   (26.03.08 11:29) [9]

да, забыл


> Reindeer Moss Eater ©   (26.03.08 11:37) [11]

см [9]


> Grand Pedro   (26.03.08 11:43) [12]


> Если набор фраз не ограничен какой-то областью, то труд
> такой - воистину сизифов и требует много килограммов денег
> для успеха.


хорошо хоть не мозгов :)


 
Gydvin ©   (2008-03-26 12:15) [14]

тут бы еще понять слово "мыла" - это глагол или слово "мыло" (сущ.) в родительном падеже
;0)


 
asdf2   (2008-03-26 12:16) [15]


> Gydvin ©   (26.03.08 12:15) [14]

так понимать прога должна


 
Gydvin ©   (2008-03-26 12:20) [16]

ну это понятно, что не я )

А как объяснять будешь?
так что только [3]


 
Reindeer Moss Eater ©   (2008-03-26 12:22) [17]

> Reindeer Moss Eater ©   (26.03.08 11:37) [11]

см [9]

и чо?

Там где без мыла все равно более похоже.
PS дядька, я тебе пытаюсь объяснить, что контекстов может быть миллион.


 
Ega23 ©   (2008-03-26 12:24) [18]


> asdf2   (26.03.08 12:16) [15]
>
>
> > Gydvin ©   (26.03.08 12:15) [14]
>
> так понимать прога должна


вот задашь ты ей фразу "Я вчера писал."
А она прямо так сходу и определит, чем же ты вчера занималсо.


 
Reindeer Moss Eater ©   (2008-03-26 12:29) [19]

а здесь как?

мама мыла раму.
мама ела рыбу.
мама не мыла раму.

на что похоже "мыла раму"?

на то, где она тоже что-то делает (в отличие от не делает)
или на то, где она что-то другое делает с этим же чем-то?


 
Сергей М. ©   (2008-03-26 12:30) [20]


> asdf2


Томас Байес тебе поможет в какой-то степени)


 
Правильный_Вася   (2008-03-26 13:03) [21]

интереснопосмотреть на обработку устойчивых выражений ака фразеологизмов
про рака на горе или про пальцы на асфальте


 
asdf2   (2008-03-26 13:05) [22]


> Reindeer Moss Eater ©   (26.03.08 12:22) [17]


> PS дядька, я тебе пытаюсь объяснить, что контекстов может
> быть миллион.

нужный контекст должен быть обозначен. Как думаешь, племяш?


> Ega23 ©   (26.03.08 12:24) [18]

ну что-то(или все?) из предметной области должно быть в базе


> Сергей М. ©   (26.03.08 12:30) [20]

помолясь, приступлю к чтению


 
Ega23 ©   (2008-03-26 13:12) [23]


> ну что-то(или все?) из предметной области должно быть в
> базе


так пИсал, или писАл?  :)


 
Правильный_Вася   (2008-03-26 13:15) [24]

а еще интересно посмотреть на обработку текста с опечатками


 
asdf2   (2008-03-26 13:18) [25]


> Ega23 ©   (26.03.08 13:12) [23]

на рабочем месте пИсал?


> а еще интересно посмотреть на обработку текста с опечатками

мне тож


 
boriskb ©   (2008-03-26 13:43) [26]

Вобщем понятно, что в изложеном виде задача неразрешима не только тобой, но и никем вобще.
Так что пора навешивать ограничения:
1) На предметную область
2) На смыл слова "похожесть"
2) На допустимый процент ошибки
.
.
. и т.п.

Полезно поднять из архива ветку про "алгоритм переноса слов по правилам русского языка"


 
Правильный_Вася   (2008-03-26 13:45) [27]

а еще интересно посмотреть на обработку текста с сокращениями, жаргоном и т.п.


 
asdf2   (2008-03-26 13:49) [28]


> boriskb ©   (26.03.08 13:43) [26]

1) предметная область - само-собойъ
2) смысловая "похожесть"
3) хм... меньше - лучше.


 
Правильный_Вася   (2008-03-26 14:00) [29]

короче, это ничуть не легче, чем переводчик написать


 
boriskb ©   (2008-03-26 14:41) [30]

> [28] asdf2   (26.03.08 13:49)

Это ты вроде как нам задание уточняешь? :))

Это ты себе отвечай на вопросы.
И не в таком стиле. Ибо не ответ.
Иначе - забудь про задачу.


 
Andy BitOff ©   (2008-03-26 15:00) [31]


> Там где без мыла все равно более похоже.

Я несколько раз прочел пока не догнал.
А как с этим будет справляться программа? 8/
Всмысле, сначала я прочел как "без мыла", типа, без мыла =) всмысле без хозяйственного мыла. А потом, подругому, как глагол.
ИМХО [3]


 
Reindeer Moss Eater ©   (2008-03-26 15:02) [32]

А как с этим будет справляться программа? 8/

речь шла вообще не про программу, а про автора вопроса.


 
clickmaker ©   (2008-03-27 12:08) [33]


> Добрый день.
> Подскажите кто знает, как определить, напр:
> "мама мыла раму"
> более похожа на
> "мама мылом мыла рамы"
> чем
> "мама не мыла раму"

тут напрашивается критерий - наличие или отсутствие частицы "не".
Ну так это просто: if Pos(" не ", str) > 0 then ...
o)


 
Галинка ©   (2008-03-27 13:04) [34]

для русского языка действительно трудно сделать будет. Потому что нет определенного порядки слов в предложении. В немейком, например, трудно себе представить схему отличную от:

1) спрягаемая часть сказуемого обычно на втором месте;
2) полдежащее обычно на 1-ом или 3-ем месте;
3) строгое следование обстоятельств;
и т.п.

В русском такого нет. В общем случае у членов предложения нет строго определнного места. Хотя наверное к лингвисту обратится надо.


 
Kolan ©   (2008-03-27 13:06) [35]

Яндекс вродеже бессплатно раздает свой сервер. Там сравнение на основе морфологии сделано&#133


 
clickmaker ©   (2008-03-27 13:06) [36]


> [34] Галинка ©   (27.03.08 13:04)

еще классик писал "умом Россию не понять..."
а уж ИИ - тем более )


 
han_malign ©   (2008-03-27 13:08) [37]


> тут напрашивается критерий - наличие или отсутствие частицы "не".

не мама мыла раму
мама мыла не раму
...


 
clickmaker ©   (2008-03-27 13:11) [38]


>  [37] han_malign ©   (27.03.08 13:08)

с точки зрения результата это одно и то же )


 
Игорь Шевченко ©   (2008-03-27 13:14) [39]

han_malign ©   (27.03.08 13:08) [37]


> > тут напрашивается критерий - наличие или отсутствие частицы
> "не".
>
> не мама мыла раму
> мама мыла не раму


"Маша доила корову, а в реке отражалось все наоборот" (с)


 
Галинка ©   (2008-03-27 13:15) [40]

clickmaker ©   (27.03.08 13:11) [38]

это со стороны мамы ))) А со стороны рамы? Во втором случае она так немытой и осталась )))


 
TUser ©   (2008-03-27 13:29) [41]

Хм, не прочитал, что ту про смысл речь. Да, со смыслом - беда. Для этого надо понимать фразу. А тут мы попадаем в ужасный замкнутый круг. Что значит "понимать"? Преподы обычно считают, что понимать - значит уметь правильно решить задачу в данной области. Например, человек, который умеет построить дом - понимает сопромат. А что надо для того, чтобы решить задачу? Надо понимать ее смысл и смысл законов, которые там используются. Например, для того, чтобы построить дом надо понимать сопромат. А понимать сопромат - значит уметь построить дом. А для того, чтобы построить дом, надо ... и т.д. Кто сумеет выйти из этого заколдованного круга, - то очень крутой молодец. А пока проблема построения искусственного разума осталась неразрешимой.


 
clickmaker ©   (2008-03-27 13:32) [42]


> Например, человек, который умеет построить дом - понимает
> сопромат

не факт
мне тут рассказывали, как человек, въехавший в новую квартиру, построенную одной известной строительной компанией, попытался вбить гвоздь рядом с окном. И чуть не вывалился наружу вместе с куском стены


 
KSergey ©   (2008-03-27 13:57) [43]

"мама мыла раму", говорите...
Так это уже реализовано!
http://g60.livejournal.com/132521.html


 
Правильный_Вася   (2008-03-27 20:34) [44]

не мама не мыла не раму ни разу
да нет, наверно


 
Andy BitOff ©   (2008-03-27 21:54) [45]

да, хотя, нет наверно, однако, возможно да, и то навряд ли ;)


 
Simpson   (2008-03-27 22:51) [46]

Ув. Мастера а Минский здесь не поможет?



Страницы: 1 2 вся ветка

Текущий архив: 2008.05.11;
Скачать: CL | DM;

Наверх




Память: 0.56 MB
Время: 0.008 c
2-1207979954
German
2008-04-12 09:59
2008.05.11
На что рассчитывать от ADO + Access ?


2-1208080633
Megatron
2008-04-13 13:57
2008.05.11
Считывать данные с реестра


15-1206501794
slider007
2008-03-26 06:23
2008.05.11
С днем рождения ! 26 марта 2008 среда


4-1188724269
Rusya
2007-09-02 13:11
2008.05.11
Пункт в меню "Создать"


15-1206965596
БарЛог
2008-03-31 16:13
2008.05.11
Имеет ли взрослый ребенок моральное право влезать в спор...





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский