Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2008.05.11;
Скачать: CL | DM;

Вниз

Как сравнить строки на "похожесть"?   Найти похожие ветки 

 
asdf2   (2008-03-26 10:56) [0]

Добрый день.
Подскажите кто знает, как определить, напр:
"мама мыла раму"
более похожа на
"мама мылом мыла рамы"
чем
"мама не мыла раму"
Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?


 
Ega23 ©   (2008-03-26 10:59) [1]

гугли по "Data Mining", "Business Intelligence"


 
Gydvin ©   (2008-03-26 11:02) [2]


> asdf2   (26.03.08 10:56) 


Никак имхо


 
{RASkov} ©   (2008-03-26 11:03) [3]

ИИ - пусть и не шибко умный, но нужен разум :)


 
asdf2   (2008-03-26 11:06) [4]


> Ega23 ©   (26.03.08 10:59) [1]

спс, то, что нужно.


> {RASkov} ©   (26.03.08 11:03) [3]

я б с удовольствием, тока не знаю как его состряпать


 
{RASkov} ©   (2008-03-26 11:08) [5]

> [4] asdf2   (26.03.08 11:06)
> тока не знаю как его состряпать

Думаешь ты один такой? :)


 
Ega23 ©   (2008-03-26 11:08) [6]


> я б с удовольствием, тока не знаю как его состряпать


Нормальная такая... заявка на победу....  :)


 
TUser ©   (2008-03-26 11:08) [7]

Алгоритм Левенштейна глянь


 
asdf2   (2008-03-26 11:14) [8]


> Ega23 ©   (26.03.08 11:08) [6]

я очень скромный и самокритичный :)


 
Правильный_Вася   (2008-03-26 11:29) [9]


> Как сравнить строки на "похожесть"?

забыл слово "смысловую"
а это уже не буквы сравнивать...
"родитель женского пола мыла фрамугу окна со стеклами"...


 
Ega23 ©   (2008-03-26 11:33) [10]


> "родитель женского пола мыла фрамугу окна со стеклами"..


совершал вращательно-поступательные движения мокрым куском ткани...   :)


 
Reindeer Moss Eater ©   (2008-03-26 11:37) [11]

Добрый день.
Подскажите кто знает, как определить, напр:
"мама мыла раму"
более похожа на
"мама мылом мыла рамы"
чем
"мама не мыла раму"
Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?


Сначала надо решить подобное без вычислительной техники.
С чего ты взял, что "мыть раму" более похоже на "мыть раму мылом", чем на "не мыть раму"?

Я например утверждаю, что более похожи те, где не упоминается ничего про моющее средство.


 
Grand Pedro   (2008-03-26 11:43) [12]

asdf2   (26.03.08 10:56)

>Я так понимаю должны быть какие-то критерии? Или что? Как вообще решаются подобные задачи?

Критерии нужно самому определять, если есть онтология.
То есть, нужно искать по словам: text semantic similarity ontology
Если набор фраз не ограничен какой-то областью, то труд такой - воистину сизифов и требует много килограммов денег для успеха.


 
asdf2   (2008-03-26 12:15) [13]


> Правильный_Вася   (26.03.08 11:29) [9]

да, забыл


> Reindeer Moss Eater ©   (26.03.08 11:37) [11]

см [9]


> Grand Pedro   (26.03.08 11:43) [12]


> Если набор фраз не ограничен какой-то областью, то труд
> такой - воистину сизифов и требует много килограммов денег
> для успеха.


хорошо хоть не мозгов :)


 
Gydvin ©   (2008-03-26 12:15) [14]

тут бы еще понять слово "мыла" - это глагол или слово "мыло" (сущ.) в родительном падеже
;0)


 
asdf2   (2008-03-26 12:16) [15]


> Gydvin ©   (26.03.08 12:15) [14]

так понимать прога должна


 
Gydvin ©   (2008-03-26 12:20) [16]

ну это понятно, что не я )

А как объяснять будешь?
так что только [3]


 
Reindeer Moss Eater ©   (2008-03-26 12:22) [17]

> Reindeer Moss Eater ©   (26.03.08 11:37) [11]

см [9]

и чо?

Там где без мыла все равно более похоже.
PS дядька, я тебе пытаюсь объяснить, что контекстов может быть миллион.


 
Ega23 ©   (2008-03-26 12:24) [18]


> asdf2   (26.03.08 12:16) [15]
>
>
> > Gydvin ©   (26.03.08 12:15) [14]
>
> так понимать прога должна


вот задашь ты ей фразу "Я вчера писал."
А она прямо так сходу и определит, чем же ты вчера занималсо.


 
Reindeer Moss Eater ©   (2008-03-26 12:29) [19]

а здесь как?

мама мыла раму.
мама ела рыбу.
мама не мыла раму.

на что похоже "мыла раму"?

на то, где она тоже что-то делает (в отличие от не делает)
или на то, где она что-то другое делает с этим же чем-то?


 
Сергей М. ©   (2008-03-26 12:30) [20]


> asdf2


Томас Байес тебе поможет в какой-то степени)


 
Правильный_Вася   (2008-03-26 13:03) [21]

интереснопосмотреть на обработку устойчивых выражений ака фразеологизмов
про рака на горе или про пальцы на асфальте


 
asdf2   (2008-03-26 13:05) [22]


> Reindeer Moss Eater ©   (26.03.08 12:22) [17]


> PS дядька, я тебе пытаюсь объяснить, что контекстов может
> быть миллион.

нужный контекст должен быть обозначен. Как думаешь, племяш?


> Ega23 ©   (26.03.08 12:24) [18]

ну что-то(или все?) из предметной области должно быть в базе


> Сергей М. ©   (26.03.08 12:30) [20]

помолясь, приступлю к чтению


 
Ega23 ©   (2008-03-26 13:12) [23]


> ну что-то(или все?) из предметной области должно быть в
> базе


так пИсал, или писАл?  :)


 
Правильный_Вася   (2008-03-26 13:15) [24]

а еще интересно посмотреть на обработку текста с опечатками


 
asdf2   (2008-03-26 13:18) [25]


> Ega23 ©   (26.03.08 13:12) [23]

на рабочем месте пИсал?


> а еще интересно посмотреть на обработку текста с опечатками

мне тож


 
boriskb ©   (2008-03-26 13:43) [26]

Вобщем понятно, что в изложеном виде задача неразрешима не только тобой, но и никем вобще.
Так что пора навешивать ограничения:
1) На предметную область
2) На смыл слова "похожесть"
2) На допустимый процент ошибки
.
.
. и т.п.

Полезно поднять из архива ветку про "алгоритм переноса слов по правилам русского языка"


 
Правильный_Вася   (2008-03-26 13:45) [27]

а еще интересно посмотреть на обработку текста с сокращениями, жаргоном и т.п.


 
asdf2   (2008-03-26 13:49) [28]


> boriskb ©   (26.03.08 13:43) [26]

1) предметная область - само-собойъ
2) смысловая "похожесть"
3) хм... меньше - лучше.


 
Правильный_Вася   (2008-03-26 14:00) [29]

короче, это ничуть не легче, чем переводчик написать


 
boriskb ©   (2008-03-26 14:41) [30]

> [28] asdf2   (26.03.08 13:49)

Это ты вроде как нам задание уточняешь? :))

Это ты себе отвечай на вопросы.
И не в таком стиле. Ибо не ответ.
Иначе - забудь про задачу.


 
Andy BitOff ©   (2008-03-26 15:00) [31]


> Там где без мыла все равно более похоже.

Я несколько раз прочел пока не догнал.
А как с этим будет справляться программа? 8/
Всмысле, сначала я прочел как "без мыла", типа, без мыла =) всмысле без хозяйственного мыла. А потом, подругому, как глагол.
ИМХО [3]


 
Reindeer Moss Eater ©   (2008-03-26 15:02) [32]

А как с этим будет справляться программа? 8/

речь шла вообще не про программу, а про автора вопроса.


 
clickmaker ©   (2008-03-27 12:08) [33]


> Добрый день.
> Подскажите кто знает, как определить, напр:
> "мама мыла раму"
> более похожа на
> "мама мылом мыла рамы"
> чем
> "мама не мыла раму"

тут напрашивается критерий - наличие или отсутствие частицы "не".
Ну так это просто: if Pos(" не ", str) > 0 then ...
o)


 
Галинка ©   (2008-03-27 13:04) [34]

для русского языка действительно трудно сделать будет. Потому что нет определенного порядки слов в предложении. В немейком, например, трудно себе представить схему отличную от:

1) спрягаемая часть сказуемого обычно на втором месте;
2) полдежащее обычно на 1-ом или 3-ем месте;
3) строгое следование обстоятельств;
и т.п.

В русском такого нет. В общем случае у членов предложения нет строго определнного места. Хотя наверное к лингвисту обратится надо.


 
Kolan ©   (2008-03-27 13:06) [35]

Яндекс вродеже бессплатно раздает свой сервер. Там сравнение на основе морфологии сделано&#133


 
clickmaker ©   (2008-03-27 13:06) [36]


> [34] Галинка ©   (27.03.08 13:04)

еще классик писал "умом Россию не понять..."
а уж ИИ - тем более )


 
han_malign ©   (2008-03-27 13:08) [37]


> тут напрашивается критерий - наличие или отсутствие частицы "не".

не мама мыла раму
мама мыла не раму
...


 
clickmaker ©   (2008-03-27 13:11) [38]


>  [37] han_malign ©   (27.03.08 13:08)

с точки зрения результата это одно и то же )


 
Игорь Шевченко ©   (2008-03-27 13:14) [39]

han_malign ©   (27.03.08 13:08) [37]


> > тут напрашивается критерий - наличие или отсутствие частицы
> "не".
>
> не мама мыла раму
> мама мыла не раму


"Маша доила корову, а в реке отражалось все наоборот" (с)


 
Галинка ©   (2008-03-27 13:15) [40]

clickmaker ©   (27.03.08 13:11) [38]

это со стороны мамы ))) А со стороны рамы? Во втором случае она так немытой и осталась )))



Страницы: 1 2 вся ветка

Текущий архив: 2008.05.11;
Скачать: CL | DM;

Наверх




Память: 0.56 MB
Время: 0.018 c
2-1208175871
assassin8899
2008-04-14 16:24
2008.05.11
AQL запрос


15-1206403811
Hero
2008-03-25 03:10
2008.05.11
Пытаюсь сделать sudoku


2-1208158875
Наташа
2008-04-14 11:41
2008.05.11
Как предотвратить исчезновение директив и комментариев в uses?


15-1206194398
TUser
2008-03-22 16:59
2008.05.11
В чипсет


2-1208175929
Антон Вл.
2008-04-14 16:25
2008.05.11
Сортировка