Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2008.02.10;
Скачать: [xml.tar.bz2];

Вниз

Скрытые модели Маркова   Найти похожие ветки 

 
Kerk ©   (2008-01-07 14:09) [0]

В принципе, оно у меня вроде работает, но хотелось бы уточнить, правильно ли я все понял и сделал, чтобы двигаться дальше. Да и пока формулирую, может быть в мозгах все устаканится :)

Использую цепи Маркова для разрешения морфологической неоднозначности. Например:
The run lasted thirty minutes. (слово "run" может быть как существительным, так и глаголом (см. "We run three miles every day"), а "thirty" - числительным или существительным.

Мой словарный морфоанализатор разбирает это предложение следующим образом:
ARTICLE [NOUN|VERB] VERB [NOUN|NUMERAL] NOUN

Итого имеем объекты цепи Маркова: ARTICLE, NOUN, VERB, NUMERAL (на самом деле у меня их больше и они подробнее, но не суть).

Нужно расчитать какая последовательность более вероятна:
1. ARTICLE NOUN VERB NOUN NOUN
2. ARTICLE NOUN VERB NUMERAL NOUN
3. ARTICLE VERB VERB NOUN NOUN
4. ARTICLE VERB VERB NUMERAL NOUN

Формулы раскопал (http://leader.cs.msu.su/~luk/HMM_rus.html):
http://leader.cs.msu.su/~luk/Recognition/rus/image148.gif
http://leader.cs.msu.su/~luk/Recognition/rus/image156.gif
http://leader.cs.msu.su/~luk/Recognition/rus/image158.gif

Я не совсем понимаю в моем случае роль PIi. Оно должно быть равномерно распределено между объектами?
Aij - это вероятность того, что после части_речи1 идет часть_речи2? Это я расчитал.
Bj(Ot+1) - вероятносто того, что в позиции j наблюдается часть речи Ot+1 ? Всегда единица и можно отбросить?

Если что, не пинайте сильно ногами :)


 
palva ©   (2008-01-07 16:16) [1]

По-моему, в статье нечто другое.
Там вероятность перехода от одной урны к другой не зависит от того, какого цвета шар был извлечен.
А здесь цепь Марков в явном виде, коль скоро матрицу Aij ты уже получил. Осталось перемножить соответствующие Aij и получить вероятность.
Только стоит ли привлекать сюда цепи Маркова, если нам нужна вероятность последовательности. Цепь Маркова и формулы для нее понадобятся нам, если мы хотим вычислять вероятность последнего члена этой последовательности. Вот здесь появляется произведение матриц A.

Возможно я не совсем понял задачу.


 
Kerk ©   (2008-01-07 16:57) [2]


> palva ©   (07.01.08 16:16) [1]

Звучит логично, но практически во всей литературе, которую я нашел, речь идет о цепях Маркова. Видимо я чего-то еще не учитываю...

3. Probabilistic Formulation (HMM)
Let us assume that we want to know the most likely tag sequence Phi(W), given a particular word sequence W. The tagging problem is defined as finding the most likely tag sequence T ...

http://tinyurl.com/2yf9dr (pdf, 175kb)


 
Семен Сурков   (2008-01-07 17:00) [3]

Попробуй письмо написать на кафедру факультета ВМиК, которая этим занимается. Я не помню, кто этим занимается конкретно. Но думаю, что там тебе ответят более подробно.


 
Kerk ©   (2008-01-07 17:02) [4]


> Семен Сурков   (07.01.08 17:00) [3]

Правда ответят? У меня там еще синтаксический анализ впереди, вопросов, думаю, будет куча.


 
Kerk ©   (2008-01-07 17:09) [5]


> palva ©   (07.01.08 16:16) [1]
> По-моему, в статье нечто другое.
> Там вероятность перехода от одной урны к другой не зависит
> от того, какого цвета шар был извлечен.

In an HMM, the exact sequence of states that the process generates is unknown (i.e., hidden). As the process enters each state, one of a set of output symbols is emitted by the process. Exactly which symbol is emitted is determined by a probability distribution that is specific to each state.

http://tinyurl.com/2w38mw (pdf, 720kb)


 
Семен Сурков   (2008-01-07 17:11) [6]


> Kerk ©   (07.01.08 17:02) [4]
> > Семен Сурков   (07.01.08 17:00) [3]Правда ответят?


ученые они народ того, не всегда в себе. если попадешь к тому, кто этим занимается, то точно помогут. жаль ты не в москве, можно было бы лично найти эксперта.


 
Kerk ©   (2008-01-07 17:24) [7]

Ссылки были на "Markov random field based English Part-Of-Speech tagging system" и "A Second-Order Hidden Markov Model for Part-of-Speech Tagging". Это к тому, что всетки используются именно цепи Маркова.


 
vrem_   (2008-01-07 18:09) [8]

читал, вспомнил про оптимальный колобок :)



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2008.02.10;
Скачать: [xml.tar.bz2];

Наверх





Память: 0.47 MB
Время: 0.042 c
2-1200855531
aha
2008-01-20 21:58
2008.02.10
Где можно прочитать про формат IEEE , дело в том , что дивайс


15-1199628190
kotenok
2008-01-06 17:03
2008.02.10
Перенос базы данных на новый компьютер


15-1198933079
Tirael
2007-12-29 15:57
2008.02.10
ктонить юзал БП со 120мм вентилятором?


2-1200253396
AntonUSAnoV
2008-01-13 22:43
2008.02.10
по поводу findwindow


15-1199465263
DmT
2008-01-04 19:47
2008.02.10
Деление столбиком





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский