Главная страница
    Top.Mail.Ru    Яндекс.Метрика
Форум: "Прочее";
Текущий архив: 2008.02.10;
Скачать: [xml.tar.bz2];

Вниз

Скрытые модели Маркова   Найти похожие ветки 

 
Kerk ©   (2008-01-07 14:09) [0]

В принципе, оно у меня вроде работает, но хотелось бы уточнить, правильно ли я все понял и сделал, чтобы двигаться дальше. Да и пока формулирую, может быть в мозгах все устаканится :)

Использую цепи Маркова для разрешения морфологической неоднозначности. Например:
The run lasted thirty minutes. (слово "run" может быть как существительным, так и глаголом (см. "We run three miles every day"), а "thirty" - числительным или существительным.

Мой словарный морфоанализатор разбирает это предложение следующим образом:
ARTICLE [NOUN|VERB] VERB [NOUN|NUMERAL] NOUN

Итого имеем объекты цепи Маркова: ARTICLE, NOUN, VERB, NUMERAL (на самом деле у меня их больше и они подробнее, но не суть).

Нужно расчитать какая последовательность более вероятна:
1. ARTICLE NOUN VERB NOUN NOUN
2. ARTICLE NOUN VERB NUMERAL NOUN
3. ARTICLE VERB VERB NOUN NOUN
4. ARTICLE VERB VERB NUMERAL NOUN

Формулы раскопал (http://leader.cs.msu.su/~luk/HMM_rus.html):
http://leader.cs.msu.su/~luk/Recognition/rus/image148.gif
http://leader.cs.msu.su/~luk/Recognition/rus/image156.gif
http://leader.cs.msu.su/~luk/Recognition/rus/image158.gif

Я не совсем понимаю в моем случае роль PIi. Оно должно быть равномерно распределено между объектами?
Aij - это вероятность того, что после части_речи1 идет часть_речи2? Это я расчитал.
Bj(Ot+1) - вероятносто того, что в позиции j наблюдается часть речи Ot+1 ? Всегда единица и можно отбросить?

Если что, не пинайте сильно ногами :)


 
palva ©   (2008-01-07 16:16) [1]

По-моему, в статье нечто другое.
Там вероятность перехода от одной урны к другой не зависит от того, какого цвета шар был извлечен.
А здесь цепь Марков в явном виде, коль скоро матрицу Aij ты уже получил. Осталось перемножить соответствующие Aij и получить вероятность.
Только стоит ли привлекать сюда цепи Маркова, если нам нужна вероятность последовательности. Цепь Маркова и формулы для нее понадобятся нам, если мы хотим вычислять вероятность последнего члена этой последовательности. Вот здесь появляется произведение матриц A.

Возможно я не совсем понял задачу.


 
Kerk ©   (2008-01-07 16:57) [2]


> palva ©   (07.01.08 16:16) [1]

Звучит логично, но практически во всей литературе, которую я нашел, речь идет о цепях Маркова. Видимо я чего-то еще не учитываю...

3. Probabilistic Formulation (HMM)
Let us assume that we want to know the most likely tag sequence Phi(W), given a particular word sequence W. The tagging problem is defined as finding the most likely tag sequence T ...

http://tinyurl.com/2yf9dr (pdf, 175kb)


 
Семен Сурков   (2008-01-07 17:00) [3]

Попробуй письмо написать на кафедру факультета ВМиК, которая этим занимается. Я не помню, кто этим занимается конкретно. Но думаю, что там тебе ответят более подробно.


 
Kerk ©   (2008-01-07 17:02) [4]


> Семен Сурков   (07.01.08 17:00) [3]

Правда ответят? У меня там еще синтаксический анализ впереди, вопросов, думаю, будет куча.


 
Kerk ©   (2008-01-07 17:09) [5]


> palva ©   (07.01.08 16:16) [1]
> По-моему, в статье нечто другое.
> Там вероятность перехода от одной урны к другой не зависит
> от того, какого цвета шар был извлечен.

In an HMM, the exact sequence of states that the process generates is unknown (i.e., hidden). As the process enters each state, one of a set of output symbols is emitted by the process. Exactly which symbol is emitted is determined by a probability distribution that is specific to each state.

http://tinyurl.com/2w38mw (pdf, 720kb)


 
Семен Сурков   (2008-01-07 17:11) [6]


> Kerk ©   (07.01.08 17:02) [4]
> > Семен Сурков   (07.01.08 17:00) [3]Правда ответят?


ученые они народ того, не всегда в себе. если попадешь к тому, кто этим занимается, то точно помогут. жаль ты не в москве, можно было бы лично найти эксперта.


 
Kerk ©   (2008-01-07 17:24) [7]

Ссылки были на "Markov random field based English Part-Of-Speech tagging system" и "A Second-Order Hidden Markov Model for Part-of-Speech Tagging". Это к тому, что всетки используются именно цепи Маркова.


 
vrem_   (2008-01-07 18:09) [8]

читал, вспомнил про оптимальный колобок :)



Страницы: 1 вся ветка

Форум: "Прочее";
Текущий архив: 2008.02.10;
Скачать: [xml.tar.bz2];

Наверх




Память: 0.47 MB
Время: 0.052 c
15-1199964122
Дуболом
2008-01-10 14:22
2008.02.10
Вопрос про компилятор и предупреждения


15-1199810913
antonn
2008-01-08 19:48
2008.02.10
Билл Гейтс покидает Microsoft


15-1199365806
Piter
2008-01-03 16:10
2008.02.10
Умер Александр Абдулов


15-1199966204
pavel_guzhanov
2008-01-10 14:56
2008.02.10
Может кто-нибудь помочь по Excel?


8-1172907142
Maxim_k
2007-03-03 10:32
2008.02.10
RGBToCMYK





Afrikaans Albanian Arabic Armenian Azerbaijani Basque Belarusian Bulgarian Catalan Chinese (Simplified) Chinese (Traditional) Croatian Czech Danish Dutch English Estonian Filipino Finnish French
Galician Georgian German Greek Haitian Creole Hebrew Hindi Hungarian Icelandic Indonesian Irish Italian Japanese Korean Latvian Lithuanian Macedonian Malay Maltese Norwegian
Persian Polish Portuguese Romanian Russian Serbian Slovak Slovenian Spanish Swahili Swedish Thai Turkish Ukrainian Urdu Vietnamese Welsh Yiddish Bengali Bosnian
Cebuano Esperanto Gujarati Hausa Hmong Igbo Javanese Kannada Khmer Lao Latin Maori Marathi Mongolian Nepali Punjabi Somali Tamil Telugu Yoruba
Zulu
Английский Французский Немецкий Итальянский Португальский Русский Испанский