Главная страница
Top.Mail.Ru    Яндекс.Метрика
Текущий архив: 2008.02.10;
Скачать: CL | DM;

Вниз

Скрытые модели Маркова   Найти похожие ветки 

 
Kerk ©   (2008-01-07 14:09) [0]

В принципе, оно у меня вроде работает, но хотелось бы уточнить, правильно ли я все понял и сделал, чтобы двигаться дальше. Да и пока формулирую, может быть в мозгах все устаканится :)

Использую цепи Маркова для разрешения морфологической неоднозначности. Например:
The run lasted thirty minutes. (слово "run" может быть как существительным, так и глаголом (см. "We run three miles every day"), а "thirty" - числительным или существительным.

Мой словарный морфоанализатор разбирает это предложение следующим образом:
ARTICLE [NOUN|VERB] VERB [NOUN|NUMERAL] NOUN

Итого имеем объекты цепи Маркова: ARTICLE, NOUN, VERB, NUMERAL (на самом деле у меня их больше и они подробнее, но не суть).

Нужно расчитать какая последовательность более вероятна:
1. ARTICLE NOUN VERB NOUN NOUN
2. ARTICLE NOUN VERB NUMERAL NOUN
3. ARTICLE VERB VERB NOUN NOUN
4. ARTICLE VERB VERB NUMERAL NOUN

Формулы раскопал (http://leader.cs.msu.su/~luk/HMM_rus.html):
http://leader.cs.msu.su/~luk/Recognition/rus/image148.gif
http://leader.cs.msu.su/~luk/Recognition/rus/image156.gif
http://leader.cs.msu.su/~luk/Recognition/rus/image158.gif

Я не совсем понимаю в моем случае роль PIi. Оно должно быть равномерно распределено между объектами?
Aij - это вероятность того, что после части_речи1 идет часть_речи2? Это я расчитал.
Bj(Ot+1) - вероятносто того, что в позиции j наблюдается часть речи Ot+1 ? Всегда единица и можно отбросить?

Если что, не пинайте сильно ногами :)


 
palva ©   (2008-01-07 16:16) [1]

По-моему, в статье нечто другое.
Там вероятность перехода от одной урны к другой не зависит от того, какого цвета шар был извлечен.
А здесь цепь Марков в явном виде, коль скоро матрицу Aij ты уже получил. Осталось перемножить соответствующие Aij и получить вероятность.
Только стоит ли привлекать сюда цепи Маркова, если нам нужна вероятность последовательности. Цепь Маркова и формулы для нее понадобятся нам, если мы хотим вычислять вероятность последнего члена этой последовательности. Вот здесь появляется произведение матриц A.

Возможно я не совсем понял задачу.


 
Kerk ©   (2008-01-07 16:57) [2]


> palva ©   (07.01.08 16:16) [1]

Звучит логично, но практически во всей литературе, которую я нашел, речь идет о цепях Маркова. Видимо я чего-то еще не учитываю...

3. Probabilistic Formulation (HMM)
Let us assume that we want to know the most likely tag sequence Phi(W), given a particular word sequence W. The tagging problem is defined as finding the most likely tag sequence T ...

http://tinyurl.com/2yf9dr (pdf, 175kb)


 
Семен Сурков   (2008-01-07 17:00) [3]

Попробуй письмо написать на кафедру факультета ВМиК, которая этим занимается. Я не помню, кто этим занимается конкретно. Но думаю, что там тебе ответят более подробно.


 
Kerk ©   (2008-01-07 17:02) [4]


> Семен Сурков   (07.01.08 17:00) [3]

Правда ответят? У меня там еще синтаксический анализ впереди, вопросов, думаю, будет куча.


 
Kerk ©   (2008-01-07 17:09) [5]


> palva ©   (07.01.08 16:16) [1]
> По-моему, в статье нечто другое.
> Там вероятность перехода от одной урны к другой не зависит
> от того, какого цвета шар был извлечен.

In an HMM, the exact sequence of states that the process generates is unknown (i.e., hidden). As the process enters each state, one of a set of output symbols is emitted by the process. Exactly which symbol is emitted is determined by a probability distribution that is specific to each state.

http://tinyurl.com/2w38mw (pdf, 720kb)


 
Семен Сурков   (2008-01-07 17:11) [6]


> Kerk ©   (07.01.08 17:02) [4]
> > Семен Сурков   (07.01.08 17:00) [3]Правда ответят?


ученые они народ того, не всегда в себе. если попадешь к тому, кто этим занимается, то точно помогут. жаль ты не в москве, можно было бы лично найти эксперта.


 
Kerk ©   (2008-01-07 17:24) [7]

Ссылки были на "Markov random field based English Part-Of-Speech tagging system" и "A Second-Order Hidden Markov Model for Part-of-Speech Tagging". Это к тому, что всетки используются именно цепи Маркова.


 
vrem_   (2008-01-07 18:09) [8]

читал, вспомнил про оптимальный колобок :)



Страницы: 1 вся ветка

Текущий архив: 2008.02.10;
Скачать: CL | DM;

Наверх




Память: 0.49 MB
Время: 0.018 c
1-1194184086
Zakir
2007-11-04 16:48
2008.02.10
Передача данных с помощью сообщений windows


3-1190981424
Tonich
2007-09-28 16:10
2008.02.10
Коннект к базе несколькими приложениями одновременно


4-1183368356
AutoLoad
2007-07-02 13:25
2008.02.10
Автозапуск


4-1183341673
Grademax
2007-07-02 06:01
2008.02.10
Подскажите, как перевести чужое окно в режим "Поверх всех окон"


15-1199213872
Vendict
2008-01-01 21:57
2008.02.10
PHP DM Client - одно пожелание