Задачка

← →
Alx2 © (2005-02-16 09:25) [0]

Имеются N экспертов. Каждый предсказывает событие A с вероятностью p_k, где k - порядковый номер эксперта.
На основании предсказаний всех экспертов нужно дать оценку вероятности события A

Что-то я запутался в ней несколько....

← →
Sandman25 © (2005-02-16 09:28) [1]

(p_1+p_2+...+p_N)/N

← →
Alx2 © (2005-02-16 09:34) [2]

В другой постановке: пришло письмо. Эксперты говорят, что это спам или не спам, при этом ошибаются с вероятностью p_k.

На основании их оценок дать вероятность того, что пришел спам.

← →
Sandman25 © (2005-02-16 09:37) [3]

(A(1, p_1) + A(2, p_2) + ... + A(N, p_N)) / N

A(i, p_i) = 1-p_i, если i-ый эксперт говорит, что спам
A(i, p_i) = p_i, если i-ый эксперт говорит, что не спам

← →
Alx2 © (2005-02-16 09:40) [4]

Sandman25 © (16.02.05 9:37) [3]

Покумекаю. Но что-то не нравится пока. На каком основании берем среднее?

← →
Sandman25 © (2005-02-16 09:41) [5]

[4] Alx2 © (16.02.05 09:40)

Если он говорит спам, при этом шанс ошибиться равен 0.2, то с вероятностью 0.2 это не спам, а с вероятностью 0.8 это спам.
Если он говорит не спам, при этом шанс ошибиться равен 0.2, то с вероятностью 0.2 это спам, а с вероятностью 0.8 это не спам.

← →
Sandman25 © (2005-02-16 09:51) [6]

На каком основании берем среднее?

На основании равноправия экспертов. Почему не среднее геометрическое? Из общих рассуждений, точное обоснование не скажу.

← →
Sha © (2005-02-16 10:12) [7]

Насколько независимы эксперты?
1. Если все определяют автомобиль это или нет по наличию колес, то надо оставить только одного из них - того, кто делает это лучше других.
2. Если один тестирует наличие колес, другой - наличие кузова, то оставляем обоих.

Дальше тебе решать, что считать автомобилем: требовать наличия всех признаков или только части их них.

← →
Sandman25 © (2005-02-16 10:18) [8]

[7] Sha © (16.02.05 10:12)

"Мои" формулы верны для тех экспертов, которых преподавали в институте: люди, оценивающие в целом, по всем признакам сразу. То есть от числа экспертов зависит только вероятность ошибки, ничего принципиально не меняется с ростом их числа от 1 до бес коненчости.

← →
Телевизор (2005-02-16 10:20) [9]

> Sandman25 © (16.02.05 10:18) [8]

У нас есть эксперт который всегда ошибается. Мы всегда с вероятностью 1 узнаем на основании его ответа что у нас - спам или нет. И также, если у нас эксперт всегда прав.

← →
Sha © (2005-02-16 10:22) [10]

Sandman25 © (16.02.05 10:18) [8]

Если помнишь, там ключевым словом было независимость.
Для фильтров спама она не всегда имеется.

← →
Sha © (2005-02-16 10:24) [11]

Телевизор (16.02.05 10:20) [9]

Такого эксперта всегда можно заменить на его отрицание так, чтобы вероятность правильного ответа была не хуже 0.5

← →
Телевизор (2005-02-16 10:27) [12]

> Sha © (16.02.05 10:24) [11]

Главное, что
> Sandman25 © (16.02.05 09:37) [3] - уже не работает.

← →
Sandman25 © (2005-02-16 10:30) [13]

[12] Телевизор (16.02.05 10:27)

Работает. 0<p_i<0.5 Причем именно строго меньше в обоих случаях. Иначе у нас не эксперты :)

← →
Sandman25 © (2005-02-16 10:36) [14]

[10] Sha © (16.02.05 10:22)

Согласен. Если эксперт всегда повторяет вердикт другого эксперта, то ну его.

← →
uny © (2005-02-16 10:36) [15]

>Если все определяют автомобиль это или нет по наличию колес, то
>надо оставить только одного из них - того, кто делает это лучше
>других.

способов определить есть ли колёса очень много, а если постараться придумать, то бесчисленно. и какой лучше из способов - как определить то? тестированием только, а значит надо всех оставить

← →
Телевизор (2005-02-16 10:39) [16]

> Sandman25 © (16.02.05 10:30) [13]
> Sha © (16.02.05 10:24) [11]

Тогда так:
(max(p_1,1-p_1)+max(p_2,1-p_2)+...+max(p_N,1-p-N))/N

Осталось доказать?

← →
Sandman25 © (2005-02-16 10:42) [17]

[16] Телевизор (16.02.05 10:39)

Я все-таки настаиваю, что к экспертам есть требование по p_i. Требование профпригодности.
Если все эксперты, кроме одного, могут ошибиться, то нафиг им вообще деньги платить за экспертизу? Лучше тому единственному гению премию выделить :)

← →
Sha © (2005-02-16 11:17) [18]

> uny © (16.02.05 10:36) [15]
> способов определить есть ли колёса очень много...

Поясню на примере, что я хотел сказать.
Эксперт1 определяет наличие спама по фразе "курсы английского языка".
Эксперт2 определяет наличие спама по фразе "курсы %s языка", где %s означает любое слово.
Думаю, что, первый эксперт нам не нужен.

← →
default © (2005-02-16 11:19) [19]

я не согласен с тем что если один определяет есть ли колёса у автомобиля с вероятностью 0.7 и его можно только один раз использовать, а другой с вероятностью 0.6, то последнего нужно выкинуть нафиг
хотя бы из-за такого момента что вероятность того что они оба ошибутся равна 0.3*0.4=0.12 что меньше чем 0.3 для первого
то есть если она оба скажут что событие произойдёт им стоит верить с вероятностью 0.88, а не 0.7 как для первого

так независимы выборы экспертов или как?

← →
Sandman25 © (2005-02-16 11:22) [20]

[19] default © (16.02.05 11:19)

Рассмотри случай одинаковых экспертов.

← →
Sha © (2005-02-16 11:26) [21]

default © (16.02.05 11:19) [19]
см [18]

← →
KSergey © (2005-02-16 11:29) [22]

> [18] Sha © (16.02.05 11:17)
> Поясню на примере, что я хотел сказать.

В условии задачи не сказано как тот или иной эксперт определяет спам это или нет. Известна лишь вероятность.
А из вероятности вовсе не значит, что первый эксперт обязательно и всегда хуже второго. В случае их независимости, разумеется. У вас же пример скорее зависимых экспертов....

← →
default © (2005-02-16 11:35) [23]

Sha © (16.02.05 11:26) [21]
да, но в условии задачи этого не было
а в [18] если попадается письмо с фразой про английский эксперту определяющему спам только по этой фразе достоверно что он скажет спам?(понятно что в практической ситуации это достоверно, но мало чего...)
если да и дляд ругиэ экспертов также, то вы правы конечно

← →
марсианин © (2005-02-16 11:38) [24]

ничего не понимаю. что такое p_k? это то, что k-ый эксперт скажет, что это спам и не ошибется?

или

это просто вероятность, что он ошибется (или не ошибется).. но тогда необходимо знать, что именно ответил каждый эксперт.. или вероятности, что они ответят утвердительно.

считаем, что ответы экспертов - независимые события, т.е. их можно складывать

в первом случае СУММА(p_k) / N

во втором случае.. если р_K - вероятность, что эксперт не ошибается, а q_k - вероятность того, что он ответит утвердитеьно:
p(спам) = СУММА (p_k * q_k) / СУММА (p_k).

← →
Sha © (2005-02-16 11:38) [25]

> KSergey © (16.02.05 11:29) [22]
> В условии задачи не сказано как тот или иной эксперт
> определяет спам это или нет. Известна лишь вероятность.

В реальной жизни первичен алгоритм, а вероятность притянута за уши.

> У вас же пример скорее зависимых экспертов....

Все как в жизни.

← →
default © (2005-02-16 11:42) [26]

марсианин © (16.02.05 11:38) [24]
это неверно
см [19]
(0.7+0.6)/2=0.65
если оба ответили одно и тоже им стоит верить с 0.88
если ответы разные стоит верить первому с вер-ью 0.7
неправда-ли покруче это чем 0.65?

← →
Alx2 © (2005-02-16 11:45) [27]

марсианин © (16.02.05 11:38) [24]

Вероятность того, что эксперт даст правильный ответ. То есть сделает правильную классификацию "спам - не спам".

Мы знаем какой ответ дал каждый эксперт. Мы знаем вероятность правильных ответов каждого эксперта.

в моем посте [2] следует читать "Эксперты говорят, что это спам или не спам, при этом не ошибаются с вероятностью p_k."

← →
default © (2005-02-16 11:49) [28]

default © (16.02.05 11:42) [26]
вру
если оба дают разные ответы, то стоит верить первому с вероятностью 0.7*0.4=0.28, а уже не 0.7 как если бы давал ответ только первый эксперт(с 0.7)
видите как второй эксперт пошатнул веротяность первого

[26] default © (16.02.05 11:42)

Если есть 2 "эксперта", угадывающих результат. Вероятность ошибки каждого 0.5. Вероятность того, что они дадут одинаковый ответ тоже равна 0.5. Почему же им нужно в таком случае следует верить с вероятностью 0.75?

Sandman25 © (16.02.05 11:52) [29]
тут вероятность 0.5
откуда 0.65?
кстати мне кажется вопрос у задачи должен быть: какому эксперту верить, а не получать какую-то туманную оценку...
если так то мы должны верить эксперту с максимальной вероятностью(да да всё-таки так...) остальные не нужны
остальные нужны если испытания зависимы

хотя нет стойте всё-таки тут не надо торопиться:)
рассмотрите какую максимальную вероятность угадывания(указания верного выбора)можно получить при трёх экспертах 0.7 0.6 0.55
при их опросе слева направа, мне учиться пора...

всё что я писал до поста [31] не читать
всё-таки тут дело такое - без анализа лучше вообще молчать(не только про себя...)

Alx2
"Мы знаем какой ответ дал каждый эксперт. " (1)
вот к примеру если взять экспертов 0.7 0.65 0.65
первый сказал спам второй и третий - не спам
есть два варианта либо первый прав другие нет либо наоборот
вероятность первого события 0.7*0.35*0.35=0.08575
второго 0.3*0.65*0.65=0.12675
то есть при таком раскалде стоит верить не первому эксперту - то есть при условии (1) не всегда стоит верить эксперту с максимальной вероятностью - то есть эксперты с немаксимальной вероятностью не ненужны

> Alx2 © (16.02.05 11:45) [27]
> Вероятность того, что эксперт даст правильный ответ. То есть
> сделает правильную классификацию "спам - не спам".
> Мы знаем какой ответ дал каждый эксперт. Мы знаем вероятность
> правильных ответов каждого эксперта.

На мой взгляд, задача изначально поставлена некорректно.
Нет никаких вероятностей при фильтрации спама. Любой алгоритм фильтрации - штука детеминированная. Результат его работы для каждого конкретного письма всегда один и тот же. Процент спама на выходе алгоритма зависит лишь от процента спама на входе и от качества спама.

Речь здесь может идти об анализе большего числа признаков, исключении повторного анализа, тонкой настройке алгоритма фильтрации, построении оценочной фнкции, адаптации к изменениям среды и т.п.

> Мы знаем какой ответ дал каждый эксперт.

т.е. к массиву p_k прилагается список ответов n_k - да/нет?

2[26] default ©

да черт возьми.. я и сам запутался..

тут еще надо понять, что значит "вероятность того, что эксперт не ошибается"
если у нас есть супер специалист - она равно 100%, его мнение заведомо верно.. как быть с другими мнениями?? особенно, когда у нас есть другой супер специалист, придерживающийся противоположно точки зрения..
может, требуется еще какое-нибудь условие в задаче

с другой стороны, если для кого-то она равна 0% - то это это супер жулик. он знает точно ответ, но отвечает всегда наоборот. но об этом уже было.

может так :
вес мнения эксперта w_k = p_k - 0.5; общий вес ответов "да": w_yes = СУММА (w_k) по тем, кто ответил "да" общий вес ответов "нет": w_no = СУММА (w_k) по тем, кто ответил "нет" p (spam) = w_yes / (w_yes + w_no)

← →
Телевизор (2005-02-16 12:33) [36]

> [26] default © (16.02.05 11:42)

Все верно. Зря испугался.

Вся штука в формулировке и пошло-поехало.
Я бы так задал:
Имеем кучу экспертов определяющих спамность писем. При этом вероятность верного соотнесения(а не просто определения - спам) разная. Как нам посторить обобщенного эксперта с максимальной верностью определения?

Так вот тут сразу видно, что этот эксперт должен иметь P_COOL >= max(p_i).

Если возможен эксперт с убором знака равенства - предъявляем. В этом суть. Если нет - увольняем нафиг всех остальных и работаем с тем у кого самое хорошее резюме. Так мыслю.

Кто хочет возразить, пусть подумает над таким:
Есть эксперт делающий ошибку в одном письме на 1 миллард, и 100 тупиц, делающих 49 ошибок на 100.
Перебираем триллион писем. Делаем выводы.

А почему требовали >0.5? Потому что ассоциировали самого тупого эксперта с монеткой. Но вот насколько это корректно?

> [25] Sha © (16.02.05 11:38)
> В реальной жизни первичен алгоритм, а вероятность притянута
> за уши.

Тогда я явно просто не знаком с предметной областью.
Вообще, тогда я бы лучше трактовал это не в терминах вероятности, а в терминах коэффициента доверия эксперту. Это бы, пожалуй, вернее отражало ситуацию.

← →
Телевизор (2005-02-16 12:43) [39]

Думкин © (16.02.05 12:41) [38]

Дим, чутье подсказывает, что других (хороших) экспертов со счета сбрасывать не стоит. Если эксперт с p = 0.9 говорит, что не спам. А десяток с p=0.85 говорит, что спам - есть резон верить им.

Задачка Найти похожие ветки