Корреляции

← →
TUser © (2004-03-08 18:18) [0]

Если надо посчитать корреляцию - мы юзаем коэфф. Пирсона, если цифрами нельзя записать значения - то ранговую корреляцию Спирмена. А есть ли способ использовать коэфф. неранговой корреляции, т.е. объекты у меня никак нельзя заюзать в ранги. Можно, например, считать, что это названия городов "Москва", "Питер" и т.д. Желательно чтобы можно было еще оценить достоверность корреляции.
Я смог придумать только так. Создать 2D таблицу из возможных пар значений. Вписать, сколько раз они нам встретились. Ясно, что если мы получим
125 3
145 2
То это плохо (малелькая корреляция), а если
125 3
2 145,
то корреляция дб большая. В случае таблиц, где более 2х строк/столбцов, требуется чтобы максимум в строке/столбце не совпадал с максимумом в другой строке. Тогда, наверное, надо считать разницу для каждой клетки между максимальным значением в данном столбце и ее значением. Посто то ли среднюю считать, то ли нормировать на этот максимум и все складывать. То же самое для строк, т.к. строки и стоблцы дб равнозначны.
Есть ли к-л подходы к подсчету такой корреляции. И еще хочется уметь оценивать достоверность корреляционной связи.

← →
TUser © (2004-03-09 11:03) [1]

Вот такая мысля у меня пробежала. надо постараться как-нибудь оценить максимально возможный к.Спирмена для исходных данных (точнее меня интересует максимально возможных по модулю коэффициент). Но разных вариантов перестановок будет n!*m!, где n и m - число количество возможных значений каждой величины. Т.е. перебрать все варианты нельзя число технически. Нужен алгоритм нахождения максимально возможного к.Сп.
Если бы можно было как-то оценить ранг какого из 2х значений величины больше, тогда можно с помощью алгоритмов сортировки быстро вычислить ранги всех ее значений. В связи с этим вопрос - насколько правильным будет такой алгоритм.
Пусть величина А имеет заданные ранги (возможно не окончательные). Зададим какие-нибудь ранги для Б. Переставим местами ранги для значений Б1 и Б2, сравним коэффициенты. Таким образом мы определим, ранг какого из этих значений будет больше при данных рангах величины А. Отсортируем ранги Б, найдем значение коэффициента при данных рангах А. Затем поменяем ранги для А1 и А2 и аналогичным образов, отсортировав ранги для Б при новых значениях рангов для А, сравним максимально возможный к. Спирмена для данных значений рангов величины А. Если время сортировки n*log(n), тогда общее время работы алгоритма будет n*m*log(n)*log(m).
Действительно, перемена местами рангов для 2х каких-нибудь значений изменяет только те слагаемые в к.Сп., которые соотвествуют этим значениям. Если при данных рангах другой величины такая перестановка повышает модуль к.Сп., значит эти слагаемые меняются "правильно". Конкретно - большие значения (часто встречающиеся пары) перемещаются ближе к диагонали таблицы, составленной из частот различных пар, а маленькие значения отодвигаются дальше от этой диагонали. Вроде бы должно прокатить. Что Вы думаете по этому поводу?

← →
TUser © (2004-03-09 12:09) [2]

Хотя бы алгоритм перестановки строк и столбцов таблицы таким образом, чтобы в результате получить таблицу, где большие цифры расположены максимально близко к "диагонали".

← →
PVOzerski © (2004-03-09 13:39) [3]

Может, я и оффтопик написал, но вот размышления, навеянные прочитанным. Если я правильно понял, дать балльное значение каждому варианту состояния исследуемой величины нельзя (т. е. нельзя сказать, что Москва=1, Питер=2, Екатеринбург=3 потому что с точки зрения интересующего свойства разница между Москвой и Петербургом (1 и 2) не меньше, чем между Москвой и Екатеринбургом (1 и 3). Однако разбить данные по классам (1-й - Москва, 2-й - Петербург, 3-й - Екатеринбург) и сравнить распределения частот по хи-квадрату - почему бы и нет? Это, конечно, не корреляция, впрочем.

← →
TUser © (2004-03-09 14:09) [4]

Можно, но это действительно не корреляция. Т.е. я узнаю таким образом, что имеющееся распределение можно/нельзя считать равномерным.
Например для
125 0 15 22
145 321 456 5
2 567 134 20
3 5 9 222
мне надо получить большое значение, т.к. большие цифры группируются около диагонали. А для
125 0 15 22
145 321 5 456
567 20 0 134
3 5 9 222
надо получать маленькое значение, т.к. такой группировки не получается. Собственно, можно создать алгоритм перемешивания строк/столбцов (типа сборки кубика Рубика), а потом просчитать к. Стирлинга.
Сложность в отличае от кубика состоит в том, что попростому сказать "грань (или в данном случае - строчка/столбец) собрана/не собрана" нельзя. Т.е. критерий окончания сборки получается не из анализа текущего состояния таблицы, а из сравнения с другими возможными состояниями.

Я, конечно, не специалист в области теории вероятности, но сдается мне, что при таком подходе как-то изменится по сравнению со стандартно принятым число степеней свободы. А вот как и насколько - судить не берусь. Потому и не рекомендую разрабатывать собственные методы оценки. Вот другой вариант подхода. Возьмем N-мерное пространство категорий (Москва...Урюпинск). Тогда для каждой категории можно отложить по оси значение 1 (присутствует) или 0 (отсутствует), а объект сравнения примет вид точки в гиперобъеме. Возможно, к этим объектам окажется приложИм дискриминнтный анализ, с помощью которого удастся создать "синтетические" сравнимые 1-мерные характеристики (поддающиеся обычному корреляционному анализу)

Хорошая идея. Пропробую, спасибо.

Корреляции Найти похожие ветки