3.2.1.6. Коэффициенты связи между ранговыми переменными
Напомним, что ранговыми переменными называются переменные, в которых можно установить порядок между значениями.
Например, ответы на вопрос, требующий ответа «плохо», «средне» или «хорошо». Количественные переменные, такие как возраст, доход также можно использовать в качестве ранговых.Рассмотрим пары всех объектов (строк матрицы данных). Для пары объектов (i, j) рассматривается, одинаково ли упорядочиваются объекты и по переменной X и по переменной Y. Если Xi < Xj и Yi < Yj или Xi > Xj и Yi > Yj, то упорядочения одинаковы, если Xi < Xj и Yi > Yj или Xi > Xj и Yi < Yj - упорядочения не одинаковы. Число одинаковых упорядочений для всех пар объектов по X, Y обозначим Р; число разных - Q. Кендалл пред-ложил рассматривать величину BTAU = (P - Q) /T, где T- нормирующий знаменатель, такой, чтобы величина BTA U изменялась от -1 до 1. BTAU = -1 означает, что получена полная отрицательная связь X и Y, BTAU = 1 - полная положительная связь.
Коэффициент CTAU несколько отличается нормирующим знаменателем. С точки зрения использования отличие их в том, что BTA U предпочтительнее использовать для квадратных таблиц сопряженности, то есть когда r = c. Например, с помощью этих коэффициентов можно проверить гипотезу независимости переменных «степень противостояния СССР и Японии» и «степень альтруизма» против гипотезы их зависимости: одинаковой или противоположной упорядоченности, предварительно построив эти переменные на основе данных по нашей учебной анкете.
Рассчитаем коэффициенты BTAU и CTAU для наших переменных V1 «Точка зрения на иностранную помощь» и V4 «Возможность удовлетворить территориальные требований Японии». Следует заметить, что код значения «не знаю» этих переменных максимален - 4 (см. анкету в Приложении). Это нарушит порядок градаций и неясно, каким образом повлияет на результаты.
Поэтому самым простым выходом будет пожертвовать данными и провести расчеты, объявив этот код кодом неопределенности:Таблица 3.7 Value Asymp. Std. Error Approx. T Approx. Sig. Kendall's tau-b -0,158 0,043 -3,571 0,000 Kendall's tau-c -0,094 0,026 -3,571 0,000 N of Valid Cases 606
Коэффициенты для ранговых переменных
MISSING VALUES v1 v4(4). CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ BTAU CTAU CMH(1) /CELLS = COUNT ROW COL.
Поскольку BTAU = - 0,158 меньше нуля и значима, можно с уверенностью утверждать, что превалирует обратная связь между рангами: чем меньше желание отдать острова, тем больше преобладает мнение, что помощь необходима. То же самое дает CTAU.
3.2.1.7. Точные методы оценки значимости
Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQ распределением хи-квадрат (больше 20 % клеток имеют Ey < 5)? В действительности аппроксимация необходима лишь для того, чтобы можно было вычислить наблюдаемую значимость, т. е. вероятность P{CHISQ. > CHISQвыбороч.}. То же касается и значимости коэффициентов CTAU, BTAU. Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях их независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности.
Во многих процедурах SPSS, в том числе и в CROSSTABS, реализованы метод Монте-Карло и метод прямого вычисления вероятностей.
В методе Монте-Карло проводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с ее выборочной величиной. Доля случаев, когда статистика превысила выборочное значение, является оценкой уровня значимости Р{CHISQ.> > CHISQjjb^OT.}. Поскольку здесь оценка вычисляется на основе случайных экспериментов, в дополнение к оценке уровня значимости выдается ее доверительный интервал.
Число экспериментов и доверительная вероятность задается заранее.В методе прямого вычисления рассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается
время счета, и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций.
Метод Монте-Карло практически всегда позволяет получить оценку значимости за реальное время, но с определенной точностью. Метод прямого вычисления определяет вероятность точно, но расчеты требуют слишком много времени.
В диалоговом окне CROSSTABS (как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопки Exact.
Пример. Решается вопрос, как связаны «Точка зрения на иностранную помощь» и «Возможность удовлетворить территориальные требований Японии» на выборке, ограниченной жителями Дальнего Востока (276 наблюдений). Для решения используется
CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ /CELLS = COUNT Row Col /METHOD = MC CIN(99) SAMPLES(10000).
Параметры последней подкоманды «/METHOD = MC CIN(99) SAMPLES(10000)» говорят о том, что значимость оценивается методом Монте-Карло (MC), будет получен 99 %-й доверительный интервал для оценки наболюдаемой значимости (CIN(99)) с использованием 10 000 экспериментов (SAMPLES(10000)) .
В результате получаем табл. 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI = -2 log (yP), где у - константа, зависящая от итоговых частот таблицы, а P - вероятность получить наблюдаемую таблицу в условиях независимости переменных. Статистика FI также имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено - доля клеток, в которых ожидаемая частота меньше 5, равна 56,3 %, а минимальная ожидаемая частота равна 0,47.
Опыт показывает, что точный тест на основе прямого вычисления вероятности требует больших затрат времени. Для нашей задачи оказалось недостаточно 25 мин. на персональном компьютере с процессором 200 mhz.
Таблица 3.8
Хи-квадрат тесты, оценка значимости методом Монте-Карло Value Df Asymp. Sig. (2-sided) Monte Carlo Sig. (2-sided) Sig. 99 % Confidence Interval Lower Bound Upper Bound Pearson Chi-Square 21,6 9 0,010 0,0155 0,012 0,019 Likelihood Ratio 18,9 9 0,026 0,0327 0,028 0,037 Fisher's Exact Test 19,1 0,0103 0,008 0,013 Linear-by-Linear Association 0,3 1 0,611 0,6492 0,637 0,661 N of Valid Cases 276 a 9 cells (56,3 %) have expected count less than 5. The minimum expected count is .47.
Еще по теме 3.2.1.6. Коэффициенты связи между ранговыми переменными:
- 3.2.1.5. Измерение силы связи между номинальными переменными
- Ограничения коэффициента ранговой корреляции
- 5.3. Тесты для ранговых переменных
- 4.2. Коэффициент ранговой корреляции rs Спирмена
- Расчет коэффициента ранговой корреляции Спирмена rs
- Коэффициент ранговой корреляции
- Стандартизация переменных. Бета-коэффициенты
- 3.2.1.4. Подкоманда /STATISTICS - исследование связи неколичественных переменных
- 5. Общее соотношение между стоимостью товара (T′) и стоимостью элементов его производства (КC + КV). Связь между переменным капиталом и новой стоимостью
- Понятие «экспериментальная переменная». Виды переменных в эксперименте и их соотношение. Контроль дополнительных переменных.
- Отношения между переменными
- 3.4 Биологические коэффициенты связи водопотребления лука с метеорологическими показателями
- Связи между физическими величинами
- 1.1 Канал связи между участниками коммуникации
- 3.2 Анализ связи между неколичественными переменными3.2.1. CROSSTABS - таблицы сопряженности
- 1.2 Уравнение связи между физическими величинами
- Информационные связи между разделами бизнес-плана
- СЛОЖНЫЕ ПРЕДЛОЖЕНИЯ С РАЗНЫМИ ВИДАМИ СВЯЗИ МЕЖДУ ЧАСТЯМИ