3.2.1.6. Коэффициенты связи между ранговыми переменными

Коэффициенты BTAU (Кендалла) и CTAU (Стюарта) служат для оценки взаимосвязи ранговых переменных.

Напомним, что ранговыми переменными называются переменные, в которых можно установить порядок между значениями.

Например, ответы на вопрос, требующий ответа «плохо», «средне» или «хорошо». Количественные переменные, такие как возраст, доход также можно использовать в качестве ранговых.

Рассмотрим пары всех объектов (строк матрицы данных). Для пары объектов (i, j) рассматривается, одинаково ли упорядочиваются объекты и по переменной X и по переменной Y. Если Xi < Xj и Yi < Yj или Xi > Xj и Yi > Yj, то упорядочения одинаковы, если Xi < Xj и Yi > Yj или Xi > Xj и Yi < Yj - упорядочения не одинаковы. Число одинаковых упорядочений для всех пар объектов по X, Y обозначим Р; число разных - Q. Кендалл пред-ложил рассматривать величину BTAU = (P - Q) /T, где T- нормирующий знаменатель, такой, чтобы величина BTA U изменялась от -1 до 1. BTAU = -1 означает, что получена полная отрицательная связь X и Y, BTAU = 1 - полная положительная связь.

Коэффициент CTAU несколько отличается нормирующим знаменателем. С точки зрения использования отличие их в том, что BTA U предпочтительнее использовать для квадратных таблиц сопряженности, то есть когда r = c. Например, с помощью этих коэффициентов можно проверить гипотезу независимости переменных «степень противостояния СССР и Японии» и «степень альтруизма» против гипотезы их зависимости: одинаковой или противоположной упорядоченности, предварительно построив эти переменные на основе данных по нашей учебной анкете.

Рассчитаем коэффициенты BTAU и CTAU для наших переменных V1 «Точка зрения на иностранную помощь» и V4 «Возможность удовлетворить территориальные требований Японии». Следует заметить, что код значения «не знаю» этих переменных максимален - 4 (см. анкету в Приложении). Это нарушит порядок градаций и неясно, каким образом повлияет на результаты.

Поэтому самым простым выходом будет пожертвовать данными и провести расчеты, объявив этот код кодом неопределенности:

Таблица 3.7 Value Asymp. Std. Error Approx. T Approx. Sig. Kendall's tau-b -0,158 0,043 -3,571 0,000 Kendall's tau-c -0,094 0,026 -3,571 0,000 N of Valid Cases 606

Коэффициенты для ранговых переменных

MISSING VALUES v1 v4(4). CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ BTAU CTAU CMH(1) /CELLS = COUNT ROW COL.

Поскольку BTAU = - 0,158 меньше нуля и значима, можно с уверенностью утверждать, что превалирует обратная связь между рангами: чем меньше желание отдать острова, тем больше преобладает мнение, что помощь необходима. То же самое дает CTAU.

3.2.1.7. Точные методы оценки значимости

Что же делать, когда количество наблюдений не позволяет воспользоваться аппроксимацией распределения статистики CHISQ распределением хи-квадрат (больше 20 % клеток имеют Ey < 5)? В действительности аппроксимация необходима лишь для того, чтобы можно было вычислить наблюдаемую значимость, т. е. вероятность P{CHISQ. > CHISQвыбороч.}. То же касается и значимости коэффициентов CTAU, BTAU. Современная вычислительная техника позволяет во многих случаях обойтись без использования аппроксимации, вычислить вероятности за счет имитации сбора данных в условиях их независимости (метод Монте-Карло) или воспользовавшись непосредственным вычислением вероятности.

Во многих процедурах SPSS, в том числе и в CROSSTABS, реализованы метод Монте-Карло и метод прямого вычисления вероятностей.

В методе Монте-Карло проводятся компьютерные эксперименты, в которых многократно случайно перемешиваются данные. В каждом эксперименте вычисляется значение статистики значимости и сравнивается с ее выборочной величиной. Доля случаев, когда статистика превысила выборочное значение, является оценкой уровня значимости Р{CHISQ.> > CHISQjjb^OT.}. Поскольку здесь оценка вычисляется на основе случайных экспериментов, в дополнение к оценке уровня значимости выдается ее доверительный интервал.

Число экспериментов и доверительная вероятность задается заранее.

В методе прямого вычисления рассматривается обобщение гипергеометрического распределения для таблицы сопряженности. Процедура весьма трудоемка и имеет смысл для небольших данных. Заранее задается

время счета, и, если программа не успела справиться с вычислениями, выдается результат, полученный на основе аппроксимаций.

Метод Монте-Карло практически всегда позволяет получить оценку значимости за реальное время, но с определенной точностью. Метод прямого вычисления определяет вероятность точно, но расчеты требуют слишком много времени.

В диалоговом окне CROSSTABS (как, впрочем, и в окнах для других непараметрических процедур) указанные методы включаются с помощью кнопки Exact.

Пример. Решается вопрос, как связаны «Точка зрения на иностранную помощь» и «Возможность удовлетворить территориальные требований Японии» на выборке, ограниченной жителями Дальнего Востока (276 наблюдений). Для решения используется

CROSSTABS /TABLES = v4 BY v1 /STATISTIC = CHISQ /CELLS = COUNT Row Col /METHOD = MC CIN(99) SAMPLES(10000).

Параметры последней подкоманды «/METHOD = MC CIN(99) SAMPLES(10000)» говорят о том, что значимость оценивается методом Монте-Карло (MC), будет получен 99 %-й доверительный интервал для оценки наболюдаемой значимости (CIN(99)) с использованием 10 000 экспериментов (SAMPLES(10000)) .

В результате получаем табл. 3.8, в которой размещены значимости всех исследуемых статистик. Исследуемые в эксперименте статистики включают дополнительно обобщение точного теста Фишера (Fisher's Exact Test). Статистика для этого теста имеет вид FI = -2 log (yP), где у - константа, зависящая от итоговых частот таблицы, а P - вероятность получить наблюдаемую таблицу в условиях независимости переменных. Статистика FI также имеет асимптотическое распределение хи-квадрат (в условиях гипотезы независимости). Следует заметить, что значимость, вычисленная на основе аппроксимации, выглядит значительно оптимистичнее с точки зрения обнаружения связи, чем при прямых вычислениях, да это и не мудрено - доля клеток, в которых ожидаемая частота меньше 5, равна 56,3 %, а минимальная ожидаемая частота равна 0,47.

Опыт показывает, что точный тест на основе прямого вычисления вероятности требует больших затрат времени. Для нашей задачи оказалось недостаточно 25 мин. на персональном компьютере с процессором 200 mhz.

Таблица 3.8

Хи-квадрат тесты, оценка значимости методом Монте-Карло Value Df Asymp. Sig. (2-sided) Monte Carlo Sig. (2-sided) Sig. 99 % Confidence Interval Lower Bound Upper Bound Pearson Chi-Square 21,6 9 0,010 0,0155 0,012 0,019 Likelihood Ratio 18,9 9 0,026 0,0327 0,028 0,037 Fisher's Exact Test 19,1 0,0103 0,008 0,013 Linear-by-Linear Association 0,3 1 0,611 0,6492 0,637 0,661 N of Valid Cases 276 a 9 cells (56,3 %) have expected count less than 5. The minimum expected count is .47.

<< | >>

↑

Источник: Ковалева Г.Д., Ростовцев П.С.. Анализ социологических данных с применением статистического пакета SPSS. 2002

Еще по теме 3.2.1.6. Коэффициенты связи между ранговыми переменными:

- Анализ социологических данных - Основы социологии - Социология журналистики - Социология управления -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -