3.2.1.4. Подкоманда /STATISTICS - исследование связи неколичественных переменных
CHISQ - позволяет оценить связь с помощью критерия хи-квадрат; кроме значения коэффициента хи-квадрат при задании этого ключевого слова выдается отношение правдоподобия (Likelihood Ratio), а также статистика для проверки линейной связи. Последняя статистика редко используется и поэтому не рассматривается в нашем учебно-методическом пособии.
PHI - коэффициент фи-Пирсона; вместе с этим коэффициентом вы-даются:
V - коэффициент Крамера;
CC - коэффициент контингенции;
BTAU - тау-В Кендалла для ранговых переменных;
CTAU - тау-С Стюарта для ранговых переменных;
ALL - все статистики (около десятка), включая вышеперечисленные.
Как можно охарактеризовать в целом связь неколичественных переменных? Для характеристики их связи наиболее часто используется критерий хи-квадрат (CHISQ), основанный на вычислении статистики:
CHISQ = z(Ny -Ey)2E .
,, j
Эта величина показывает расстояние эмпирически полученной (расчи- танной нами по результатам обследования на основании выборки) таблицы сопряженности от ожидаемой теоретически. В ее основе лежит расстояние между значениями Ny выборочной таблицы и Ey - ожидаемыми в условиях независимости переменных. Само по себе значение статистики ни о чем не говорит. Важно знать вероятность получения расстояния CHISQ, большего, чем оно может быть для случайной выборки в условиях независимости переменных. Напомним, что такая вероятность называется наблюдаемой значимостью и обозначается словом Significance (возможны сокращения Sig., Р-значения).
Пакет выдает выборочное значение CHISQ и его значимость.
Традиционно считается, что значение Significance, меньшее 0,05, свидетельствует о взаимосвязи переменных, т. к. значение статистики попадает в критическую область и гипотезу о независимости переменных следует отвергнуть.CHISQ в условиях независимости и при достаточном числе наблюдений имеет распределение, близкое к распределению хи-квадрат с (r - 1) (c - 1) степенями свободы, где r - число строк в таблице, с - число столбцов (CHISQ^.^x^r - 1) (c - 1))). Существует эмпирическое правило, по которому считается, что CHISQ достаточно точно аппроксимируется теоретическим распределением %2((r - 1) (c - 1)), если не более 20 % клеток имеют ожидаемые частоты Еу < 5 и нет Еу < 1. В выдаче всегда присутствует информация о числе клеток, где это соотношение не выполняется. Рекомендуется использовать в CROSSTABS критерий хи-квадрат для переменных с небольшим числом значений, что достигается перекодировкой переменных.
Вместе с критерием хи-квадрат выдается также логарифм отношения правдоподобия LI:
(
\
Nij
NiNi / N
LI = 2? Nj ln
', і
Этот показатель также имеет асимптотическое хи-квадрат - распределение, но более устойчивое к объему выборки. Поэтому при оценке связи пары признаков мы рекомендуем пользоваться отношением правдоподобия.
Таблица 3.6
Тесты хи-квадрат Value df Asymp. Sig. (2-sided) Pearson Chi-Square 10,517 3 .015 Likelihood Ratio 10,708 3 .013 Linear-by-Linear Association 0,156 1 .693 N of Valid Cases 708 a 0 cells (.0 %) have expected count less than 5. The minimum expected count is 22,25.
Наблюдаемая значимость (Significance) - это вероятность случайно получить большее значение, чем выборочное. Таким образом, для CHISQ на-блюдаемая значимость (SIG) равна P{CHISQ > СН!^выбороч.}, и, аналогично, для отношения правдоподобия LI наблюдаемая значимость (SIG) равна
P{LI > Е^выбороч.}.
Пример задания для исследования связи ответа на вопрос о необходимости иностранной помощи (v1) и полом (v8):
CROSSTABS v8 BY v1 /CELLS COUNT ROW COL ASRESID /STATISTICS = CHISQ.
В приведенном примере наблюдаемая значимость CHISQ составила около 1,5 % (см.
Asymp. Sig. (2-sided)), значимость LI примерно 1,3 %. С такой незначительной вероятностью в условиях независимости можно случайно получить большие значения соответствующих статистик. Поэтому в соответствии с 5 %-м уровнем значимости переменные v8 и v1 следует считать связанными (1,5 % < 5 %). Таким образом, можно сделать вывод, что мужчины и женщины имеют разные мнения в вопросе об иностранной помощи.Текст под таблицей «а 0 cells (.0 %) have expected count less than 5. The minimum expected count is 22,25» свидетельствует, что все ожидаемые час-тоты больше 5, их минимум равен 22,25. Это свидетельствует о корректности использования критерия.
В расчетах нами было получено для клетки «мужчины» - «помощь нужна», значение Z-статистики, равное 2,9, что больше 1,65, и, следовательно, ответы зависимы. Кроме того, из таблицы следует, что о необходимости помощи говорят вдвое больше мужчин, чем женщин. Мы не будем приводить здесь эту таблицу, покажем лишь столбиковую диаграмму на рис. 3.4, полученную командой
CROSSTABS v8 BY v4 / CELLS COUNT ROW COL ASRESID /BARCHART.
На диаграмме ясно видно, что среди респондентов, сказавших, что помощь нужна, столбик, соответсвующий количеству мужчин, существенно больше столбика, соответствующего количеству женщин.
Еще по теме 3.2.1.4. Подкоманда /STATISTICS - исследование связи неколичественных переменных:
- 3.1.1.3. Подкоманда /STATISTICS - описательные статистики
- 3.2 Анализ связи между неколичественными переменными3.2.1. CROSSTABS - таблицы сопряженности
- 3.2.1.6. Коэффициенты связи между ранговыми переменными
- 3.2.1.5. Измерение силы связи между номинальными переменными
- Понятие «экспериментальная переменная». Виды переменных в эксперименте и их соотношение. Контроль дополнительных переменных.
- 6.2.3. Неколичественные данные
- 3.2.1.2. Подкоманда /CELLS
- 3.1.1.2. Подкоманды /NTILES, /PERCENTILES - и-тили, процентили
- 6.1.9. Можно ли в регрессии использовать неколичественные пере-менные?
- Неколичественные шкалы