6.1.9. Можно ли в регрессии использовать неколичественные пере-менные?
В качестве независимой переменной применяются индексные переменные (в англоязычной литературе dummy-variables).
Например, для семейного положения в данных Курильского обследования (женат, вдов, разведен, холост) стоит ввести три индикаторные переменные: t\, t2 и t3 для выделения женатых, вдовых и разведенных.
Эти переменные будут равны, соответственно, 1 или 0, в зависимости от того, принадлежит или не принадлежит респондент к соответствующей группе.Почему не 4, а 3 индексные переменные? Четвертая переменная определяется однозначно через первые три, поэтому введение ее вызвало бы коллинеарность, не позволяющую найти коэффициенты регрессии.
Ниже приведена программа, позволяющая изучить зависимость душевого дохода от возраста и семейного положения:
COMPUTE lnv14m = ln(v14/200).
COMPUTE t1 = (v11 = 1).
COMPUTE t2 = (v11 = 2).
COMPUTE t3 = (v11 = 3).
COMPUTE v9_2 = v9**2.
*квадрат возраста.
REGRESSION /DEPENDENT lnv14m /METHOD = ENTER v9 v9_2 t1 t2 t3 /SAVE PRED.
График связи возраста (V9) с предсказанным уравнением логарифмом доходов (переменная pre_2) получается командой
GRAPH /SCATTERPLOT(BIVAR) = v9 WITH pre_2 /MISSING = LISTWISE
Он представляет собой 4 параболы (рис. 6.2). В соответствии с коэффициентами перед t1, t2 и t3 (см. табл. 6.4), эти параболы соответствуют - сверху вниз - группам холостяков, разведенных, женатых и вдовцов (парабола холостяков получается при t1 = t2 = t3 = 0).
Вероятно, полученное уравнение можно улучшить, исключив из него переменные с незначимыми коэффициентами.
Поскольку индексные переменные должны быть в определенной степени взаимосвязаны, уровень наблюдаемой значимости может определяться здесь коллинеарностью, по-этому «ревизию» переменных нужно проводить осторожно, чтобы существенно не ухудшить полученного уравнения.Из-за взаимосвязи переменных здесь нет возможности говорить о том, какая переменная больше влияет на зависимую переменную. Обратите внимание на довольно редкий эффект:
р-коэффициенты для возраста и его квадрата по абсолютной величине больше 1
!
10 20 30 40 SO 60 70 80
Возраст
Рис. 6.2. Зависимость логарифма душевого дохода от возраста и семейного положения
Коэффициенты регрессии с индексными переменными
B Std. Error Beta T Sig. (Constant) -1,1721 0,1937 -6,0500 0,0000 V9 Возраст 0,0635 0,0105 1,4298 6,0299 V9_2 -0,0007 0,0001 -1,3243 -5,7351 T1 Женат -0,2030 0,0766 -0,1540 -2,6488 0,0000 T2 Вдовец -0,2471 0,1352 -0,0850 -1,8279 0,0000 T3 Разведен -0,1494 0,1134 -0,0661 -1,3176 0,1881 Кроме того, модель с тремя «параллельными» параболами, вероятно, не полностью адекватна - каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. Вопросам их конструирования посвящен следующий раздел.
Еще по теме 6.1.9. Можно ли в регрессии использовать неколичественные пере-менные?:
- 194. Способна ли непередача принадлежностей и документов повлечь расторжение договора, если имущество можно использовать по назначению?
- 6.2.3. Неколичественные данные
- 3.2 Анализ связи между неколичественными переменными3.2.1. CROSSTABS - таблицы сопряженности
- Как использовать источники – и не дать им использовать вас
- Неколичественные шкалы
- 3.2.1.4. Подкоманда /STATISTICS - исследование связи неколичественных переменных
- Виды регрессий.
- Использовать или не использовать фреймы?
- 3.4 Расчет коэффициентов уравнения регрессии
- Множественная регрессия.
- Нелинейная регрессия
- Выборочные уравнения регрессии
- 10. Для решения каких исследовательских вопросов могут быть использованы качественные методы? В каких случаях они должны быть использованы? Их достоинства и ограничения по сравнению с количественными методами.