<<
>>

Исходные предположения и специальные задачи множественного регрессионного анализа

Множественная регрессия является одним из самых распространенных инструментов экспериментального исследования не только функции спроса, но также функций производительности, цены и многих других.

Хотя это и мощный инструмент, но и он тоже имеет некоторые весьма специфические ограничения. Если пренебречь каким- либо из них, то возникают особые трудности. Это, в первую очередь, проблема мультиколлинеарности, гетеросцедастичности и автокорреляции. Подробное исследование этих проблем выходит за пределы данной работы. Тем не менее следует дать краткое объяснение предположений, на которых строится регрессионная модель, так же как и краткий обзор проблем, возникающих при пренебрежении этими исходными положениями.

Правильность построения регрессионной модели основана на определенных статистических допущениях. Во-первых, регрессионный анализ требует определения набора независимых переменных (Хг Хѵ ..., Xk), каждая из которых состоит из дискретного набора значений. Хотя переменные X. и могут быть случайными величинами, но раз уж их значения выбраны (путем наблюдений), то они не изменяются.

Наблюденное значение зависимой переменной определяется не только выбранной комбинацией значений специфицированных независимых переменных, но также и других независимых переменных, которые не были определены, а также различными случайными изменениями. Следовательно, для любой заданной комбинации значений независимых переменных возможно несколько значений зависимой переменной. Предположим, например, что мы постулировали зависимую переменную Q как функцию двух переменных:

Если мы опросим большое количество домохозяек с одинаковым доходом, сколько они будут покупать хлеба по данной цене, то мы получим множество разных ответов. Конечно, на практике опрос не будет ограничен только домохозяйками с одинаковым доходом или хлебом с одинаковой ценой.

Вместо этого мы рассмотрим разные комбинации дохода и цены, а также значения Q, соответствующие каждой комбинации значений X. Полученные данные будут введены в программу для выполнения множественно-регрессионного анализа по формуле

используется для оценки Q, значения независимых переменных известны совершенно точно, а значение Q может быть оценено с ошибкой. Это происходит, во-первых, потому, что упущена по крайней мере еще одна существенная переменная, например цена на белый хлеб, а во-вторых, сама оценка Q подвержена случайным вариациям.

1. Случайные флуктуации наблюденного значения Q распределены по случайному закону с математическим ожиданием, равным нулю. Иными словами, отклонения (^относительно Qj одновременно положительны и отрицательны, и поэтому они взаимно уничтожаются.

2. Распределение погрешности имеет постоянную дисперсию. Для каждой комбинации значений ^существует распределение значений р, и его дисперсия одинакова для всех таких распределений. Это явление называется гомосцедастичностью («homo» означает подобие, «scedasticity» означает разброс, рассеивание). Если условие го- мосцедастичности не выполняется, то функция называется гетеросцедастичной («hetero» означает различие).

3. Погрешности не зависят от значений независимых переменных, Хи, и друг от друга.

4. Независимость означает, что не может быть сильной линейной взаимосвязи между независимыми переменными. Например, если Ху всегда в три раза больше, чем Ху, то это означает невыполнение условия данного пункта и что линейная регрессия является ошибочной2.

5. Другое часто принимаемое условие: Е (р) = 0. Отсюда вытекает линейное уравнение

Теперь, зная налагаемые на регрессионный анализ ограничения, мы готовы к краткому исследованию того, что же произойдет, если какое-либо из них будет выполняться.

Мультиколлинеарность

Четыре из пяти приведенных ранее условий заключаются в том, что переменные не должны влиять друг на друга. Следовательно, не должно существовать никакой линейной взаимосвязи между какой-либо независимой переменной и другой независимой переменной или линейной комбинацией независимых переменных. Если это условие не выполняется (т.е. две или более независимых переменных коррелированы), то проявляется мультиколлинеарность.

Выявление мультиколлинеарности особенно важно для множественных регрессий в области экономики и бизнеса, там, где они наиболее часто применяются. Например, независимые переменные «семейный доход» и «семейное имущество» должны быть в [70]

высокой степени коррелированы, так же как и независимые переменные «объем продаж» и «количество продавцов». Наиболее явные признаки мультиколлинеарности следующие.

1. Высокое значение R2 при неудовлетворении независимыми переменными условий Л-тестирования, на статистическую значимость.

2. Один или более регрессионных коэффициентов имеют неверный знак.

Еще одна хорошая проверка на мультиколлинеарность заключается в проверке корреляционной матрицы, которая в общем порядке или по особой команде выводится на распечатку. В табл. 8.3 представлена корреляционная матрица для линейной регрессии, ранее представленной в табл. 8.2.

Таблица 8.3

Компьютерная распечатка типичной корреляционной матрицы при анализе множественной регрессии

Строки и столбцы корреляционной матрицы относятся соответственно к перемен- - ным Хѵ Х2 и Q . Каждое число в матрице представляет собой коэффициент корреляции между переменными, находящимися в строках и столбцах матрицы. Так как каждая переменная отлично скоррелирована сама с собой, главная диагональ матрицы состоит из единиц или величин, очень близких к единице. Матрица симметрична, поэтому в распечатке коэффициенты выше и ниже главной диагонали равны. Подозрение в мультиколлинеарности возникает при высоком коэффициенте корреляции между двумя независимыми переменными.

В таблице коэффициент корреляции между X, и Х2 составляет 0,56856, поэтому нет причин подозревать мультиколлинеарность. Если подозревается мультиколлинеарность, то следует удалить одну переменную из анализа.

Гетерос цедастичнос ть

Наше второе базовое условие состоит в том, что все распределения ошибки имеют одинаковую дисперсию, а2. Если это условие не выполняется, то возникает ситуация гетеросцедастичности. Последствиями гетеросцедастичности являются завышенные результаты испытаний на статистическую значимость. Так, весьма вероятно, что Е-кри- терий даст завышенную статистическую значимость регрессии в целом, а /-критерии отдельных параметров скорее всего дадут завышенную статистическую значимость каждого коэффициента регрессии1.

Хотя не составляет труда определить последствия гетеросцедастичности, однако не так просто установить ее существование. Причина здесь в том, что не существует способа определения действительной дисперсии ошибки, которую мы приняли одинаковой для всех распределений.

Иногда сама природа исследований подсказывает возможность существования гетеросцедастичности. Предположим, к примеру, что малые, средние и большие фирмы вобраны в одну группу при кросс-секционном анализе зависимости прибыли от капиталовложений, объема продаж, стоимости продукции, процентных ставок и других подобных переменных. Гетеросцедастичность можно ожидать вследствие различий в размерах фирм, которые, в свою очередь, могут вызвать различия в распределении данных по большинству из переменных.

Отклонения или квадраты отклонений в обычном порядке или по команде -выводятся на распечатку большинства компьютерных программ. Существуют несколько способов выявления гетеросцедастичности. Эти способы включают графический метод, критерий Парка и метод корреляции рядов Спирмена. Существуют также исправляющие методы, которые применимы, когда гетеросцедастичность уже обнаружена. Объяснение этих способов и методов не входит в задачу данной книги. Необходимую информацию по ним можно найти в учебниках по эконометрике1.

Автокорреляция

Третье основное условие состоит в том, что ошибки или погрешности должны быть независимы, т.е. погрешность одного наблюдения не должна влиять на погрешность любого другого наблюдения. Если мы имеем дело с временными рядами, то события, происшедшие в момент времени / — 1, не должны оказывать влияния на события, происшедшие в момент времени /. В противном случае существует автокорреляция[71]. Если такое влияние существует, то это ведет к завышению значений F и /. F- и /-критерии перестают быть правильными и могут привести к ошибочным выводам.

Существуют несколько причин наличия автокорреляции временных рядов.

1. Инерция. Движение переменных вверх или вниз создает остаточный момент, который приводит к влиянию предыдущего наблюдения на последующее. Например, когда начинается выход из экономического спада, увеличение занятости в один период ведет к увеличению спроса на товары и услуги; что ведет к увеличению занятости в следующий период. Остаточный момент сохраняется до тех пор, пока он не будет скомпенсирован такими факторами, как сокращение потребности в квалифицированном труде, жесткая денежная политика во избежание инфляции, сокращение поставок сырья и т.п.

2. Конкретизация систематических ошибок, возникающих вследствие исключения переменных.

Пытаясь улучшить регрессионный анализ, исследователь может исключить переменные, которые не следовало бы исключать. Например, предположим, что мы имеем модель спроса

[1] Особенно удачно этот вопрос раскрыт в: Damodar Gujarati, Basic Econometrics (New York: McGraw-Hill, 1978), pp. 200—206.

4. Феномен паутины. Зависимая переменная, например запас товара, реагирует на изменение независимой переменной, например цены, с запаздыванием на один период. Это явление наиболее часто встречается в сельскохозяйственном производстве, где решение фермера об объеме посадок в большой степени зависит от прошлогодних цен.

Это приводит к тому, что рассогласованный член, р, регулярно скачет вверх-вниз, так как в один год в сельском хозяйстве наблюдается перепроизводство продукции, а на следующий год производство падает.

5. Другие задерживающие воздействия на временные ряды. Например, в регрессии временных рядов спроса как функции дохода расходы на потребление (спрос) й некоторый период нередко зависят от расходов на потребление в предыдущий период.

6. Манипулирование данными. В эмпирическом анализе первоначальные данные часто подвергаются такой обработке, как усреднение, интерполяция или экспраполя- ция. Эти операции базируются на модификации текущей информации на основе уже имеющихся данных, что является прямым продолжением автокорреляции.

Таким образом, этот недостаток чаще встречается при работе с независимыми данными временных рядов, чем кросс-секционными данными. Автокорреляция может быть выявлена с помощью следующих тестов.

1. Необходимо определенным способом организовать данные регрессионого анализа с целью обнаружения в них регулярности (рис. 8.5).

2. Другой способ выявления автокорреляции - это d-тест Дурбина-Ватсона; (/-статистика Дурбина-Ватсона определяется как

где et - оцененная ошибка или погрешность регрессии, являющаяся приближением неизвестного члена рассогласования ц(. Индексы /— 1, t указывают на последовательность расположения погрешностей; d — отношение сумм квадратов отклонений последовательных погрешностей к сумме квадратов погрешностей. (Отметим, что количество наблюдений, стоящее в знаменателе, есть и, а в числителе стоит п — 1, так как одно наблюдение при последовательном вычитании теряется.)

В большинство компьютерных регрессионных программ заложен расчет статистики Дурбина-Ватсона. Она применяется для проверки нулевой гипотезы о том, что в ряду не существует корреляции первого порядка (автокорреляции) между коэффициентами рассогласования, ц,. Подобно /"-критерию и /-критерию, рассмотренным ранее, данный критерий состоит в сравнении расчетных значений d с критическими значениями из таблицы. Однако, в отличие от /"-критерия и /-критерия, в данном случае не существует единственного критического значения, по которому можно было бы принимать или отвергать нулевую гипотезу.

Рис. 8.5. Примеры автокорреляции

На рис. 8.6 показано, что максимальное значение d равно 4. В центре этого распределения лежит зона принятия нулевой гипотезы. Слева лежит зона отказа от нулевой гипотезы, так как положительная автокорреляция здесь очевидна. Справа находится зона отказа от нулевой гипотезы, так как здесь очевидна отрицательная автокрреля- ция. Но между этими зонами лежит зона неопределенности, в которой d-тест не позволяет прийти к какому-либо решению.

Дурбин и Ватсон обозначили нижний предел левой зоны неопределенности как dv а ее верхний предел — как d^ Правая зона неопределенности ограничена слева значением 4 — du, а справа — значением 4 — dL. Пределы dL и du зависят только от количества наблюдений (которое должно быть не менее 15) и от количества пояснительных переменных. Дурбин и Ватсон составили таблицу критических нижнего (dL) и верхнего (dj значений для выборок размером от 15 до 100 значений при количестве переменных от 1 до 5 на уровне значимости 0,05 и 0,01. Эти таблицы представлены в Приложении в конце книги (табл. Н).

Отметим, что «/-критерий реализуется путем сравнения расчетных значений, выведенных на распечатку, с критическими значениями из табл. Н.

Рис. 8.6. Способы решений по «/-статистике Дурбина—Ватсона

Проверка осуществляется для каждой гипотезы отдельно или в совокупности.

Н0: положительной автокорреляции не существует;

Н*\ отрицательной автокорреляции не существует.

Если нулевая гипотеза, Н0, состоит в том, что в ряду не существует положительной корреляции, то если

Предположим, мы провели регрессионный анализ выборки из 30 точек для четырех независимых переменных. Для уровня значимости 0,05 находим dL = 1,14 и du= 1,74. Наша распечатка дает статистику Дурбина-Ватсона 0,98. Что можно сказать об этом?

Тестовый параметр 0,98 меньше, чем dL. Следовательно, мы не имеем оснований предполагать существования положительной автокорреляции.

Далее изложен краткий обзор методов корректировки автокорреляции. Подробное их рассмотрение не входит в круг задач данной книги, но его можно найти в работах по эконометрике[72].

Когда обнаружена автокорреляция, сначала надо рассчитать простую (парную) линейную регрессию для каждой переменной и определить, какая из них несет автокорреляцию. В общем случае дальнейшая корректировка требует преобразования данных для того, чтобы избежать передачи эффектов от одного наблюдения к другому. Обычно предполагают, что погрешность, р истинного уравнения рег-

Из уравнения (25) следует, что абсолютная величина р меньше 1 и что є, имеет постоянную дисперсию и нулевое математическое ожидание и не является автокоррелированной. Если известно р, то с помощью линейной регрессии обобщенного разностного уравнения

можно найти р..

Проблема в том, что р обычно неизвестно и поэтому приходится искать какие- ,то другие способы. Один из таких способов называется методом первой разности. Метод первой разности требует допущения р = 1. При этом уравнение (26) сводится к виду

Уравнение (27) легко использовать. Все, что здесь требуется, это рассчитать первые разности для зависимой и независимых переменных и затем использовать эти значения в регрессионном анализе. Однако, к сожалению, если предложение р = 1 неверно, то результаты построения регрессии по уравнению (27) будут отстоять от истинных значений дальше, чем в первоначальной регрессии. Лучше провести оценку р с помощью rf-статистики Дурбина—Ватсона как

Уравнение (28) подходит для больших выборок, но может оказаться неверным для малых. Поэтому была предложена лучшая формула':

[1] Н. Thiel and A. L. Nagar, «Testing the Independence of Regression Disturbances», Journal of the

American Statistical Association 56 (1961), pp. 793-806.

Выводы

Множественный регрессионный анализ является методом анализа спроса как функции независимых переменных, изменяющихся более или менее одновременно. Из-за сложности расчетов множественный регрессионный анализ лучше проводить с помощью компьютера. Для этой цели разработано много программ.

Статистические аспекты множественно-регрессионных моделей хорошо описаны в учебниках по статистике и эконометрике. Тем не менее при создании регрессионной модели, интерпретации и проверке ее результатов исследователю, кроме теоретических знаний в области экономики, необходимо обладать рассудительностью и воображением.

Основные экономические переменные, влияющие на спрос, включают демографические факторы, покупательную способность, цены, наличие благоприятных условий для торговли и качество товара. Регрессионная модель спроса имеет вид

Сбор данных. Сбор данных — это компромисс между ценой ошибки и затратами на сбор данных. Нестрогое правило состоит в том, что минимальный размер выборки должен быть в три или в четыре раза больше количества независимых переменных. Так как регрессия очень легко может быть рассчитана на компьютере, исследователь должен иметь априорные соображения о разумности включения в расчет каждой независимой переменной.

Интерпретация результатов. Выполнив компьютерный расчет множественной регрессии, исследователь должен интерпретировать и проверить полученные результаты. Проверка на правильность включает три основных вопроса.

1. Имеют ли параметры регрессии не противоречащий здравому смыслу знак и разумную величину?

2. Насколько хорошо изменения спроса объясняются изменениями независимых переменных - каждой по отдельности и вместе взятых?

3. Имеют ли статистическую значимость коэффициенты регрессии и уравнение регрессии в целом?

Оценка результатов. Компьютерная программа выдает определенную тестовую информацию, которая может помочь при оценке результатов. В целом для регрессии эта информация включает в себя:

множественный коэффициент детерминации (R[73] [74] [75])г; среднюю квадратичную ошибку оценки;

/^-критерий.

Для оценки отдельных переменных и параметров распечатка содержит: среднюю квадратичную ошибку каждого коэффициента регрессии;

^-критерий для каждого коэффициента регрессии;

коэффициент корреляции (г) каждой переменной со всеми остальными переменными. Исходные предположения и специальные задачи множественного регрессионного анализа. Правильность регрессии основана на определенных исходных допущениях, касающихся входных данных. Если какие-либо из этих допущений не выполняются, то возникают особые проблемы.

Мультиколлинеарность появляется тогда, когда две переменные не являются полностью независимыми друг от друга. Они изменяются настолько одинаково, что регрессия не способна провести различие между их воздействиями на Q. Решение проблемы заключается в том, чтобы убрать из регрессии одну из этих переменных. Гетеросцедастичность возникает при невыполнении условия, что все распределения погрешности должны иметь одинаковую дисперсию. Следствием является то, что обычные t- и Е-критерии преувеличивают статистическую значимость коэффициентов регрессии. Некоторые способы решения этой задачи рассмотрены в работах по эконометрике наряду с методами коррекции. Эти способы включают графический метод, критерий Парка и тест корреляции рядов Спирмена. Автокорреляция. Если мы работаем с данными временных рядов, то основное допущение заключается в том, что события, происходящие в момент времени t — 1, не влияют на события, происходящие в момент времени t. Если это условие не выполняется, то существует автокорреляция или корреляция данных, и ни Е-критерий на статистическую значимость регрессии, ни Г-критерий на статистическую значимость коэффициентов регрессии не работают, т.е. не могут дать правильного ответа.

Существуют несколько причин возникновения автокорреляции, включая явление инерции, систематические ошибки, феномен паутины, различные задержки и манипулирование данными в различных целях. Автокорреляция может быть выявлена путем организации выходных данных таким способом, чтобы проявилась некоторая закономерность в их распределении, либо с помощью d-теста Дурбина-Ватсона. Коррекция требует преобразования входных данных для уничтожения переходных эффектов с одного временного интервала на другой, следующий за ним.

<< | >>
Источник: Сио К.К.. Управленческая экономика: Пер. с англ. - М.,2000. — 671 с.. 2000

Еще по теме Исходные предположения и специальные задачи множественного регрессионного анализа: