1,2,4, Проверка предположений МНК по выборке остатков.
Все приведенные выше формулы получены при условии, что выполнены предположения HI, 112. НЗ метода наименьших квадратов. Проверка этих предположений является необходимым этапом установления зависимости между изучаемыми переменными, Отсутствие такой проверки делает бессмысленным все вычисления, поскольку они будут не обоснованными.
Проверка предположений МНК опирается на изучение свойств выборки остатков, которые задаются формулами (12) или (24), С практической точки зрения можно рекомендовать следующую последовательность действий.Этап А, Проверка предположения Н2,
Данное предположение напрямую связано со всеми формулами, которые позволяют вычислить оценки параметров линейной зависимости. Для проверки предположения Н2) можно использовать критерий Дарбина-Уотсона, Этот критерий приме-
Ho
токорреляция остатков означает, что любая последовательная пара остатков связана между собой линейной зависимостью, В этом случае формулы (10) и (22) использовать не рекомендуется, особенно, если объем выборки НЄ очень большой. Получаемые
bo b1 b2 bo b1 b2
не давать нх истинных значений. Следствием этого может являться неправильная
интерпретация результатов обработки данных и необоснованное применение формул
y
Алгоритм проверки гипотезы H0 об отсутствии автокорреляции остатков состоит в следующем. Зафиксируем уровень значимости а¦ 100%. Число а задает вероятность ошибки первого рода. Ошибка первого рода означает, что результаты обработки данных не согласуются с принятой гипотезой H0, и мы ее отвергаем. Из таблицы распределения Дарбипа-Уотсопа (таблица ПЗ) выбираются значения статистик dL, d^ для уровня значимости а, заданного объема выборки n и числа объясняющих переменных k (у нас k = 1 или k = 2, Вычисляется величина
n
?(ei — ei-1)2 d = , (34)
Qee
значения которой заключены в промежутке [0, 4], Величина Qee задается формулами (13) и (25).
Возможны четыре случая: 1) если d < dL, то гипотеза H0 отвергается в пользу гипотезы о положительной автокорреляции; 2) если d > 4 — dL, то гипотеза H0 отвер-гается в пользу гипотезы об отрицательной автокорреляции; 3) если d^ < d < 4 — du, то гипотеза H0 принимается; 4) если dL < d < d^ ши 4 — d^ < d < 4 — dL, то нельзя сделать определенный вывод (требуется привлечение дополнительных данных или применение других критериев).
Случаи 1) и 2) означают, что все вычисления по приведенным формулам не являются достаточно обоснованными и никаких содержательных выводов об изучаемой зависимости сделать нельзя.
Случай 3) говорит об обоснованности применения формул (10) и (22) для нахождения оценок параметров и о возможности дальнейшего анализа изучаемой зависимости. В случае 4) можно применять формулы (10) и (22), но последующие вычисления и выводы об изучаемой зависимости требуют определенной осторожности.Этап В. Проверка предположения НЗ.
Это предположение позволяет проверять значимость рассматриваемой зависимости по формулам (17), (33), строить доверительные интервалы для параметров по формулам (18), (32) и использовать формулы (19) и (33) для предсказания значений переменной у. Рассмотрим гипотезу H0, состоящую в том, что выборка остатков извлечена из генеральной совокупности с нормальным распределением. Зафиксируем уровень значимости а ¦ 100%. Число а задает вероятность ошибки первого рода. Ошибка первого рода означает, что результаты обработки данных не согласуются с принятой гипотезой H0, и мы ее отклоняем. Последнее говорит о том, что распределение генеральной совокупности отличается от нормального.
Если гипотеза H0 отклонена, то проверка значимости модели и предсказание зна- y
составляет случай так называемых больших выборок, т.е. выборок, объем которых n достаточно велик, n ~ 100. Для таких выборок можно использовать все формулы, опирающиеся на доверительные интервалы, но формулы (17) и (33) применять не рекомендуется.
Ниже приводятся два сравнительно простых способа, которые позволяют сделать вывод о нормальности распределения без существенных вычислительных затрат.
Первый способ опирается на критерий хи-квадрат. Алгоритм работы по этому способу следующий. По выборке остатков находим величины
1 П 1 n
е = -V ЄІ, = гУ^Є - e^ (35)
n n — 1
i=1 i=1
которые означают выборочное среднее и выборочную дисперсию остатков. Заметим, что величина е должна быть близка к нулю, т.е. е ~ 0, так как ее теоретическое значение равно нулю. Существенное отличие е от нуля связано либо с ошибками в вычислениях, либо с грубым округлением результатов вычислений.
Для нахождения s2 более удобно использовать формулу2 Qee — n (е)2 . .
s2 = w_, (36)
n — 1
где величина Qee задается формулами (13) и (25), Квадратный корень из s^ т.е. величина se = \/Sf называется выборочным ереднеквадратичееким отклонением. Далее строим промежутки:
(—то, е — se), [Є — se, е — 0.5 se), [е — 0.5 se, е),
[Є, е + 0.5 se), [е + 0.5 se, е + se), [е + se,
Затем определяем, сколько элементов из выборки остатков попадает в эти промежутки, Их количество обозначим соответственно через n1; n2, Пз, П4, n^ n6. Для контроля правильности подсчетов следует проверить выполнение соотношения
6
У^ПІ = n. (37)
i=1
Примем, что объем выборки n > 35 и вычислим величину
N 2 = + -nL+nl + — n. (38)
0.1587 n 0.1498 n 0.1915 n v ;
Если окажется, что N2 < 7.81, то можно считать, что выборка остатков получена из генеральной совокупности с нормальным распределением, В случае выполнения
N2 > 11.3 ков, т.е. гипотеза Ho, отвергается.
При объеме выборки 25 < n < 35 вычисляем величину
M 2 = (n1 + n2)2 + (n5 + n6)2 + n2 + n2 n (39)
0.3085 n 0.1915 n . ( )
Тогда, если M2 < 3.84, то считается, что выборка остатков получена из генеральной совокупности с нормальным распределением. Если же будет верно M2 > 6.63, то данное предположение (гипотеза H0) отвергается.
Если же будут выполнены неравенства 7.81 < N2 < 11.3 или 3.84 < M2 < 6.63, то гипотезу H0 можно принять (при уровне ошибки первого рода а = 0.01), но желательно провести дополнительное исследование с помощью других критериев, описанных в специальной литературе.
Второй способ ориентируется на характерные особенности графика плотности распределения случайных величин с нормальным распределением. Эти особенности проявляются в генеральных коэффициентах асимметрии и эксцесса, которые для нормального распределения равны нулю. Алгоритм работы по данному способу следующий, По выборке остатков вычисляем e, se, а также выборочные коэффициенты асимметрии - Ae и эксцесс а - Ee:
11 n 11 n
Ae = -з ¦ - ?(ei — e)3, Ee = -4 ¦ - ^(ег — e)4 — 3. (40)
s3 n ^ -4 n
e i=1 e i=1
Находим дисперсии этих коэффициентов
D(A \ = 6(n — 1) D(E .= 24 n (n — 2) (n — 3) (41)
D(Ae) = (n + 1) (n + 3), D(Ee) = (n +1) 2 (n + 3) (n + 5). (41)
Если окажется, что выборочные коэффициенты асимметрии и эксцесса удовлетворяют неравенствам
|Ae|< 3 ^D(Ae), |Ee|< 5 ^D(Ee), (42)
то можно считать, что выборка остатков получена из генеральной совокупности с нормальным распределением, В противном случае предположение о нормальности следует отвергнуть или считать сомнительным.
Необходимо учитывать тот факт, что вывод, полученный по данному способу, является весьма приближенным. Применение этого способа рекомендуется в случаях, когда объем выборки сравнительно мал nдругие критерии.
Этап С, Проверка предположения HI,
Данное предположение связано с однородностью результатов наблюдений (измерений) зависимой и объясняющих переменных. Это означает, что случайная составляющая є и ее значения є2,..., єп, формирующие выборку значений зависимой переменной у1; у2,..., yn, сохраняют неизменное математическое ожидание и дисперсию, Другими словами, все наблюдения (измерения) проводятся с одинаковой точностью, задаваемой дисперсией D(ej) = а2 = const > 0 1 < i < n- Это свойство называется гомоскедастичностью (однородностью) результатов наблюдений (измерений), В некоторых случаях дисперсия D(ej) величин є может зависеть от номера наблюдения (измерения) г, значений переменных у^, x1i, x2i и т.д. В этом случае говорят о том, что результаты наблюдений (измерений) являются неоднородными, и имеет место гетероскедастичность наблюдений (измерений).
Последствия гетероскедастичности проявляются в следующем. Формулы (10) и (22) можно использовать для нахождения оценок b0, b2. Однако стандартные ошибки оценок и зависимой переменной уже не могут вычисляться по формулам (14), (16), (27), (29), Это означает, что проверка значимости влияния объясняющих переменных и предсказание значений зависимой переменной по формулам (18), (19), (32), (33) становится невозможным.
Рассмотрим гипотезу H0, состоящую в том, что гетероскедастичность отсутствует, Зафиксируем уровень значимости а ¦ 100%. Число а задает вероятность ошибки первого рода. Ошибка первого рода означает, что результаты обработки данных не
согласуются с принятой гипотезой H0, и мы ее отклоняем. Отклонение этой гипотезы свидетельствует о том, что результаты наблюдений (измерений) не являются гомоекедаетичными.
Ниже приводятся два теста, позволяющие проверять гипотезу H0, В обоих тестах изучается взаимосвязь между значениями остатков e и значениями одной из объясняющих переменных ^ или x2. Если рассматривается зависимость y от двух переменных, то каждый из тестов нужно применять последовательно к паре (e, x1) и паре (e, x2). Для определенности возьмем пару (e, x1). Из таблицы 1 формируем выборку значений переменной x1. Записываем эту выборку и выборку остатков в следующей форме
Х11, Х12,... ,X1i,... ,X1n, (43)
e1, e2,... ,Єі, ... ,en, (44)