1.2. ЛИНЕИНАЯ РЕГРЕССИОННАЯ ЗАВИСИМОСТЬ
1,2,1, Основные предположения.
Примем, что связь между зависимой и объясняющими переменными имеет следующий вид:
у = bo + bu + є = bo + b1 Х1 + ... + bi xi + ... + bk Xk + є. (6)
Здесь b0, b1,..., bi,..., bk - параметры линейной зависимости (линейной регрессии), величина є - случайная ошибка наблюдений (измерений).
Все эти параметры являются, вообще говоря, неизвестными и подлежат определению по выборочным данным. Если для некоторого 1 < i < k окажется, что bi = 0, то формула (6) будет говоритьсуществовании зависимости между переменными xi и у. При bi = 0 нельзя говорить о зависимости между pxi( выраженной в линейной форме. Если же для всех
< i < k bi = 0 y
y xi
но в другой, более сложной форме.
Нахождение оценок параметров и обоснование зависимости (6) опирается на сле-
є
є
M(є) = 0, ?(є) = а2 = const > 0. (7)
Н2) любые пары значений єі; є.,- величины є являются некоррелированными, т.е. при i = j имеет место равенство M(єі є,) = 0, в частности, это верно и для пар єі = yi — b0 — b^ и є. = у, — b0 — bu, где yi, у,, ui, u. взяты из таблицы 1;
є
мул ой (7),
Выполнение предположений HI) и Н2) позволяет применить метод наименьших квадратов (МНК) и получить формулы для оценок параметров зависимости (6), Предположения HI) и Н2) называют основными предположениями МНК,
Выполнение предположения НЗ) дает возможность обосновать наличие или от-
y x1, x2, . . . , xk
формулой (6),
1,2,2, Формулы для одной объясняющей переменной. Изучаем зависимость вида
у = bo + b1 Х1 + є. (8)
y x1
ставленные в соответствующих столбцах таблицы 1, Обозначим
1 П 1 n
Х1 = - V X1i, у= - V УІ , (9 а)
n ^ n
i=1 i=1
nn
QxIxI = X1i — n (X1)2, QxIy = 5^(x1iУі) — nX1 y, (9 b)
i=1 i=1
Оценки параметров bo, b1, входящих в уравнение регрессии (8), равны
b1 = QQ^, bo = y - b1 X1. (10)
QX1X1
Используя полученные оценки, сформируем выборку остатков
Є1, Є2, .
. . ,Єі, . . . ,Єп, (11)yi
по формуле (8), т.е.
ЄІ = Уі - bo - b 1 X1i, 1 < i < n. (12)
По выборке (11) вычислим остаточную сумму квадратов
n
Qee = ? Є2, (13)
i=1
которая будет использована в последующих расчетах.
Оценки (10) дают приближенные значения параметров bo, b1, т.е. bo ~ bo, b1 ~ b1. На основании этих приближенных равенств нельзя получить уверенного заключения
b1 b1 = 0 это неравенство и будет говорить о наличии или отсутствии линейной зависимости между у и яь Точность оценивания параметра b1 зависит от объема выборки n и характеризуется стандартной ошибкой оценки Ь^ Стандартная ошибка a1 оценки b1 находится по формуле
a1 = - Q)eeQx1x1. (14)
Зафиксируем значение объясняющей переменной x1 = х\. Тогда выражение
у = bo + b1 х\ (15)
будет задавать приближенное значение зависимой переменной у, т.е. у ~ у. Точность y
ется ay. Стандартная ош ибка ay задается формулой
Qee Л , 1 , (х* - Х1)2
ay ^ ПЇЄЄ2 1 + П ^ Q " . (16)
w n - ^ n Qxixi У
Перейдем к обоснованию наличия или отсутствия линейной зависимости (8) между переменными у и хь Выдвигаем гипотезу Ho об отсутствии такой зависимости. Это равносильно тому, что b1 = 0. Зафиксируем уровень значимости а • 100%, Число а задает вероятность ошибки первого рода. Ошибка первого рода означает, что представленные данные и результаты их обработки не согласуются с принятой гипотезой Ho, и мы ее отвергаем. Проверка гипотезы Ho опирается па два способа. При первом способе вычисляем величину
F = b2 QX1X1 (n - 2) (17)
Qee
Эту величину будем сравнивать с критическим значением Fa распределения Фишера с/1 = 1и f2 = n — 2 степенями свободы на уровне значимоети а (таблица П1), Если окажется, что выполнено неравенство F < Fa, то гнпотезу H0 принимаем, и линейную зависимость (8) называем не значимой. Если же F > Fa, то гипотезу H0 отклоняем и считаем, что между переменными ж1 и y имеется линейная зависимость, и эту зависимость будем называть значимой.
При втором способе строим границы доверительного интервала для параметра 61 по формуле
61 Є І1 = (61 — ta СТЬ 61 + ta СТ1), (18)
где ta - критическое значение распределения Стьюдепта с n — 2 степенями свободы на уровне значимости а (таблица П2).
Интервал I1 накрывает пара метр 61 с вероятностью p =1 — а. Если окажется, что доверительный интервал I1 содержит в себе число ноль, то считается, что 61 = 0 и, как следствие, гипотеза H0 принимается. Если же доверительный интервал I1 не содержит в себе число ноль, то полагается, что 61 = 0 и поэтому гипотеза H0 отклоняется.Предположим, что между переменными ж1 и y установлена значимая линейная зависимость. Тогда по заданному ж1 = жЦ можно указать границы для ожидаемого значения y с учетом влияния случайной составляющей є. Эти границы устанавливаются в форме доверительного интервала
y Є = (y — ta ay, y + ta ay), (19)
который содержит значение переменной y с вероятностью p = 1 — а. Критическое значение ta описано выше, вели чины y, ay заданы формулами (15) и (16), Границы доверительного интервала c1 = y — ta ay, c2 = y + ta ay, как функции от величины жЦ, приведены на рис, 3, Из него видно, что точность предсказания возможных значений y убывает по мере удаления точки жЦ от точки ж1.