Линейная регрессия
Представим одну из случайных величин как линейную функцию другой случайной величины X:
Y= g(x) = cx + px, (5.6)
где а, Р — параметры, которые подлежат определению.
В общем случае эти параметры могут быть определены различными способами, наиболее часто используется метод наименьших квадратов (МНК).
Функцию g(x) называют наилучшим приближением в смысле МНК, если математическое ожидание М[У — g(x)]2 принимает наименьшее возможное значение.
В этом случае функцию g(x) называют средней квадратической регрессией У на X.
Можно доказать, что линейная средняя квадра- тическая регрессия имеет вид:g(x) = a + $x = mv - r—mx + r—x, (5.7)
°х °х
где тх) ту - математические ожидания случайных величин X, У соответственно;
ох, ау — средние квадратические отклонения случайных величин X, У соответственно;
г — коэффициент парной корреляции, который определяется по формуле
м
г =
(5.8)
охоу
где Мф - ковариация.
Мху = М[(Х — тх) • (У — my)]t (5.9)
тогда 6 = г— — коэффициент регрессии. Возникает проблема определения параметров а и Р на основе выборки.
Рассмотрим определение параметров выбранного уравнения прямой линии средней квадратической регрессии по несгруппиро- ванным данным. Пусть изучается система количественных признаков (X, У), т. е. ведутся наблюдения за двухмерной случайной величиной (X, У). Пусть в результате п наблюдений получено п пар чисел (х{, у{), (х2, у2), ..., (хп, уп).
Требуется по полученным данным найти выборочное уравнение прямой линии средней квадратической регрессии:
у х = кх + Ъ.
Поскольку данные несгруппированные, т. е. каждая пара чисел встречается один раз, то можно перейти от условной средней к переменной у. Угловой коэффициент к обозначим через к — р и на-
Оу
зовем его выборочной оценкой коэффициента регрессии Р = г—.
стх
Итак, требуется найти:
(5.10)
у = рх + Ь.
Очевидно, параметры р и b нужно подобрать так, чтобы точки (*і> л), (*2, Уі)> —у (хп> Уп)> построенные по исходным данным, лежали как можно ближе к прямой (5.10) (рис.
5.1).Y t
Рис. 5.1. Динамика изменения признака Y
Уточним смысл этого требования. Для этого введем следующее понятие. Назовем отклонением разность вида:
Y^ у № = 1,2, ..., л),
где Yt — вычисляется по уравнению (5.10) и соответствует наблюдаемому значению де,-; у і — наблюдаемая ордината, соответствующая хг
Подберем параметры р и b так, чтобы сумма квадратов указанных отклонений была наименьшей:
SOW/)2-* min. <=i
В этом состоит требование метода наименьших квадратов (МНК).
Эта сумма есть функция F отыскиваемых параметров р и Ь:
F(p,b)=i(Yi-yi)2 /=1
или
Р(р,Ь)=Ъ(рх{+Ь-у() . /=1
Для отыскания min найдем частные производные и приравняем их к нулю:
'dF п
= 2yZ(pxi+b-yi)xi=0,
Ф /=1
dF п
= 2^(рхі+Ь-Уі) = 0. db /=1
Далее запишем систему:
п
1x1
v/=l у
/ \ п
X*/
7=1 J
р+
Ь-ІХіУі =0, 1=1
p + nb- ІУі =0. /=і
п п п п
Для простоты вместо X X/, 2 */ > ? xtyh 1У і будем писать
/=1 /=1 /=1 /=1
Их, Их2, Ъсу, Ну (индекс і опускаем), тогда:
Получили систему двух линейных уравнений относительно р и Ъ. Решая эту систему, получим:
ІУІх2-Ixlxy
Метод наименьших квадратов применяется и для нахождения параметров множественной регрессии. В этом случае число линейных уравнений возрастает, и такие системы уравнений решаются с помощью ЭВМ.