<<
>>

Линейная регрессия

Пусть задана система случайных величин А" и Y и случайные величины X и Y зависимы.

Представим одну из случайных величин как линейную функцию другой случайной величины X:

Y= g(x) = cx + px, (5.6)

где а, Р — параметры, которые подлежат определению.

В общем случае эти параметры могут быть определены различными способами, наиболее часто используется метод наименьших квадратов (МНК).

Функцию g(x) называют наилучшим приближением в смысле МНК, если математическое ожидание М[У — g(x)]2 принимает наименьшее возможное значение.

В этом случае функцию g(x) называют средней квадратической регрессией У на X.

Можно доказать, что линейная средняя квадра- тическая регрессия имеет вид:

g(x) = a + $x = mv - r—mx + r—x, (5.7)

°х °х

где тх) ту - математические ожидания случайных величин X, У соответственно;

ох, ау — средние квадратические отклонения случайных величин X, У соответственно;

г — коэффициент парной корреляции, который определяется по формуле

м

г =

(5.8)

охоу

где Мф - ковариация.

Мху = М[(Х — тх) • (У — my)]t (5.9)

тогда 6 = г— — коэффициент регрессии. Возникает проблема определения параметров а и Р на основе выборки.

Рассмотрим определение параметров выбранного уравнения прямой линии средней квадратической регрессии по несгруппиро- ванным данным. Пусть изучается система количественных признаков (X, У), т. е. ведутся наблюдения за двухмерной случайной величиной (X, У). Пусть в результате п наблюдений получено п пар чисел (х{, у{), (х2, у2), ..., (хп, уп).

Требуется по полученным данным найти выборочное уравнение прямой линии средней квадратической регрессии:

у х = кх + Ъ.

Поскольку данные несгруппированные, т. е. каждая пара чисел встречается один раз, то можно перейти от условной средней к переменной у. Угловой коэффициент к обозначим через к — р и на-

Оу

зовем его выборочной оценкой коэффициента регрессии Р = г—.

стх

Итак, требуется найти:

(5.10)

у = рх + Ь.

Очевидно, параметры р и b нужно подобрать так, чтобы точки (*і> л), (*2, Уі)> —у (хп> Уп)> построенные по исходным данным, лежали как можно ближе к прямой (5.10) (рис.

5.1).

Y t

Рис. 5.1. Динамика изменения признака Y

Уточним смысл этого требования. Для этого введем следующее понятие. Назовем отклонением разность вида:

Y^ у № = 1,2, ..., л),

где Yt — вычисляется по уравнению (5.10) и соответствует наблюдаемому значению де,-; у і — наблюдаемая ордината, соответствующая хг

Подберем параметры р и b так, чтобы сумма квадратов указанных отклонений была наименьшей:

SOW/)2-* min. <=i

В этом состоит требование метода наименьших квадратов (МНК).

Эта сумма есть функция F отыскиваемых параметров р и Ь:

F(p,b)=i(Yi-yi)2 /=1

или

Р(р,Ь)=Ъ(рх{+Ь-у() . /=1

Для отыскания min найдем частные производные и приравняем их к нулю:

'dF п

= 2yZ(pxi+b-yi)xi=0,

Ф /=1

dF п

= 2^(рхі+Ь-Уі) = 0. db /=1

Далее запишем систему:

п

1x1

v/=l у

/ \ п

X*/

7=1 J

р+

Ь-ІХіУі =0, 1=1

p + nb- ІУі =0. /=і

п п п п

Для простоты вместо X X/, 2 */ > ? xtyh 1У і будем писать

/=1 /=1 /=1 /=1

Их, Их2, Ъсу, Ну (индекс і опускаем), тогда:

Получили систему двух линейных уравнений относительно р и Ъ. Решая эту систему, получим:

ІУІх2-Ixlxy

Метод наименьших квадратов применяется и для нахождения параметров множественной регрессии. В этом случае число линейных уравнений возрастает, и такие системы уравнений решаются с помощью ЭВМ.

<< | >>
Источник: Бережная Е.В., Бережной В.И.. Математические методы моделирования экономических систем: Учеб. пособие. — 2-е изд., перераб. и доп. — М.: Финансы и статистика,2006. - 432 е.. 2006

Еще по теме Линейная регрессия: