1.1. ПОСТАНОВКА ЗАДАЧИ
Пусть изучается некоторый объект V, который характеризуется величинами
x, у,..., z, w,
отражающими его свойства. Нас будут интересовать зависимости между этими величинами и те формулы, которые их задают.
Такие зависимости можно представить в виде двух основных форм.Первая форма зависимости - это функциональная зависимость, когда одна из величин явно (неявно, параметрически и т.д.) выражается через остальные. Здесь, как правило, имеется вполне конкретная формула, связывающая между собой рассматриваемые величины. Часто бывает так, что вид формулы известен с точностью до входящих в нее коэффициентов, и тогда эти коэффициенты требуется найти по результатам наблюдений (измерений), В более сложном варианте конкретный вид формулы может вызывать определенные трудности, и тогда следует рассматривать набор формул и выбирать какую-то одну из них.
Вторая форма зависимости - это стохастическая зависимость, которая, как правило, не описывается конкретной формулой. Здесь зависимость между величинами проявляется в том, что изменение одной из величин влияет на возможные значения оставшихся величин. Если же зависимость между величинами отсутствует, то изменение одной из них никаким образом не отражается на возможных значениях остальных. Более точно такая зависимость проявляется в изменении закона распре-деления одной величины под влиянием конкретных значений других величин. Если же зависимость между величинами отсутствует, то изменение одной из них не отражается на законах распределения остальных.
Существуют также и другие варианты зависимостей, сочетающие в себе функциональную и стохастическую зависимости. Кроме того, возможен вариант зависимостей, когда значения одной, двух или трех величин достаточно хорошо описываются одной так называемой объясняющей переменной,
В простейшем случае зависимость между двумя величинами у их строится в виде
У = f (х) + є, (1)
где f (х) - некоторая функция, Величина є учитывает погрешность приближенной связи у « f (х) и включает в себя все неучтенные или неизвестные факторы.
Очевидно, что выбор функции f (х) представляет собой довольно трудную задачу, для решения которой необходимо уметь оценивать свойства погрешности є. Обычно функцию f (х) выбирают так, чтобы дисперсия по грешности О(є) = D(y — f (х)) была бы как можно меньше, то есть D(y — f (х)) ^ min. Как известно, решение данной задачи дает функцияf (х) = M (у/х), (2)
где выражение M(у/х) означает условное математическое ожидание величины у при фиксированном значении величины х. Функция f (х) называется регрессией у на х. На практике нахождение f (х) по формуле (2) довольно затруднительно или вообще
невозможно, поскольку необходимо иметь информацию о совместном распределении пары (x, y) в соответствующей генеральной совокупности. Поэтому, как правило, f (x) подбирают среди некоторого класса достаточно простых функций и затем по выборочным данным определяют ее коэффициенты, В конкретных задачах часто используют линейные, квадратичные, показательные, тригонометрические и др. функции. Например, формула связи y = a0 + a1x + a2x2 + є, содержащая параметры a0, a1, a2, отражает квадратичную зависимость y от x,
y
величины u = (x1, x2,..., xk), и эта зависимость строится в виде
У = f (b,u)+ є, (3)
где b = (b1, b2,..., bg) - вектор неизвестных параметров, Функция f (b, u) называется
y u y
x1, x2, . . . , xk
Выбор функции f (b, u) и оценка ее параметров опирается па набор данных, представленных в следующей таблице.
Таблица 1
Набор данных для регрессионного анализа N У х1 X2 Xk 1 y1 X11 X21 Xk1 2 У2 X12 X22 Xk2 i УІ x1i x2i xki n Уп х1п х2п xkn Предполагается, что значения величин (yi, x1i, x2i,... ,xki) получены одновременно при конкретном наблюдении (измерении), 1 < i < n. Кроме того, считается, что каждый столбец таблицы 1 задает выборку значений соответствующей величины, n
b
метод наименьших квадратов (МНК), Сущность этого метода заключается в следу-ющем, Составляется функция L(b), которая описывает меру рассеивания данных по yu
n
L(b) = - f (b,u[i]))2 , (4)
i= 1
где u[i] = (x1i, x2i,..., Xki), 1 < i < n.
В некоторых случаях выражение для L(b) имеет более сложный вид. Искомый вектор оценок параметров b находится как решение задачи на экстремумL(b) ^ min. (5)
Решение задачи (5) может быть найдено аналитически либо численно с помощью специализированных пакетов программ.
Предварительный вид функции f (х^и f (b, u) может быть установлен, исходя из графического анализа данных. Наиболее удобно изучать парную зависимость, т.е.
зависимость у от какой-то одной из объясняющих переменных, например, от хі. Здесь используют графическое представление пар точек (х1і, у^) на плоскости, 1 < i < n. При нанесении этих пар на плоскость получается некоторое «облако» точек, форма которого может говорить о наличии или отсутствии зависимостей. Если «облако» точек имеет вполне конкретную, выраженную форму, то можно вполне уверенно говорить о наличии зависимости между переменными х1 и у. В противном случае зависимости может и не быть (см, рис, 1, 2),
Графическое представление данных позволяет сделать определенный качествен-
х1
у
г,лечения количественных методов, которые излагаются в следующих разделах, у
Х1
Рис. 1. Облако точек. Имеется зависимость
у
*
* * * *
*
* *
*
* *
*
*
Х1
Рис. 2. Облако точек. Нет зависимости
Графическое представление данных позволяет сделать определенный качествен-
х1 у
Вместе с тем установление факта их зависимости или независимости требует привлечения количественных методов, которые излагаются в следующих разделах.