1.4. ПРИМЕРЫ
Пример 1. Изучается зависимость стоимости квартиры у (тыс, у.е.) от ее общей площади я1 (кв.м.) Для удобства анализ а данные (x1, у) упорядочены по переменной я1 и записаны в следующей таблице. Ж1 28 29 32 35 40 44 45 51 53 У 5.3 9.2 15.2 20.7 21.7 36.5 39.3 52.7 55.4 x1 58 64 65 73 75 80 83 93 - У 64.3 76 79.1 94.8 101 89.5 114.8 137.4 - Из этой таблицы видно, что практически для всего набора данных росту я1 соответствует возрастание у.
Требуется установить зависимость между у и я1 в линейной форме (уровень значимости равен 5%), Здесь объем выборки n =17, Опираясь па таблицу данных и формулы раздела 1,2,2, находим, чтоХ1 = 55.76, у = 59.55,_ Qxixi = 6557.06, Qxiy = 12714.79, Qee = 27.09, b0 = —48.4705, b1 = 1.9377.
Для обоснованности применения указанных формул рассмотрим выборку остатков. Используя найденные оценки b0, получим набор чисел e1, e2,..., e17:
- 0.48, 1.48, 1.67, 1.35, - 7.34, - 0.29, 0.58, 2.35, 1.17, 0.39, 0.46, 1.62, 1.82,
4.15, - 17.04, 2.44, 5.67.
В качестве примера вычислим e2. Имеем:
Є2 = У2 — (b0 + b1 Х12) = 9.2 — (—48.4705 + 1.9377 ¦ 29) = 1.4772 « 1.48.
Обратимся к проверке гипотезы H0 об отсутствии автокорреляции остатков, ис-
а = 5% k = 1 n = 17 находим значения статистик dL = 1.13, d^ = 1.38 Вычисляя величину d по формуле (34), получаем, что d = 1.67 и верно неравенство d^ < d < 4 — du- Поэтому гипотеза H0 принимается.
Проверим гипотезу H0 о том, что остатки получены из генеральной совокупности с нормальным распределением. Для этого вычислим выборочные коэффициенты асимметрии и эксцесса, которые будут равны Ae = —2.65, Ee = 8.05, Получим, что
|Ае| = 2.65 > 3 ^D(Ae) = 3^0.266 = 1.55, |Ee| = 8.05 > 5 лЩЩ = 5 V0.601 = 3.88.
Отсюда делаем вывод о том, что генеральное распределение остатков скорее всего отличается от нормального. Поскольку объем выборки небольшой, то нет оснований применять формулы (17), (18) и (19) для проверки значимости линейной зависи-
b1
у
Раеемотрим гипотезу H0 об отсутствии гетероскедаетичноети.
Зададим а = 5%, Поскольку нормальность распределения остатков не подтверждена, то на это свойство опираться нельзя. Поэтому применим здесь тест ранговой корреляции Спирме- на, В исходной таблице данных переменные x1i упорядочены по возрастанию и среди них нет совпадающих элементов. Потому ранг x1i равен вн = г, 1 < г < 17. Выборка, содержащая модули остатков, имеет вид0.48, 1.48, 1.67, 1.35, 7.34, 0.29, 0.58, 2.35, 1.17, 0.39, 0.46, 1.62, 1.82, 4.15,
17.04, 2.44, 5.67.
Упорядочивая эту выборку по возрастанию, находим ранги ее элементов:
Ти = 4, 712 = 8, 713 = 10, 714 = 7, 715 = 16, 7^ = 1, 717 = 5, 713 = 12, 719 = 6,
7110 = 2, 7111 = 3, 7112 = 9, 7113 = 11, 7114 = 14, 7115 = 17, 7115 = 13, 7117 = 15.
Используя формулу (49), вычислим коэффициент ранговой корреляции по Спирме- ну. Получим = 0.45. По формуле (50) находим, что Ts = 1.952. Сравним Ts с критическим значением ta распределения Стыодента с n — 2 = 15 степенями свободы (таблица П2), Имеем, что Ts = 1.952 < = 2.131. Следовательно, гипотеза H0 принимается, и можно считать, что имеет место гомоекедаетичноеть результатов наблюдений (измерений).
у
x1
у « —48.47+1.94 x1. Естественно, что более детальный анализ изучаемой зависимости требует привлечения и других объясняющих переменных. К ним могут относиться, например, этаж, тип дома и т.д.
у
по которым получены следующие данные:
x1 x1 3.5 5.0 6.5 10.5 13.0 У 16.4 15.2 14.6 20.8 26.6 x1 4.0 7.5 8.5 6.0 12.5 У 12.7 15.5 17.0 14.2 25.9
Требуется построить и обосновать линейную зависимость между у и x (уровень зна-
5% n = 10
дела 1.2.2, находим, что b0 = 7.72, b1 = 1.32. Следовательно, зависимоеть у от x1 приближенно описывается формулой у « 7.72 + 1.32 x1.
Как и в предыдущем примере, рассмотрим выборку остатков. Используя найденные оценки b0, b1; получим (с учетом округления) набор чисел e1, e2,... ,e10:
4.06, 0.88, —1.71, —0.79, 1.71, —0.30, —2.13, —1.95, —1.45, 1.67.
Проверим, что эти остатки получены из генеральной совокупности с нормальным распределением.
Вычислим выборочные коэффициенты асимметрии и эксцесса, которые будут соответственно равны Ae = 0.86, Ee = 0.003, Получим, что|Ae| = 0.86 < 3 ^/D(Ae) = 3 V0.377 = 1.84, |Ee| = 0.003 < 5 ^/D(Ee) = 5 V0.569 = 3.77.
Поэтому будем считать, что генеральное распределение остатков описывается нормальным законом.
Обратимся к проверке гипотезы H0 об отсутствии автокорреляции остатков, ис-пользуя критерий Дарбина-Уотсона, Выбирая а = 5% k = 1, n = 10, из таблицы ПЗ находим значения статистик dL = 0.88, d^ = 1.32. Вычисляя величину d по формуле (34), получаем, что d = 1.12 и верно неравенство dL < d < du- Поэтому гипотеза H0 не может быть принята или отвергнута. Здесь требуется привлечение дополнительных данных или других критериев проверки этой гипотезы.
Рассмотрим теперь гипотезу H0 об отсутствии гетероекедаетичноети. Поскольку гипотеза о нормальном распределении остатков подтверждена, то можно использовать тест Голдфелда-Квандта, Имеем, что
x11 = 3.5, x12 = 5.0, x13 = 6.5, x14 = 10.5, x15 = 13.0,
x16 = 4.0, x17 = 7.5, x18 = 8.5, x19 = 6.0, x110 = 12.5.
Упорядочим значения объясняющей переменной x1 в порядке возрастания. Получим следующий порядок их расположения:
Х1Ъ x12, x13, x18, x14, x110, x15.
В соответствии с этим порядком выборка остатков запишется в такой последовательности
Є1, Єб, Є2, Є9, Єз, Є7, Є8, Є4, бю, Є5,
иначе,
4.06, —0.30, 0.88, —1.45, —1.71, —2.13, —1.95, —0.79, 1.67, 1.71.
Зададим число m как целую часть от дроби n/3 = 10/3, Округляя в большую сторону, возьмем m = 3. Тогдa n — m + 1 = 8 Для вычисления величины G по формулам (46), (47) из упорядоченной выборки остатков выберем первый, второй, третий остат-
G1
G2
G1 = (4.06)2 + (—0.30)2 + (0.88)2 = 17.348, G2 = (—0.79)2 + (1.67)2 + (1.71)2 = 6.3371,
17.348
Gmax = 17.348, Gmin = 6.3371, G = —— = 2.74.
6.3371
Критическое значение Fa распределения Фишера выбирается для уровня значимости а = 5% и числа степеней свободы f1 = f2 = m — k = 3 — 1 = 2, т.е, Fa = 19.0, Так как выполнено неравенство G < Fa, то гипотезу H0 принимаем и считаем, что имеет место гомоекедаетичноеть результатов наблюдений (измерений).
Оценим значимость линейной зависимости на уровне 5%, Сначала применим первый способ.
По формуле (17) вычислим величину F, Она будет равна F = 38.18, Эту величину сравним с критическим значением Fa распределения Фиш ера с f1 = 1 и = 8 степенями свободы на уровне значимоети а = 0.05 (см, таблицу П1), Это значение равно F0.05 = 5.32. Поскольку выполнено неравенетво F > F0.05, то считаем, что между переменными x1 и y действительно имеется линейная зависимость. Применим далее второй способ и построим границы доверительного интервала для параметра Используя формулы (14) и (18), уровень значимости 5%, получим, что ta = t0.05 = 2.306 и 61 Є 11 = (0.84,1.8). Как видно, доверительный интервал 11 не накрывает число ноль, поэтому и здесь принимаем решение о том, что между x1 и y имеется линейная зависимость.Полученные результаты говорят о том, что для анализа данных можно применять формулу линейной зависимости y « 7.72 + 1.32 x1 и формулу (19) для оценки уро-жайности y при заданном значении x1 = хЦ внесенных удобрений (с указанной выше оговоркой, вызванной значением коэффициента d), Отметим здесь, что коэффициент 60 = 7.72 указывает на нижнюю границу урожайности без применения удобрений. Коэффициент 61 = 1.32 отражает прирост урожайности на одну тонну внесенных удобрений.
Пример 3. Изучается зависимость товарооборота магазина y (тыс, руб./нед) от численности работающих х1 (чел.) и площади подсобных помещений х2 (кв.м). Результаты исследований по n = 8 магазинам представлены в следующей таблице: Ж1 31 34 35 41 38 32 29 34 Х2 29.5 14.2 18.0 21.3 47.5 10.0 21.0 36.5 У 22.0 14.0 23.0 43.0 66.0 7.6 12.0 36.0 y
x1 x2
5%
выполнены все предположения МНК относительно случайных ошибок наблюдений Є = Уі — 60 — 61 Х1І — 62 Х2І, 1 < i < 8 (их проверять не нужно).
Для решения поставленной задачи вычислим промежуточные величины, используемые в формулах раздела 1.2.3. Используя данные из таблицы, получаем, что
8 8 8 ^ Х1і = 274, ^ Х2ї = 198, ^ y = 223.6,
i=1 i=1 i=1
8 8 8
^ x2, = 9488, ^ x2, = 5979.08, ^ y2 = 8911.76,
i=1 i=1 i=1 8 8 8 ?(xu x2i) = 6875.6, yi) = 8049.2, ^(x^ yi) = 6954.7.
i=1 i=1 i=1
Отсюда по формулам (22) находим, что
60 = —94.55, 61 = 2.80, 62 = 1.07.
Применяя формулу (31), проверим гипотезу H0 о не значимости линейной модели.
Получаем, что F = 151.7, а критическое значение распределения Фишера при f1 = 2и f2 = 5 степенях свободы равно F0 05 = 5.79. Поскольку выполнено неравенетво F > F0.05, то гипотезу H0 отвергаем и линейную зависимоеть между у и объясняющими переменными ж1; x2 считаем значимой.
Построим далее доверительные интервалы для параметров b1, b2 и установим влияние каждой переменной x1 и x2 на у. По формулам (27), (32) находим, что
11 = (2.03, 3.57) 12 = (0.83, 1.31), причем оба интервала не содержат число ноль. В
у
можно находить по приближенной формуле: у ~ —94.55 + 2.80 x1 + 1.07x2. Из этой формулы следует, что вклад в товарооборот каждого работающего примерно в два раза больше, чем одного квадратного метра подсобных помещений.