Статистический анализ
При наличии достоверной информации для определения спроса достаточно провести только статистический анализ (на основе цены).
Статистический анализ включает следующие этапы:
а) сбор, проверка и оценка данных;
б) выбор информационной кривой;
в) проверка и оценка выбранной кривой.
Сбор данных
Для оценки спроса экономисты обычно используют временные ряды и кросс-секционные данные.
Временные ряды. Рассматриваются временные изменения в спросе на определенные виды товаров или услуг и соответствующие временные изменения в ценах на них, получаемой прибыли, объеме продаж и других независимых переменных, влияющих на спрос. В простом регрессионном анализе мы имеем дело с одной независимой временной переменной, «замораживая» все остальные переменные. К сожалению, в течение некоторого периода переменная, которую мы рассматриваем, может подвергнуться значительному влиянию других переменных. К примеру, такие измеряемые в денежном эквиваленте величины, как цена, объем продаж, стоимость и прибыль всегда изменяются со временем под действием инфляции. Кроме того, на эти величины оказывает влияние увеличение объема товаров й услуг на рынке. Поэтому когда мы хотим определить влияние одной отдельной переменной величины за промежуток времени, мы должны «заморозить» все другие переменные. Таким образом, в любом исследовании с использованием временной последовательности необходимо корректировать информацию, для того чтобы избежать эффектов группового влияния и инфляции.
Групповая корректировка. Для нейтрализации эффектов группового влияния на объем продаж величины начального дохода и показатели спроса приводится к базовому уровню. Однако такое преобразование производится только когда собранная информация охватывает продолжительный промежуток времени, так как объем производства обычно не претерпевает резких изменений от года к году. Если анализируемая продукция предназначена для пользования всей семьей, к примеру автомобиль или стиральная машина, то наилучшая оценка спроса на нее часто может быть получена путем исследования потребности одной отдельно взятой домохозяйки или одной отдельно взятой семьи.
Дефляционная корректировка. В течение ряда лет происходит постоянное уменьшение покупательной способности денег, что отражается в росте цен. Этот процесс не позволяет производить правильные сравнения номинальных объемов в долларах за различные периоды. Скажем, 100 долл, в 1990 г. определенно неравны 100 долл, в 1970 г.
Решение этой проблемы заключается в делении всех номинальных показателей в долларах на соответствующий индекс цен. Наиболее используемым при изучении потребительского спроса является индекс потребительских цен (ИПЦ). Индекс потребительских цен отражает нормированную среднюю величину цен, по которым потребителем осуществлялись закупки определенных видов товаров и услуг (так называемая потребительская корзина), по отношению к Предыдущему базовому периоду. Когда номинальный показатель в долларах за каждый определенный период делится на соответствующий этому периоду ИПЦ и умножается на 100, временная последовательность переводится из номинальных долларов в «постоянные доллары» базового периода, для которого ИПЦ составляет 100. Например, на май 1989 г. для базового 1967 г. ИПЦ составлял 370,8. Это означает, что 1000 долл, в мае 1989 г. стоила только 269,69 долл. [1000(100,0/370,8) = 269,69 долл.] в долларах 1967 г. Или можно сказать так: то, что в 1967 г. можно было купить за 100 долл., в мае 1989 г. можно было купить за 370,80 долл.
Другие корректировки. В дополнение к групповой и дефляционной корректировке во временных рядах иногда применяются и другие виды корректировок, среди которых можно назвать корректировки, предназначенные для устранения тенденционных, сезонных и циклических влияний. Методы проведения таких корректировок кратко рассматриваются в главе 9.
Кросс-секционные данные. Анализ временных рядов позволяет определить временные изменения единственной переменной. Кросс-секционный анализ, напротив, рассматривает изменения переменной или группы переменных из некоторого набора в некоторый определенный момент времени1. Например, для того чтобы определить влияние величины прибыли на спрос, в качестве переменной может быть выбран объем продаж за май \9ХХг, а набором может служить список фирм, производящих данный продукт.
Выбор между анализом временных рядов и кросс-секционным анализом часто зависит от имеющейся информации и временных и денежных ограничений. Поэтому при изучении спроса чаще используются временные ряды, потому что необходимую информацию можно получить из печатных источников.
Выбор информационной кривой
При выборе кривой результаты наблюдений используются для оценки параметров выбранной функции спроса. Эту функцию затем можно использовать для прогноза величины зависимой переменной при известных значениях независимых переменных. При выборе кривой возникают два основных вопроса.
1. Какой тип уравнения необходимо использовать?
2. В какой степени подходит выбранная функция и в какой степени оцененная функция прогнозирует спрос?
Что касается первого вопроса, выбор уравнения зависит рт двух условий: 1) количества независимых переменных и 2) распределения данных, т.е. линейное это распределение или нелинейное? ' '
Если тренд экспериментальных значений зависимой переменной приблизительно линеен и существует множество независимых переменных, то оцененное уравнение имеет вид: [49] [50]
С математической точки зрения это уравнение описывает гиперплоскость2 множественной регрессии (которая будет рассматриваться в следующей главе). Если данные
можно свести к единственной независимой переменной (например, цене) и тренд зависимой переменной практически линеен, то для выбора формулы этой прямой может быть использован простой (парный) регрессионный анализ. Уравнение при этом имеет вид
Если тренд.зависимой переменной нелинеен и функция имеет одну независимую переменную, то она описывается уравнением
Это уравнение может быть записано в виде логарифма, если прологарифмировать обе его части:
Эта логарифмическая функция линейна и может быть оценена с помощью простого регрессионного анализа.
Простая линейная регрессия
Большинство расчетов регрессий в настоящее время производится на компьютерах с помощью пакетов программ.
Анализ простой регрессии также может быть произведен на многих типах недорогих карманных электронных калькуляторов (некоторые имеют для этого встроенные программы). Тем не менее необходимо производить текущий анализ информации при ее вводе в компьютер и при оценке полученных данных. Эта работа может выполняться в следующей последовательности.Шаг 1. Сбор данных. Прежде чем применить какой-либо метод расчета, мы должны собрать необходимые данные. Для того чтобы продемонстрировать процесс анализа, предположим, что мы собрали данные временных рядов, представленные в табл. 7. I[51]. Наша задача заключается в подборе к этим данным регрессионной функции.
Таблица 7.1
Серия данных, собранных за определенные периоды
Период | Наблюдение X | Наблюдение Y |
1 | 12 | 47 |
2 | 10 | 38 |
3 | 15 | 55 |
4 | 14 | 49 |
5 | 19 | 60 |
6 | 17 | 56 |
7 | 20 | 66 |
8 | 25 | 80 |
Шаг 2. Организация переменных во времени. Организация переменных во времени (рис. 7.1) необходима по следующим причинам: 1) для визуального сравнения их изменений, что позволяет вскрыть все взаимные отставания и опережения и произвести соответствующую корректировку, и 2) выделение тренда позволяет определить, линеен он или нет, что помогает выбрать соответствующую модель для формы кривой. Изучив рис. 7.1, можно сделать следующие выводы.
1. Существует прямая зависимость между величинами Іи У; так, с ростом Xрастет и Y, а при падении X падает и Y.
2. Не существует никаких явных связей отставания—опережения между ними. Если бы эти связи были обнаружены, то данные можно было бы скорректировать путем сдвига того или иного ряда величин вперед либо назад во времени до тех пор, пока такие связи не исчезнут.
3. Выделяемый для каждой серии тренд является линейным, как показано пунктирными линиями.
Полученная информация дает нам базу для организации диаграммы разброса.
Рис. 7.1. Организация переменных во времени
Шаг 3. Организация диаграммы разброса. Базой данных для простой линейной регрессии является набор упорядоченных пар (X, Y), которые представляют собой значения Xи Уза рассматриваемый период. Если мы предположим, что истинная функция распределения, Y=f(X), линейна, то мы должны, в первую очередь, проверить истинность этого предположения. С этой целью сведем имеющиеся данные в диаграмму разброса (рис. 7.2).
Рис. 7.2. Диаграмма разброса данных
Так как на предыдущем шаге было установлено, что между переменными не существует связей отставания-опережения, мы можем противопоставить значения Уза каждый год значениям X за тот же период без необходимости сдвигать те или иные ряды и, кроме того, мы решили, что выделяемый тренд каждого ряда является линейным. Следовательно, диаграмма разброса может быть представлена в обычном арифметическом масштабе. Но, с другой стороны, если бы тренды подчинялись геометрическому закону, то их можно было бы представить в логарифмическом масштабе, чтобы изобразить их в виде прямых. _ _
Как следует из рис. 7.2, X(среднее значение X) равняется 16,5, а У (среднее значение У) равняется 56,375. На рисунке также выделен период каждого наблюдения. Визуальное изучение подтверждает, что выделенная функция может быть линейна^ и это показано пунктирной линией.
Кроме того, отмечена точка средних значений, (X, У).Можно показать математически, что истинная линия регрессии, базирующаяся на полной группе возможных наблюдений, должна проходить через эту точку средних значений. Наша расчетная линия регрессии базируется на наборе наблюдений, извлеченных из полной группы возможных наблюдений. Изображенная линия регрессии является только оценкой истинной линии регрессии, но она также должна проходить через точку средних значений.
Шаг 4. Оценка линии регрессии. При анализе регрессии мы используем метод наименьших квадратов. Это делается для того, чтобы лианеализировать данные. При этом такие величины, как сумма квадратичных отклонений расчетной величины Уот ее наблюденных значений минимизировалась бы. Если через разбросанные точки наблюдений провести прямую линию, то некоторые из этих точек будут лежать выше этой прямой, некоторые ниже и, возможно, некоторые точки будут лежать прямо на линии регрессии. Расстояния по вертикали между наблюденными точками и усредненной прямой называются отклонениями, или разбросами. Эта концепция проиллюстрирована на рис. 7.3.
Y
Рис. 7.3. Типичная линия регрессии с разбросом
и
Учитывая, что уравнение регрессии является только лишь оценкой истинной регрессии, чтобы не обольщаться точностью расчета, которой в действительности не су-
шествует, мы округляем коэффициенты а и Ь и записываем оценочное уравнение регрессии в виде
Таблица 7.2
Данные для расчета простой (парной) линейной регрессии методом наименьших квадратов
Период | Наблюдения X | Наблюдения У | XY | X2 | Y2 |
1 | 12 | 47 | 564 | 144 | 2209 |
2 | 10 | 38 | 380 | 100 | 1444 |
3 | 15 | 55 | 825 | 225 | 3025 |
4 | 14 | 49 | 686 | 196 | 2401 |
5 | 19 | 60 | 1140 | 361 | 3600 |
6 | 17 | 56 | 952 | 289 | 3136 |
7 | 20 | 66 | 1320 | 400 | 4356 |
8 | 25 | 80 | 2000 | 625 | 6400 |
Суммы | 132 | 451 | 7867 | 2340 | 26571 |
Среднее | 16,5 | 56,375 |
Как было показано ранее, оценочное уравнение регрессии может быть получено путем расчета вручную с помощью карманного калькулятора. Если в наличии имеется компьютер с программой расчета линейной регрессии, то, конечно же, гораздо проще и быстрее использовать компьютер не только для расчета уравнения регрессии, но и для других статистических расчетов, используемых при анализе регрессии. В табл. 7.3 содержится компьютерное решение нашего примера с использованием программного обеспечения Microstat™.
Таблица 7.3
Типичная компьютерная распечатка регрессионного анализа
Компьютерная распечатка, представленная в этой таблице, начинается с заголовка, предназначенного для идентификации выдаваемой информации, далее следует информация о количестве наблюдений и переменных, введенных в программу[52]. Затем следуют имена переменных, средние значения и стандартные отклонения (как входные данные), а также идентифицируется зависимая переменная.
Далее показан коэффициент регрессии для X, т.е. параметр Ь в оценочном уравнении регрессии У( = a + bXt, а также константа регрессии а. Обратите внимание, что значения этих параметров согласуются с ранее представленными результатами расчета, выполненного вручную.
Остальная часть распечатки будет объяснена в дальнейшем.
Шаг 5. Сравнение расчетных и действительных значений. Как близко лежат расчетные значения зависимой переменной к действительным значениям? Другими словами, насколько хорошо наше оценочное уравнение регрессии описывает У как функцию Л? Наглядный ответ на этот вопрос получен путем первоначального расчета, согласно уравнению регрессии Yt = 13 + 2,6Х( для каждого наблюдения и последующего сравнения действительного и расчетного значений У, (табл. 7.4). Некоторые компьютерные программы могут сделать это за вас автоматически или по запросу.
Таблица 7.4
Наблюденные н вычисленные значения функции У = / (X)
Отклонения действительных значений У от расчетных У в этой таблице являются отражением того факта, что результаты всех наблюдений не укладывают на регрессионной прямой (так как, если бы они укладывались, то вариации У полностью объяс-
А
иялись бы вариациями Xи все значения У равнялись бы значениям У ). Тот факт, что результаты наблюдений отклоняются от линии регрессии, указывает на то, что на величину У действуют силы, отличные от X.
Интерпретация параметров
Параметр а является постоянным членом, определяющим точку пересечения линии регрессии с осью У. Он обычно не имеет строгого экономического смысла в уравнении спроса Q = а + ЬР, так как маловероятно, что когда-нибудь Р = 0 во всем диапазоне наблюденных данных. Имеет ли параметр а смысл для других функций, Зависит от того, присутствует ли нуль среди наблюденных значений независимой переменной.
Параметр Ь определяет угол наклона линии регрессии. Он представляет собой отдельный вклад каждой, независимой переменной в величину зависимой переменной.
А
Например, если взять уравнение регрессии У( = 13 + 2,6йГ., то видно, что изменение на единицу независимой переменной X изменяет значение зависимой переменной У на 2,6. Положительный знак параметра Ь указывает на то, что переменные изменяются в одинаковом направлении, т.е. возрастают или убывают вместе.
Оценка уравнения регрессии
Піавная цель анализа линейной регрессии состоит в выводе линейного уравнения, которое может быть использовано для определения величины независимой переменной Y по любым имеющимся значениям независимой переменной X. Здесь сразу же встает вопрос: насколько информативна или точна определенная таким образом величина У?
При анализе простой регрессии для ответа на этот вопрос используют два статистических показателя: 1) средняя квадратичная ошибка оценки, Se, и 2) коэффициент детерминации, г[53], и его квадратичный корень, г, называемый коэффициентом корреляции.
Средняя квадратичная ошибка оценки. Средняя квадратичная ошибка оценки, Se, является параметром нормально распределенной случайной величины, представляющей собой отклонение экспериментальных точек от оценочной линии регрессии. Иначе говоря, St определяет разброс случайных значений У при их распределении по нормальному закону относительно оценочных значений У для любых имеющихся значений X. Следовательно, средняя квадратичная ошибка оценки характеризует интервал, в котором может быть определен У при оценке уравнения регрессии на различных степенях статистического доверия. Она рассчитывается как
[1] Символ S' указывает на то, что мы говорим о стандартном отклонении значения, взятого из группы разбросов, имеющих среднее квадратичное отклонение Ст. Это замечание становится более наглядным при выведении в индексы соответственно зависимой и независимой переменных. Например, 50.р указывает на то, что рассматриваемое распределение разбросов Q является функцией от Р. Это позволяет провести разпичие между средней квадратичной ошибкой, относящейся к отклонениям от линии регрессии, и Средними квадратичными отклонениями экспериментальных данных от их средних значений, которые должны обозначаться как 5р и SQ,
Уравнение (10) показывает, что средняя квадратичная ошибка оценки является квадратным корнем среднего значения суммы квадратичных отклонений или разбросов. Среднее значение суммы квадратичных отклонений — это сумма квадратичных отклонений, деленная на л-&—1 степеней свободы. В табл. 7.3. средняя квадратичная ошибка оценки равна 2,1711. Сумма квадратичных отклонений в разделе «Анализ разброса данных» равна 28,2809, а число степеней свободы равно 6. Таким образом,
как это и указано на распечатке.
Если Se = 0, то оценочное уравнение отлично подходит к наблюденным данным, т.е. все наблюденные точки лежат на линии регрессии и не отклоняются от нее. Но . если 5 * 0, то по крайней мере некоторые из наблюденных точек лежат выше или ниже линии регрессии. Чем больше средняя квадратичная ошибка оценки, тем шире диапазон отклонений. Следовательно, чем меньше эта Ошибка оценки, тем более надежной будет оценка У, рассчитанная по оценочному уравнению регрессии для любых имеющихся значений X.
Как и для любого нормального распределения, можно ожидать, что 95% вероятных значений Y будут лежать вблизи оценочных значений Y со средней квадратичной ошибкой ±1,96, а 99% значений этой величины будут совпадать со средней квадратичной ошибкой ±2,58. Для рассматриваемого случая существует вероятность в 95%, что
/\ /\
экспериментальное значение Улежит в интервале Y ± (1,96) (2,1711) = У ±4,2554; и существует вероятность в 99%, что экспериментальное значение Улежит в интервале У ± (2,58) (2,1711) = У ± 5,6014.
Средняя квадратичная ошибка коэффициента регрессии
Средняя квадратичная ошибка коэффициента регрессии, Sb, определяет среднее квад- f ратичное отклонение распределения значений коэффициента регрессии, Ь. Таким образом, Sb является мерой надежности этого коэффициента, которая рассчитывается как
В табл. 7.3 средняя квадратичная ошибка коэффициента регрессии находится в той же строке, что и сам коэффициент регрессии, и имеет значение 0,1706. Далее в той же строке находится значение /-критерия, которое рассчитывается как отношение коэффициента регрессии к средней квадратичной ошибке коэффициента регрессии. Сам /-критерий используется для проверки коэффициента регрессии на статистическую надежность, как это будет показано в следующей главе.
Коэффициент детерминации, г2
Коэффициент детерминаций, г2, является статистической величиной, показывающей, насколько хорошо регрессионная модель описывает вариации зависимой переменной[54]. Это проверка того, насколько график регрессии совпадает с наблюденными данными при учете вариаций зависимой переменной. Компьютерная распечатка, представленная в табл. 7.3, содержит строку «Коэф. детерминации, гг = 0,9753». Это свидетельствует о том, что около 97,5% изменений зависимой переменной, У, объясняется вариациями независимой переменной, X. Значения г1 2 могут варьироваться от 0,0 до
1,0, или от 0 до 100%. Нижний предел 0,0 показывает, что между переменными не существует взаимосвязи. Верхний передел 1,0 означает, что линия регрессии идеально подходит, при этом все изменения Y объясняются изменениями X. Иначе говоря, все наблюденные точки лежат на линии регрессии. Однако такое бывает достаточно редко (если вообще бывает).
Коэффициент детерминации не указывает причины и следствия. Он просто является математическим выражением взаимосвязи между независимой и зависимой переменными и показывает степень их взаимосвязанных изменений, хотя в экономической теории и можно постулировать их причинно-следственную связь.
Статистический смысл коэффициента детерминации проиллюстрирован на рис. 7.4. Здесь Y — среднее значение всех эмпирических значений У, на основе которых построена линия регрессии, а пара Xn У. - отдельное наблюдение. Если У использовать для оценки Yt, то полное отклонение1 будет Yt— У . Однако мы можем получить лучшую оценку, используя линию регрессии. При этом мы делим полное отклонение (Yt — У ) на
две части. Отклонение ниже линии регрессии, (У - У), объясняется уравнением
* /\
регрессии2. Отклонение выше линии регрессии, (Yt - У ), не объяснено3. _
Подобным способом мы можем разделить и сумму квадратов отклонений Ц Y: - У )2 так, что[55]:
[1] Отклонения фактических (эмпирических) значений признака от средней величины. - При- меч. ред.
[1] Необъяснимое отклонение - отклонения теоретических (расчетных) значений признака от средней величины. - Прнмеч. ред.
[1] Объяснимое отклонение — отклонения фактических (эмпирических) значений признака от теоретических (расчетных) величин. - Прнмеч. ред.
Рис. 7.4. Объяснимое, необъяснимое и полное отклонение
Уравнение (14) ведет к следующей формуле:
Коэффициент детерминации может также быть рассчитан по формуле
где St - средняя квадратичная ошибка оценки;
Sy — средняя квадратичная ошибка зависимой переменной.
Обе эти величины имеются на компьютерной распечатке. Таким образом,
Коэффициент корреляции. Квадратный корень из коэффициента детерминации, г1, шозывается коэффициентом корреляции, г, и определяет степень связи между переменными. Так как г1 изменяется в пределах от 0 до 1, то г лежит в диапазоне от —1 до И В нашем случае г = У 0,9753 = 0,9876, что мы и видим на компьютерной распечатке.
Знак г указывает относительное направление изменений переменных. Так как знак может быть либо положительным, либо отрицательным, при анализе его необходимо согласовать с положительным или отрицательным наклоном линии регрессии.
Величина /-указывает на степень связи между переменными. В нашем случае видна очень сильная прямая связь между независимой переменной X и зависимой переменной Y.
Шеф полиции некоторого города предполагает линейную связь между полицейским наблюдением и уличными происшествиями. Собрана следующая информация за прошедшие 12 месяцев.
Вопросы
а. Рассчитайте предполагаемое уравнение регрессии.
б. Рассчитайте среднюю квадратичную ошибку оценки, Se.
в. Рассчитайте коэффициент детерминации, г2.
г. Сколько часов полицейского наблюдения, согласно уравнению регрессии, потребуется для снижения количества уличных происшествий до 500 за месяц?
Решения
а. Пусть X — часы полицейского наблюдения;
У — количество происшествий.
Этот расчет, выполненный вручную, подтверждается компьютерной распечаткой.
На рис. 7.6 представлены отклонения для случая,, когда эти допущения не выполняются. Это набор отклонений, взятых из исследования о потреблении мяса за 1965—1979 гг. В приведенном примере отклонения отрицательны в первые годы, положительны в середине периода и опять отрицательны в последние годы. Такая структура указывает на наличие тенденции в изменении переменных и служит предостережением о том, что было бы лучше работать с «детрендированной» информацией[56].
Рис. 7.5. Отклонения от линии регрессии, показывающие случайный разброс