5.3. Этапы построения многофакторной корреляционно-регрессионной модели
1) априорное исследование экономической проблемы;
формирование перечня факторов и их логический анализ;
сбор исходных данных и их первичная обработка;
спецификация функции регрессии;
оценка функции регрессии;
отбор главных факторов;
проверка адекватности модели;
экономическая интерпретация;
прогнозирование неизвестных значений зависимой пере-менной.
Рассмотрим подробнее содержание этапов.
Априорное исследование экономической проблемы.
В соответствии с целью работы на основе знаний макро-и микроэкономики конкретизируются явления, процессы, зависимость между которыми подлежит оценке. При этом подразумевается прежде всего четкое определение экономических явлений, установление объектов и периода исследования.На этом этапе исследования должны быть сформулированы экономически осмысленные и приемлемые гипотезы о зависимости экономических явлений.
Б. Формирование перечня факторов и их логический анализ. Для определения наиболее разумного числа переменных в регрессионной модели прежде всего ориентируются на соображения профессионально-теоретического характера. Исходя из физического смысла явления, производят классификацию переменных на зависимую и объясняющую.
Сбор исходных данных и их первичная обработка. При построении модели исходная информация может быть собрана в трех видах:
динамические (временные) ряды;
пространственная информация — информация о работе нескольких объектов в одном разрезе времени;
сменная — табличная форма. Информация о работе нескольких объектов за разные периоды.
Объем выборки зависит от числа факторов, включаемых в модель с учетом свободного члена. Для получения статистически значимой модели требуется на один фактор объем выборки, равный 1 = 5 -«- 8 наблюдений.
Например, если в модель включаются три фактора, то минимальный объем выборки"min = 5 . (т + п) = 5 . (3 + 1) = 20,
где т — число факторов, включаемых в модель;
п — число свободных членов в уравнении.
Если в квартальном разрезе собирать данные, то надо их собирать за 5 лет [20/4].
Г. Спецификация функции регрессии. На данном этапе исследова-ния дается конкретная формулировка гипотезы о форме связи (ли-нейная или нелинейная, простая или множественная и т. д.). Для этого используются различные критерии для проверки состоятель-ности гипотетического вида зависимости. На этом этапе проверяются предпосылки корреляционно-регрессионного анализа.
Д. Оценка функции регрессии. Здесь определяются числовые зна-чения параметров регрессии и вычисление ряда показателей, ха-рактеризующих точность регрессионного анализа.
Е. Отбор главных факторов. Выбор факторов - основа для построения многофакторной корреляционно-регрессионной модели.
На этапе формирования перечня факторов и их логического анализа собираются все возможные факторы, обычно более 20-30 факторов. Но это неудобно для анализа, и модель, включающая 20—30 факторов, будет неустойчива. Неустойчивость модели находит выражение в том, что в ней изменение некоторых факторов ведет к увеличению у вместо снижения у.
Мало факторов — тоже плохо. Это может привести к ошибкам при принятии решений в ходе анализа модели. Поэтому необходимо выбирать более рациональный перечень факторов. При этом проводят анализ факторов на мультиколлинеарность.
Анализ и способы снижения влияния мультиколлинеарности на значимость модели. Мультиколлинеарность — попарная корреляционная зависимость между факторами.
Мультиколлинеарная зависимость присутствует, если коэффициент парной корреляции Гу = > 0,70 0,80.
Отрицательное воздействие мультиколлинеарности состоит в следующем:
усложняется процедура выбора главных факторов;
искажается смысл коэффициента множественной корреляции (он предполагает независимость факторов);
усложняются вычисления при построении самой модели;
снижается точность оценки параметров регрессии, искажается оценка дисперсии.
Следствием снижения точности является ненадежность коэффициентов регрессии и отчасти неприемлемость их использования для интерпретации как меры воздействия соответствующей объясняющей переменной на зависимую переменную.
Оценки коэффициента становятся очень чувствительными к выборочным наблюдениям.
Небольшое увеличение объема выборки может привести к очень сильным сдвигам в значениях оценок. Кроме того, стандартные ошибки оценок входят в формулы критерия значимости, поэтому применение самих критериев становится также ненадежным. Из сказанного ясно, что исследователь должен пытаться установить стохастическую мультиколлинеарность и по возможности устранить ее.Для измерения мультиколлинеарности можно использовать коэффициент множественной детерминации
Д = R\ (5.23)
где R — коэффициент множественной корреляции.
При отсутствии мультиколлинеарности факторов
т
Д (5.24)
у=1
где dyj — коэффициент парной детерминации, вычисляемый по формуле
dyj = Syj, (5.25)
где ryj — коэффициент парной корреляции между у-м фактором и зависимой переменной у.
При наличии мультиколлинеарности соотношение (5.24) не соблюдается. Поэтому в качестве меры мультиколлинеарности используется следующая разность:
171 , _ _
M^a-zdy,. (5-26>
У=1
Чем меньше эта разность, тем меньше мультиколлинеарность. Для устранения мультиколлинеарности используется метод исключения переменных. Этот метод заключается в том, что высоко корре-лированные объясняющие переменные (факторы) устраняются из регрессии и она заново оценивается. Отбор переменных, подлежащих исключению, производится с помощью коэффициентов парной корреляции. Опыт показывает, что если \ryj\ > 0,70, то одну из переменных можно исключить, но какую переменную исключить из анализа, решают исходя из управляемости факторов на уровне предприятия.
Обычно в модели оставляют тот фактор, на который можно разработать мероприятие, обеспечивающее улучшение значения этого фактора в планируемом году. Возможна ситуация, когда оба мультиколлинеарных фактора управляемы на уровне предприятия. Решить вопрос об исключении того или иного фактора можно только в соответствии с процедурой отбора главных факторов.
Отбор факторов не самостоятельный процесс, он сопровождается построением модели.
Принятие решения об исключении факторов производится на основе анализа значений специальных статистических характеристик и с учетом управляемости факторов на уровне предприятия.Процедура отбора главных факторов. Эта процедура обязательно включает следующие этапы:
Анализ факторов на мулътиколлинеарностъ и ее исключение. Здесь производится анализ значений коэффициентов парной корреляции Гц между факторами xt и Xj.
Анализ тесноты взаимосвязи факторов (х) с зависимой переменной (у).
Для анализа тесноты взаимосвязи х и у используются значения коэффициента парной корреляции между фактором и функцией (rXjy). Величина rXjy определяется на ЭВМ и представлена в корреляционной матрице вида (табл. 5.1).
Таблица 5.1
Корреляционная матрица №
переменной *2 *3 *т У 1 гх,х2 ГХ\Хт ГХ\у *2 1 Гхгхт ГХІУ *3 ГХзХі Гху*г 1 Гхзхт Гх±у rvi І ГХ„У У ГУ*г ГУЪ ГУ*з 1
Факторы, для которых rXjy = 0, т. е. не связанные с у, подлежат исключению в первую очередь. Факторы, имеющие наименьшее значение rXjy, могут быть потенциально исключены из модели. Вопрос об их окончательном исключении решается в ходе анализа других статистических характеристик.
3. Анализ коэффициентов Р факторов, которые потенциально могут быть исключены.
Коэффициент (3 учитывает влияние анализируемых факторов на у с учетом различий в уровне их колеблемости. Коэффициент Р показывает, насколько сигм (средних квадратических отклонений) изменяется функция с изменением соответствующего аргумента на одну сигму при фиксированном значении остальных ар-гументов:
п а*к
Pfc = ак
Ov
где р^ — коэффициент р к-то фактора;
о^ — среднее квадратическое отклонение к-то фактора;
ау — среднее квадратическое отклонение функции;
ак — коэффициент регрессии при к-м факторе.
Из двух факторов ху и ху может быть исключен тот фактор, ко-торый имеет меньшее значение р.
Допустим, исключению подлежит один из мультиколлинеарных факторов X/ или Xj. Оба фактора управляемы на уровне предприятия, коэффициенты регрессии а{ и aj статистически значимы.
Фактор х, более тесно связан с у, т. е. гХ(У > но при этом Рх < Рх. В этом случае обычно исключению подлежит фактор ху. ' J4. Проверка коэффициентов регрессии на статистическую значи-мость.
Проверка может быть произведена двумя способами: • проверка статистической значимости ак по критерию Стью- дента проводится по следующей формуле
(5.28)
"к
где ак — коэффициент регрессии при к-м факторе;
Sa — стандартное отклонение оценки параметра ак.
Число степеней свободы статистики tk равно f = п — т — 1, где т — количество факторов, включенных в модель.
Значение t, вычисляемое по (5.28), сравнивают с критическим значением tf a, найденным по приложению 1 при заданном уровне значимости а и числе степеней свободы / (двухсторонняя критическая область).
Если tk > то ак существенно больше 0, а фактор хк оказывает существенное влияние на у. При этом фактор хк оставляем в модели. Если tk < то фактор исключаем из модели;
• проверка статистической значимости ак по критерию Фишера —
ч2
(5.29)
( Y2
* s„,
где і2 — многомерный аналог критерия Стьюдента.
1 Ферстер Э., Ренц Б. Методы корреляционного и регрессионного ана-лиза. — М.: Финансы и статистика, 1983.
Число степеней свободы статистики Fk следующее: fx = 1, /2 = п - т - 1. Значение ?ь вычисляемое по формуле (5.29), сравнивают с критическим значением найденным по приложению 2, при заданных уровне значимости а и числе степеней свобо-ды /і, /2.
Если Fk > то ак - существенно больше 0, а фактор хк оказывает существенное влияние на у. При этом фактор хк оставляем в модели. Если Fk < F^а, то фактор исключаем из модели.
Анализ факторов на управляемость.
В ходе логического анализа на основе экономических знаний исследователь должен сделать вывод: можно ли разработать организационно-технические мероприятия, направленные на улучшение (изменение) выбранных факторов на уровне предприятия. Если это возможно, то данные факторы управляемы. Неуправляемые факторы на уровне предприятия могут быть исключены из модели.
Например, из двух факторов хх - средняя техническая скорость автомобилей их2- время погрузки-разгрузки на одну ездку при равенстве или блйзких по значению таких характеристик, как гху и rx2y> Pjcj и Рх2> исключению подлежит хх. На уровне АТП практически невозможно повлиять на значение технической скорости, которая зависит в основном от климатических условий и величины транспортного потока.Строится новая регрессионная модель без исключенных факторов. Для этой модели определяется коэффициент множественной детерминации Д.
Исследование целесообразности исключения факторов из модели с помощью коэффициента детерминации.
Прежде чем вынести решение об исключении переменных из анализа в силу их незначимого влияния на зависимую переменную, производят исследования с помощью коэффициента детерминации.
В первой регрессий содержится т объясняющих переменных, во второй — только часть из них, а именно тх объясняющих перемен-ных. При этом т = тх + т2, т. е. во вторую регрессию мы не включили т2 объясняющих переменных. Теперь следует проверить, вносят ли совместно эти т2 переменных существенную долю в объяснение вариации переменной у. Для этого используется статистика
(Лт-Лщ) (п-т-1) (т-щ М1-Д«) ' (5'30)
которая имеет /'-распределение с/і=т-т{ = т2и/2 = п- т-1 степенями свободы. Здесь Дт означает коэффициент детерминации регрессии с Т объясняющими переменными, а ДТ — коэффициент детерминации регрессии с /Ярфакторами.
Разность (ДТ - ДТ ) в числителе формулы является мерой дополнительного объяснения вариации переменной у за счет включения т2 переменных.
Критическое значение /у^ находят по таблице /'-распределения при заданном уровне значимости а и fx и/2 степенях свободы. Если F < F/FCA, то включение дополнительно объясняющих переменных совместно не оказывает значимого влияния на переменную у. Если F > FFJ а, то т2 объясняющих переменных совместно оказывают существенное влияние на вариацию переменной у, и, следо-вательно, в этом случае все т2 переменные нельзя исключать из модели.
При реализации первой ситуации (F < факторы оконча
тельно исключаются из модели.
Ж. Проверка адекватности модели.
Данный этап анализа включает следующие процедуры:
оценку значимости коэффициента детерминации. Данная оценка необходима для решения вопроса: оказывают ли выбранные факторы влияние на зависимую переменную? Оценку значимости Д следует проводить, так как может сложиться такая ситуация, когда величина коэффициента детерминации будет целиком обусловлена случайными колебаниями в выборке, на основе которой он вычислен. Это объясняется тем, что величина Д существенно зависит от объема выборки.
Для оценки значимости коэффициента множественной детерминации используется следующая статистика:
' Д(л-/я-1) /с' ч
^-^ГдГ' (5-31>
которая имеет /'-распределение с/і=/йи/2 = /і - т — 1 степенями свободы. Здесь Д = R2, а т — количество учитываемых объясняющих переменных (факторов).
Значение статистики F, вычисленное по эмпирическим данным, сравнивается с табличным значением Ffj a. Критическое значение определяется по приложению 2 по заданному а и степеням свободы /j и /2. Если F > FJ^ то вычисленный коэффициент детерминации значимо отличается от 0 и, следовательно, включенные в регрессию переменные достаточно объясняют зависимую переменную, что позволяет говорить о значимости самой регрессии (модели);
проверку качества подбора теоретического уравнения. Она проводится с использованием средней ошибки аппроксимации. Средняя ошибка аппроксимации регрессии определяется по формуле:
(5.32)
? = -•? Уі Уіт >100% п і=\ уіт
• вычисление специальных показателей, которые применяются для характеристики воздействия отдельных факторов на результирующий показатель. Это коэффициент эластичности, который показывает, на сколько процентов в среднем изменяется функция с изменением аргумента на 1% при фиксированных значениях других аргументов:
(5.33)
доля влияния каждого фактора Xj в отдельности на вариацию у}:
(5.34)
где ру - коэффициент бета фактора Xj.
Показатель gj является мерой вариации результативного признака за счет изолированного влияния фактора ху-. Следует отметить, что система факторов, входящая в модель регрессии, - это не простая их сумма, так как система предполагает внутренние связи, взаимодействие составляющих ее элементов. Действие системы не равно арифметической сумме воздействий составляющих ее элементов. Поэтому необходимо определить показатель системного эффекта факторов r\s:
~ т ~ .•і
На основе анализа специальных показателей и значений парной корреляции х с у делают вывод, какие из главных факторов оказывают наибольшее влияние на у. После этого переходят к раз-работке организационно-технических мероприятий, направленных на улучшение значений этих факторов, с целью повышения (снижения) результативного показателя у.
3. Экономическая интерпретация.
Результаты регрессионного анализа сравниваются с гипотезами, сформулированными на первом этапе исследования, и оценивается их правдоподобие с экономической точки зрения.
1 Елисеева И. И., Юзбашев М. М. Общая теория статистики. - М.: Финансы и статистика, 1999.
И. Прогнозирование неизвестных значений зависимой переменной.
Полученное уравнение регрессии находит практическое применение в прогностическом анализе. Прогноз получают путем подстановки в регрессию с численно оцененными параметрами значений факторов. Следует подчеркнуть, что прогнозирование результатов по регрессии лучше поддается содержательной интерпретации, чем простая экстраполяция тенденций, так как полнее учитывается природа исследуемого явления. Более подробно вопросы прогнозирования рассмотрены в следующей главе.