2.6 Факторный анализ.
Перейдем к математической модели. Будем считать x(j) центрированными, обладающими нулевыми средними. Если они такими не были, то этого легко добиться, вычитая средние из значений каждого.
X = QF + U,
где Q — p х q-матрица неизвестных коэффициентов при неизвестных факторах F, называемая матрицей нагрузок латентных факторов на показатели X, U - вектор остаточных компонент, необъяснимый с точки зрения вводимых факторов. Предполагается, что U имеет нормальный характер распределения, его компоненты независимы и не зависят от F. Через V
U
X
в выписанной формуле неизвестно.
Для того, чтобы понять связь поставленной задачи с методом главных компонент, предположим, что нашлись (возможно, в неограниченном числе) такие факторы, что
X = AF, Df(i) = 1, г = 1, 2...
Отметим, что матрица A и вектор F в данной записи определены неоднозначно, достаточно взять Z = CF, тогда X = (AC ^.Матрица C может быть любой, но необходимость сохранения некоррелированности новых факторов, накладывает на нее условие ортогональности. Итак, после нахождение каких-то A, F возможно вращение. Теперь через F(m) обозначим
m Am
X
X(m) = AmF(m).
Если теперь мы объявим критерием оптимальности минимальное отличие
X
X(m)
/ (i) = — /(i), лАЇ
где /(i) - г-я главная компонента, а г -й столбец матрицы A имеет вид %/АА , Zi - собственный вектор ковариационной матрицы S исходных показателей, отвечающий собственному числу Ai.
Таким образом, в этом случае мы приходим к методу главных компонент. Если же взять за критерий оптимальности максимальное объяснение корреляции между исходными показателями с помощью латентных факторов, например, оценив адекватность такого объяснения через близость ковариаций между x(i),x(j) и i(i),i(j) соответственно, придем к задаче факторного анализа.В исходной модели оказывается слишком много параметров для их точного определения. Поэтому обычно накладываются некоторые дополнительные условия. Например, можно искать матрицу нагрузок в виде
\ qp,1 qp,2 qp,3
qq,1 qq,2 qq,3
Q=
0 0
qq,q qp,q
0
q2,2
( q1,1 q2,1
т.е. первый показатель мы объясняем только через первый фактор, второй показатель - через первый и второй и т.д. Возможны, конечно, и другие варианты условий, иногда объясняющиеся внутренней логикой решаемой задачи.
Существует несколько разработанных методов для оценивания матрицы QV вимся только на центроидном методе, подробное описание которого также не входит в наши задачи. Опишем только геометрическую интерпретацию этого метода. Аккуратный же подсчет этим или другим методом в каждой конкретной задаче оставим на долю вычислительной техники (соответствующее программное обеспечение имеется в любом пакете прикладных статистических программ).
Отождествим x(1), ...,x(p) с векторами, выходящими из начала координат так, чтобы косинусы углов между г-м и j-м были бы равны коэффициентам корреляции pi,j, а длины этих векторов - Dx(i). Изменим направления некоторых из этих векторов на противоположные так, чтобы как
можно большее число ковариаций стали бы положительными (образуем тес-
/(1)
единичную длину. Перейдем теперь к остаточным показателям, вычитая из каждого из векторов проекцию f(1) па его направление:
x(i1) = x(i) - 3 1f(1).
Далее процесс повторяется с остаточными показателями до тех пор, пока не будет выделено нужное число показателей и определены оценки нагрузок Q.
Для оценивания V применяем соотношениеV = S - QQ
Одной из главных задач факторного анализа является задача оценивания значений латентных факторов для каждого изучаемого объекта. Чтобы понять значимость этой задачи, отметим, что например при изучении результатов некоторого интеллектуального тестирования в роли латентных факторов обычно выступают способности тестируемой личности, а численная оценка таких способностей в той или иной шкале весьма привлекательна.
Предположим, что Q, V мы уже оценили. Метод Бартлетта интерпретирует F, как коэффициенты регрессии pax:
„(i) _ f(j) , ЛО
ХЪ
qi fk) + uk), «-1k-i,...,n.
k — іjJk T "fc j=1
Их находим далее, применяя, как обычно, метод наименьших квадратов:
Fk - (Q4V-1C?)-1C?tXk, k - 1, ...,n.
Другой метод, метод Томсона, "выворачивает"описанный выше процесс наизнанку. Найдем коэффициенты ci , участвующие в соотношении F - CX по методу наименьших квадратов, т.е. решим задачу на минимум:
n q p
ЕЕ f - Е ci j xfV - mjn .
k=1i=1 j=1
При этом, хотя сами fki) неизвестны, нам достаточно знать их дисперсии и ковариации, которые легко извлекаются из соотношения
M ((X)(X)') - (V Q
Получаем
Fk - (I + Q4V-1<)-1дV-1 Xk, k - 1,..., n.
Рассмотрим числовой пример. После изучения оценок 220 английских школьников получена следующая корреляционная матрица оценок по гэльскому языку, английскому языку, истории, арифметике, алгебре и геомет-рии:
X1 X2 X3 X4 X5 X6 qi,1 qi,2 Х1 1 0,439 0,410 0,288 0,329 0,248 0,606 0,337 Х2 0,439 1 0,351 0,354 0,320 0,329 0,611 0,197 хз 0,410 0,351 1 0,164 0,190 0,181 0,458 0,384 x4 0,288 0,354 0,164 1 0,595 0,570 0,683 -0,365 X5 0,329 0,320 0,190 0,595 1 0,464 0,686 -0,335 X6 0,248 0,329 0,181 0,570 0,464 1 0,575 -0,212 Матрица была подвергнута бифакторному анализу. В последних двух столбцах таблицы приведены нагрузки, полученные центроидным методом. Следующая задача - подсчитать значения двух латентных факторов для каждого из 220 учеников, после чего данные можно представить геометрически в виде облака из 220 точек плоскости. Метод Томсона дает
/1 = 0, 245x1 + 0, 208x2 + 0,158x3 + 0, 278x4 + 0, 271x5 + 0,157x6, /2 = 0, 352x1 + 0, 201x2 +0, 309жз - 0, 351x4 - 0, 303x5 - 0,126x6. Простой анализ таблицы и полученных формул дает возможность интер- /1 /2
школьника.