2.5 Метод главных компонент.
снимает 11 показателей, тогда как при покупке готовой одежды мы довольствуемся двумя - тремя (размер, рост, полнота).
Формально: пусть X - р-мерый вектор, р - вектор его средних, Ь - р х p - ковариационная матрица, критерий оптимальности задан формулойj Dz(j) 'q = j Dx(i) ^ max,
где Z = L(X — р), L — q х р-матрнца с ортогональными строками (подбирается из условия оптимальности).
Итак, первая главная компонента - такая центрированно - нормирован-
X
средн всех таких комбинаций, ..., k-я главная компонента - такая центрированно - нормированная комбинация, которая некоррелирована с к— 1 предыдущими главными компонентами и среди всех таких комбинаций обладает наибольшей дисперсией. Зачит, элементы матрицы L для первой главной компоненты подбираем из условий
< m „ или > . . ЬЛА/> —> max,
I V^//(1)\2 _ 1 3 г 3 г з '
/DE Zfaj
іЕоГ)2
что в матричной записи имеет вид
< Ь/(1), /(1) > —> max, Ц/1 II = 1,
1
и аналогичных условии для остальных компонент, откуда /(з) - j-й собственный вектор матрицы Ь, имеющий единичную длину, и дисперсия j-й главной компоненты равна собственному числу Аз-. Решение этой задачи возможно всегда, т.к. Ь - симметричная положительно определенная матрица. При этом, если все параметры измерены в единицах одного масштаба, то
Lq
л А'
А1 + ... + Ар
иначе параметры следует предварительно нормировать.
Рассмотрим числовой пример. По данным измерений в миллиметрах длины Ж1, ширины Х2 и высоты хз панциря 24 особей одного из видов черепах определена выборочная ковариационная матрица
451,39 271,17 168,70 Ь = | 271,17 171,73 103,29 168, 70 103, 29 66, 65
Для нахождения собственных чисел решаем кубическое характеристическое А1 = 680, 40, А2 = 6, 50 Аз = 2, 86.
собственные векторы:
0, 81 \ / —0, 55 \ / —0, 21
0, 50 I , /2 = | 0,83 I , /3 = | —0, 25 0,31 / \ 0,10 І \ 0.95
Отсюда при г = 1,2,3 получаем z(j) = < Zj, X >, ще X - вектор отклонений Xj от соответствующих средних значений.
Z
При этом
А — = 0, 9864,
А1 + А2 + Аз
т.е. более 98 процентов информации о всех трех размерах содержится в первой главной компоненте - а значит, ее и нужно использовать для классификации.