2.4 Проблема отбора наиболее информативных показателей.
большая наглядность (визуализация) данных;
лаконизм получаемой модели, обозримость и простота зависимостей;
3. сжатие объемов хранимой информации о наблюдениях.
Конечно же, возможны иные цели или комбинация перечисленных. Меньшее количество признаков q (как правило, q ^ p ) может выбираться из уже имеющихся p или строиться вновь, как комбинации наблюдаемых показателей. Возможны разные варианты требований к новым показателям,
например: •
В зависимости от вида требований задается критерий оптимальности для предлагаемой системы признаков и строится алгоритм оптимального построения. При этом имеется три основных типа предпосылок к успешному решению поставленной задачи:
дублирование информации (сильная связь между показателями);
неинформативность некоторых из показателей (их незначительная изменчивость при переходе от объекта к объекту);
возможность агрегирования, т.е. объединения нескольких показателей в один без существенного ущерба для информативности.
Поставим задачу снижения размерности формально. Пусть X(1), ...x(p) - на-блюдаемые показатели,
X = (X(1), ...,x(p)),
Z = Z(X) - q-мерная векторная функция, q < p, Z (X) = (Z(1) (X),..., Z (q)(X)), I, (Z (X))-мера информативности или критерий оптимальности. Этот критерий определяется
I
FZ задача ставится так: построить такое Z го масса F, что
I, (Z(X)) = max I, (Z (X)).
Ztr
I, F
му анализу, методу экстремальной группировки признаков, многомерному шкалированию, дисперсионному или регрессионному анализу. Далее следует краткий обзор этих методов, некоторые из которых подробнее рассмо-трены в последующих разделах.