2.3. Разработка методов классификации качества и пригодности технологических процессов 2.3.1. Дискриминантный анализ в задаче классификации с учетом коррелированности показателей
Наблюдения за выполнением экспертизы по картам контроля качества определяются количеством данных заключений xi,x2,...,xp, которые представляют вектор:
Х=(хьх2,...,хр). (2.43)
62
Предполагается что группа испытуемых образцов с одинаковым уровнем качетсва характеризуется многомерным нормальным распределением W^rNim^J)^), где тк—(т^\, mk2,...,mkp) - математическое
ожидание W^. a D;
ст
kij
дисперсионная матрица W^.
В случае классификации на две группы ошибки могут быть в случае если: X принадлежит W2, но его относят к W\, и в результате будет совершена ошибка, вероятность которой обозначим Р(1|2); X принадлежит W\„ но его относят к W2, и в результате будет совершена ошибка, вероятность которой обозначим Р(2\\). Иллюстрация ошибок классификации показана на рис.2.2.
Вероятности ошибочной классификации
x-W.
x-Wn
Рис. 2.2.
Дискриминантная функция zпредставляет линейную комбинацию результатов наблюдений:
z=ql\X\+ а2х2 + ... + 0CnXn, (2.44)
где ocj - набор постоянных весовых коэффициентов. Дискриминантную функцию можно рассматривать как балл, полученный при оценке качества и наличии весов для каждого уровня качества.
Процедура классификации заключается в подборе константы с и отнесении Хк }f|, если zgt;c; и к W2, если zlt;c.
Задача классификации сводится
63
к определению значений щ и с, для которых вероятность ошибочной классификации минимальна. В связи с этим возникают следующие вопросы:
- Какие веса взять для лучшей классификации?
- Какое пороговое значение с выбрать для разделения «качественный», «некачественный»?
В общем случае эта задача является двухкритериальной оптимизационной. Ищется значение, которое максимизирует разность математических ожиданий и одновременно минимизирует дисперсию разности. В качестве свертки критериев используется расстояние Махалонобиса:
А2=(щ-т11(245)
Dz
На основании введенного критерия, двухкритериальная задача переходит в обычную задачу оптимизации, т.е. выбора значений а;, минимизирующих значение функции А2.
Решение этой задачи оптимизации является решением системы линейных уравнений:
а,а J! + а2а12 +... + ара1р =ти- /и21
ajO"21 + СС2С722 + •" + ap(J2p= W21 — т22
(2.46)
La,apl + а2ар2 +... + apGpp= тр1 - тр2
После определения а; наблюдаемому вектору X ставится в соответствие значение дискриминантной функции z.
Константа с выбирается из соображений минимизации вероятности ошибочной классификации. Сумма вероятностей ошибочных классификаций Р(2\\)+Р(\\2) минимальна при выборе константы с:
Mz, + Mz^
с = Ї ?-. (2.47)
64
Таким образом, найденные из соотношений (2.45) и (2.47) значения otj и с полностью решают задачу классификации.
В качестве оценки влияния коррелированности ответов рассмотрим пример для четырех уровней. Пусть разность математических ожиданий баллов тестируемых образцов для двух групп по каждому уровню равна:
ДМ=(1, 1, 1, 1). (2-48)
И корреляции между результатами оценки показателей также отсутствует, тогда для весов заданий справедливо:
Л=(1, 1, 1, О, С2-49)
т.е.
все веса равны. Это объясняется равенством разностей математических ожиданий в данном гипотетическом случае. Если же сделать предположение о наличии даже небольших корреляций, то тогда:
D =
10 0 0
0 1 0.2 0
0 0.2 1 0
0 0 0 1
;(2.50)
Т.е. в данном случае только между заключениями по оценке качества второго и третьего уровня имеется корреляция 0,2. В этом случае решение уравнений для весов будет:
Л=(1, 0,83, 0,83, 1). (2-51)
В данном случае видно существенное снижение весов для
коррелированных заданий.
Однако в реальной ситуации необходимы более точные разности
математических ожиданий правильных заключений на различных уровни
качества.
65
Вероятности положительных результатов
РЬ
о
2345
Pi
Рис. 2.3.
Пусть экспертиза содержит по 25 опросных карт каждого уровня N=(25, 25, 25, 25). Всего оценок - 100. В качестве уровней качества взяты значения Р=(2, 3, 4, 5). В качестве уровня качества 0i=3, 02=4. Кроме того выполнена нормировка весов для того, что максимальных балл по экспертизе был равен 100. На рис.2.3. приведены графики логистических кривых для выбранных параметров групп и параметров качества.
Так, для некоррелированных ответов значения весов будут равны:
Л=(0,42, 0,62, 1,19, 1,76) и с=34. (2-52)
Для той же корреляционной матрицы D в данном случае параметры процедуры классификации будут равны:
Л=(0,45, о,51, 1,14, 1,9) и с=32,5. (2-53)
В результате корреляция между идентификацией второго и третьего
уровня качества снизила их весомость в общей оценке.
Перераспределение опросов на N=(2, 25, 25, 2) с той же корреляционной
матрицей приводит к следующим значениям:
Л=(1,0, 1,1, 2,5, 4,1) и с=41,5. (2-54)
Таким образом, несмотря на сокращение проверок пониженным и
повышенным качеством для оптимальной классификации существенно
изменился вес самых высоких уровней качества. Если корреляция отсутствует, то:
66
Л=(0,85, 1Д5, 2,4, 3,5) и с=43. (2-55)
Таким образом, показано, что корреляция и распределение проверок для различных уровней качества существенно влияют на параметры алгоритма классификации. Имея статистические данные можно вычислить все корреляции и в процедуре классификации заменить дисперсионную матрицу ее оценкой, что повысит эффективность процедур классификации с точки зрения вероятности ошибочной классификации процесса на «качественный» и «некачественный».
Еще по теме 2.3. Разработка методов классификации качества и пригодности технологических процессов 2.3.1. Дискриминантный анализ в задаче классификации с учетом коррелированности показателей :
- 2.3.2. Разработка метода классификации качества с учетом априорной информации
- Таблица 38. Результаты ошибочной классификации катакомбных могильников второй половины V - первой половины VIII вв. методом дискриминантного анализа
- 1.2.2. Анализ методов и моделей построения систем оценки контроля качества технологических процессов
- 9. Классификация технологических процессов
- Отбор наиболее информативных показателей в модели дискриминантного анализа.
- 2.1.5 Классификация методов кластерного анализа, основанных на использовании понятий дистанционной меры и нечеткого множества.
- §2. Классификация преступлений против правосудия с учетом объекта посягательства и ее значение
- 26.3.1. Единая классификация по генетическим и технологическим параметрам
- 3.4. Гипотетические и практические примеры кластеризации на основе латентно-структурного анализа 3.4.1. Гипотетический случай двух классов экспертов при оценке качества технологического процесса
- Разработка плана предоставления медицинской помощи с учетом возможностей сестринского процесса
- Стадник Алексей Викторович. Использование искусственных нейронных сетей и вейвлет-анализа для повышения эффективности в задачах распознавания и классификации, 2004