7.2.9 Корреляционный и регрессионный анализы
Дисперсионный анализ позволяет подтвердить влияние тех или иных факторов на исследуемый результативный признак, но он не даёт возможности определить ни степень их влияния (тесноты связи), ни форму зависимости.
Для решения этих опытов используют корреляционный анализ [5, 11, 12]. Чтобы изучить характер влияния одной величины х на другую у выполняют эксперимент, при котором измеряют значение величины у при различных значениях величины х. Если две переменные величины х и у зависят друг от друга так, что каждому значению одной из них соответствует вполне определённое значение другой, то между ними имеется функциональная связь. Эта связь может быть выражена уравнениями, вид которых определяется характером существующей связи.Статистические методы позволяют определить уравнение связи, анализировать параметры процесса, построить математическую модель процесса, или, другими словами, установить взаимную зависимость между различными факторами и технологическими результатами процесса.
Статистическое исследование промышленного процесса включает:
- определение законов распределения параметров процесса для выяснения возможности применения тех или иных статистических методов обработки результатов;
- определение тесноты и формы связи между отдельными параметрами процесса;
- получение статистической модели процесса в виде регрессионного уравнения и оценка его адекватности;
- определение динамических характеристик процесса.
Корреляционный анализ позволяет оценивать тесноту связи различных параметров и факторов, влияющих на процесс. Этот метод широко применяется при исследованиях промышленных процессов. При определении коэффициента корреляции, если он достаточно высокий, можно получить информацию, которая позволяет выбрать основные регулировочные влияния на процесс, точки и методы измерения факторов, установить минимально необходимое число измеряемых параметров.
Если коэффициент линейной корреляции по абсолютной величине мал, это свидетельствует о более сложной (нелинейной) зависимости между измеряемыми параметрами или о существенном влиянии на них других параметров. В этом случае необходимы вычисления более сложной зависимости в виде нелинейного уравнения. Получение таких уравнений методом наименьших квадратов является основой регрессионного анализа.Для корреляционного и регрессионного анализов, как правило, используются данные промышленного процесса (записи в рабочих журналах) и данные специального опробования и специальных исследований.
Регрессионные модели можно использовать, главным образом, для анализа влияния отдельных факторов или их взаимодействия. Кроме того, на регрессионном анализе основано планирования экстремальных экспериментов.
Метод наименьших квадратов
Метод наименьших квадратов применяется в тех случаях, когда искомые величины нельзя измерить непосредственно или представить в виде функций измеряемых величин. Для нахождения п неизвестных величин достаточно выполнить т серий наблюдений (т> п), чтобы составить число уравнений, необходимое для определения неизвестных величин [8, 11, 12, 14].
При экспериментальном изучении функциональной зависимости одной величины у от другой величины х выполняют ряд измерений величины у при различных значениях величины х. Например, на обогатительной фабрике получены различные извлечения при различной продолжительности процесса флотации t. Результаты исследований, представленные точками в координатах ε - t, создают корреляционное поле (рис. 7.3).
Через это поле можно провести кривую и подобрать формулу, которая описывает существующую стохастическую зависимость таким образом, чтобы параметры этой кривой оказались наилучшим (из всех других кривых). Наличие случайных ошибок измерения указывает на нецелесообразность подбора такой формулы, которая точно бы описывала все опытные значения, то есть график искомой функции не должен проходить через все точки (рис.
7.3), а должен сглаживать случайные ошибки.Аналитические выражения, которые выбираются на основе теоретических представлений или понятий простоты и удобства, имеют вид:
; (7.33)
; (7.34)
; (7.35)
(7.36)
и т. д. В общем виде:
. (7.37)
Оценка параметров определяется из условия, что сумма квадратов отклонений измеренных значений уп от расчётных
, (7.38)
принимала бы наименьшее значение.
Размер S2 называется остаточной дисперсией и представляет собой сумму квадратов расстояний от каждой точки корреляционного поля до линии регрессии по вертикали. Нахождение значений параметров , при которых получается наименьшее значение функции:
, (7.39)
состоит в решении системы уравнений:
; ; …; . (7.40)
Система уравнений (7.40) решается в зависимости от вида функций (7.33) - (7.37). Наиболее приемлем тот вид формулы, для которого остаточная дисперсия (дисперсия адекватности) минимальна.
Точность аппроксимации оценивается остаточной дисперсией , которая определяется ошибкой измерения величины у при каждом значении х и, соответственно, не должна значительно отличаться от дисперсии воспроизводимости у . Сравнение по критерию Фишера:
(7.41)
указывает на адекватность регрессионной модели.
В качестве меры оценки информативности уравнения регрессии принято отношение дисперсий:
, (7.42)
где - рассеяние относительно среднеарифметического;
- средний квадрат отклонений (по ординате) точек корреляционного поля от линии ;
- средний квадрат отклонений (по ординате) точек корреляционного поля от эмпирической линии регрессии.
При оценке практической ценности уравнения регрессии важен не столько статистический уровень значимости, то есть превышение Fm, сколько числовое значение F. Не имеет смысла использовать уравнение регрессии, для которого F = 1,4, даже если оно формально значимо. Действительно, если квадратичная ошибка, которая определяет рассеяние результатов наблюдений относительно уравнения регрессии, меньше, чем ошибка, которая характеризует рассеяние результатов относительно среднего, всего в раз, то ясно, что преимущества уравнения регрессии по сравнению с уравнением несущественны.
Регрессионные модели технологических процессов, полученные как в результате активного эксперимента, так и в результате пассивной обработки данных, могут служить для расчёта оптимальных значений параметров. Математические модели содержат существенную информацию о влиянии отдельных факторов и эффектов взаимодействия факторов. Размер коэффициентов уравнения оценивает степень влияния данного параметра или их взаимодействия. Существенную информацию дает знак, которой указывает направление изменения параметра оптимизации (его уменьшение «-» или увеличение «+»).
Корреляция
О наличии или отсутствии связи между двумя случайными величинами в первом приближении судят по корреляционному полю [4, 8, 9].
Для характеристики тесноты связи между величинами Х и Y используют безразмерную величину - коэффициент корреляции rxy, изменяющийся в пределах -1 0,08·2,26, полученная зависимость достоверна с коэффициентом надежности (значимости):
и .
Таблица 7.13 - Результаты исследований и предварительные расчёты
п | |||||||||||||
1 2 3 4 5 6 7 8 9 10 | 8,0 8,3 8,1 8,0 7,9 7,7 7,5 7,6 7,4 7,3 | 0,48 0,52 0,47 0,53 0,62 0,59 0,65 0,69 0,74 0,71 | 82 81 80 78 76 75 74 72 71 70 | 0,22 0,52 0,32 0,22 0,12 - 0,08 - 0,28 - 0,18 - 0,38 - 0,48 | - 0,12 - 0,08 - 0,13 - 0,07 0,02 - 0,01 0,05 0,09 0,14 0,11 | 6,1 5,1 4,1 2,1 0,1 - 0,9 - 1,9 - 3,9 - 4,9 - 5,9 | 0,0484 0,2704 0,1024 0,0484 0,0144 0,0064 0,0784 0,0324 0,1444 0,2304 | 0,0144 0,0064 0,0169 0,0049 0,0004 0,0001 0,0025 0,0081 0,0196 0,0121 | 37,21 26,01 16,81 4,41 0,01 0,81 3,61 15,21 24,01 34,81 | - 0,0264 - 0,0416 - 0,0416 - 0,0154 0,0024 0,0008 - 0,0140 - 0,0162 - 0,0532 - 0,0528 | 1,342 2,652 1,312 0,462 0,012 0,072 0,532 0,702 1,862 2,832 | - 0,732 - 0,408 - 0,533 - 0,147 0,003 0,009 - 0,095 - 0,351 - 0,686 - 0,649 | 80,26 80,62 81,02 78,89 75,93 75,79 73,17 72,75 70,72 70,56 |
Σ | 77,8 | 6,00 | 759 | - | - | - | 0,9710 | 0,0854 | 162,90 | - 0,2580 | 11,780 | - 3,590 | 759,71 |
Ср. | 7,78 | 0,60 | 7,59 | - | - | - | - | - | - | - | - | - | 76,0 |
Таким образом, связь между содержанием полезного компонента в концентрате (), отходах () и извлечением полезного компонента в концентрат () следует считать значимой.
Полученное уравнение регрессии позволяет с достаточной степенью надёжности рассчитывать взаимосвязанные технологические показатели () в зависимости друг от друга.