§6. Корреляционная зависимость

Как мы уже отмечали, понятие функции является одним из самых важных в математике, физике и естественных науках. Следующий пример показывает, что понятия функции недостаточно, чтобы описать всевозможные причинные связи, с которыми жизнь нас сталкивает повседневно.

Совершенно ясно, что между ростом и весом человека существует определенная зависимость. Но столь же ясно, что существует сколько угодно людей с одинаковым ростом, но разным весом. Следовательно, зависимость веса от роста не является функциональной, т.к. функции обладают тем свойством, что по заданному значению независимого переменного х можно найти единственное значение зависимой переменной у. Таким образом не может быть такой формулы, по которой, зная точный рост, мы находили бы точный вес.

Ага, скажет наш догадливый читатель! Вес зависит не только от роста, но и от размера талии! Несомненно так, ответим мы, но в то же время можно найти сколько угодно людей с одинаковым ростом и одинаковой талией, у которых, тем не менее, вес различный. Следовательно, вес не является функцией только двух переменных – роста и размера талии. Все ясно, скажет читатель: вес зависит от роста, размера талии, объема груди, размера обуви и т.д. и т.п. Вот тут-то мы и подошли к важному выводу: если искомая функциональная зависимость и существует (а пока еще она никем не обнаружена), то она должна быть исключительно сложной. А поскольку нельзя пользоваться тем, чего нет, то проще описывать эту сложную причинную связь между весом, ростом и другими параметрами человека как-то по иному, минуя классическое определение функции.

Вес и рост человека определяются практически одними и теми же факторами, число которых довольно велико (возраст, наследственность, физиологические особенности, социальные условия, экологическая среда и пр.). Поэтому можно считать, что вес человека зависит от ряда случайных величин, среди которых рост является одной из основных.

Эту зависимость описывают с помощью понятия вероятности. Например, имеет смысл говорить о вероятности того, что вес молодого человека с ростом 175 см равен 75 кг или заключен в пределах от 70 до 80 кг. Зависимости такого рода называются стохастическими, вероятностными или статистическими. Они существуют между биологическими параметрами человека, животного, растения; между способностями студента и его успехами в учебе; между отношением сообщества к образованию и уровнем преступности; между внешним видом солдат и боеспособностью полка. Подобных примеров можно привести сколько угодно. Важнейшим видом стохастической зависимости является корреляционная зависимость. Покажем на примере, как описать корреляционную зависимость по результатам наблюдений.

В таблице приведены данные измерения веса и роста двадцати курсантов школы МВД:

Номер	1	2	3	4	5	6	7	8	9	10
Рост	178	170	181	183	169	178	177	165	187	182
Вес	72	65	92	75	68	79	78	67	80	81

Номер	11	12	13	14	15	16	17	18	19	20
Рост	159	182	178	173	176	173	198	187	191	170
Вес	56	82	77	63	80	65	85	89	87	72

Эти результаты можно представить графически, построив точки с соответствующими координатами:

Полученные точки лежат внутри некоторой области или «облака», которое обозначено пунктирной линией.

Хорошо заметно, что облако вытянуто вдоль какой-то наклонной прямой. Этот факт означает, что величины X и У хорошо скоррелированы, т.е. при увеличении роста вес, как правило, тоже увеличивается. Мы видим, что на некоторых вертикальных прямых внутри облака находится по нескольку точек: 1, 6 и13; 2 и 20; 4, 14 и 16; 9 и 18; 10 и 12. Для точек 1, 6 и 13 средний вес будет (72 + 79 + 77) : 3 = 76; для точек 2 и 20 средний вес будет 68,5 и т.д. Если на вертикальной прямой находится одна точка, то ее вес и есть средний. Соединив средние точки отрезками, получим ломаную линию, которая называется эмпирической линией регрессии. С ее помощью можно приближенно находить средний вес по заданному росту в пределах от 159 см до 198 см. Например, при росте 185 см получаем вес 83,4 кг. Если бы мы провели не 20, а 200 измерений, то точек внутри облака оказалось бы больше, соответствующая линия регрессии была бы по форме ближе к прямой и давала бы более точный средний вес при заданном росте.

Теоретически, каждую точку внутри облака можно считать результатом измерения. При этом допущении линия регрессии, как показывает теория, является прямой. Эта прямая будет графиком некоторой линейной функции, которая называется регрессией. Доказано, что регрессия является наилучшим решением задачи, о которой шла речь в начале этого параграфа — приближенно выразить вес как функцию роста.

Если бы линия регрессии была нам известна, мы смогли бы ее продолжить за пределы облака и вычислить с ее помощью средний вес человека с ростом, например, 195 см. Однако мы можем с достаточной степенью точности решить эту задачу, имея в своем распоряжении эмпирическую линию регрессии — ломаную, изображенную на рис. 25. Для этого заменим ее прямой, используя приведенный выше метод наименьших квадратов. Уравнение искомой прямой имеет вид

у = kx + b,

где

, b = –k

Здесь , и — средние значения роста, веса и их попарных произведений, Dx — дисперсия роста.

Применяя формулы из второй главы, получаем:

= (178 + 170 + ... + 170) = 177,35; 20

= (72 + 65 + ... + 72) = 75,65; 20

= (178 • 72 + 170 • 65 + ... + 178 • 72) = 13485,15; 20

Dx = ((178-177,35)2 +(170 – 177,35)2 + ...+ (170-177,35)2) = 79,1.

Подставляя в предыдущие формулы, находим k и b:

b = 75,65 – 0,8675 • 177,35 = –78,20.

Итак, получим следующее уравнение искомой прямой:

у = 0,87x – 78,20 (24)

Она называется эмпирической прямой регрессии. Подставляя в последнее уравнение х = 195, найдем средний вес курсанта с таким ростом — 91 кг.

Теперь мы можем найти вероятность P(h) того, что вес курсанта с ростом х заключен в пределах от у – h до у + h. Здесь у — средний рост, найденный по формуле (24). Вероятность P(h) вычисляют с помощью функции Лапласа Ф по формулам:

P(h) = 2Ф(а) (25)

(26)

(27)

где п = 20 — число наблюдений. Величины ,, и Dx уже найдены выше; вычислим Sx, Sy и r:

D = ((72-75,65)2 +(65-75,65)2 +...+ (72 -75,65)2) = 86,03;

Теперь можно находить P(h).

Пусть, например, А = 5. Тогда

Значение Ф(0,5) находим по таблице, данной в Приложении на с. 219: Ф(0,5) = 0,1915. Подставляя в формулу (25), получаем Р(5) = 0,383 ? 0,38.

Таким образом, вероятность того, что вес курсанта отличается от среднего веса не больше чем на 5 кг, равна 0,38. Например, при росте 195 см средний вес курсанта будет 91 кг, следовательно, 38% курсантов с ростом 195 см имеют вес в пределах от 86 до 96 кг. Заметим, что формула (26) применяется для таких х, которые удовлетворяют условию: х - х < 3Sx.

Величина г, определенная формулой (27), называется коэффициентом корреляции между величинами X и Y. Коэффициент корреляции играет важную роль в вопросах математической статистики. Он обладает следующими свойствами:

1. –1 = г = 1.

2. Если величины X и Y независимы, то коэффициент корреляции между ними равен нулю.

3. Если величины X и Y связаны линейной зависимостью, то коэффициент корреляции равен 1 или –1. Обратно, если коэффициент корреляции равен 1 или –1, то величины X и Y связаны линейной зависимостью.

При совместном изучении двух случайных величин X и Y прежде всего находят коэффициент корреляции, и если он оказывается близким к единице (по крайней мере большим 0,5), то имеет смысл описывать корреляционную связь тем способом, который мы только что рассмотрели. Проведенные нами расчеты являются приближенными, и их точность зависит от того, насколько близка эмпирическая линия регрессии к теоретической линии регрессии. Точность повышается при увеличении числа наблюдений, т.е. объема выборки.

УПРАЖНЕНИЕ

16. Майор Зимин решил сравнить среднее число книг, прочитанных среднестатистическим восьмиклассником за год, с количеством правонарушений, совершенных подростками в его микрорайоне в течение года. Проанализировав данные за 10 лет, он получил следующую таблицу:

Х	19	25	24	22	18	38	39	30	35	38
Y	20	20	15	15	10	4	6	10	10	5

Здесь X — среднее число книг прочитанных одним восьмиклассником за год, Y – число правонарушений в течение года.

Изобразите данные графически, найдите коэффициент корреляции, постройте эмпирическую ломаную регрессии, определите параметры эмпирической линейной регрессии, найдите вероятность того, что при х = 41 число правонарушений отличается от среднего не более чем на 2.

Мечта майора Зимина — найти число N с таким волшебным свойством: всякий недоросль, прочитавший N книг, становится потенциально образцовым гражданином. Согласно его расчетам, при этом значении N среднее значение у должно равняться нулю, т.е. N = 50. Но будьте снисходительны к майору Зимину — он идеализировал математические методы из самых лучших побуждений!

<< |

↑

Источник: Неизвестный. Математика. 0000

Еще по теме §6. Корреляционная зависимость:

- Аналитическая геометрия - Вариационное исчисление - Векторный и тензорный анализ - Высшая геометрия - Высшая математика - Вычислительная математика - Дискретная математика - Дифференциальное и интегральное исчисление - Дифференциальные уравнения - Исследование операций - История математики - Комплексное исчисление - Линейная алгебра - Линейное программирование - Математика для экономистов - Математическая логика - Математическая физика - Математический анализ - Пределы - Ряды - Статистика - Теория вероятностей - Теория графов - Теория игр - Теория принятия решений - Теория случайных процессов - Теория чисел - Функциональный анализ -

- Архитектура и строительство - Безопасность жизнедеятельности - Библиотечное дело - Бизнес - Биология - Военные дисциплины - География - Геология - Демография - Диссертации России - Естествознание - Журналистика и СМИ - Информатика, вычислительная техника и управление - Искусствоведение - История - Культурология - Литература - Маркетинг - Математика - Медицина - Менеджмент - Педагогика - Политология - Право России - Право України - Промышленность - Психология - Реклама - Религиоведение - Социология - Страхование - Технические науки - Учебный процесс - Физика - Философия - Финансы - Химия - Художественные науки - Экология - Экономика - Энергетика - Юриспруденция - Языкознание -