<<

§6. Корреляционная зависимость

Как мы уже отмечали, понятие функции является одним из самых важных в математике, физике и естественных науках. Следующий пример показывает, что понятия функции недостаточно, чтобы описать всевозможные причинные связи, с которыми жизнь нас сталкивает повседневно.

Совершенно ясно, что между ростом и весом человека существует определенная зависимость. Но столь же ясно, что существует сколько угодно людей с одинаковым ростом, но разным весом. Следовательно, зависимость веса от роста не является функциональной, т.к. функции обладают тем свойством, что по заданному значению независимого переменного х можно найти единственное значение зависимой переменной у. Таким образом не может быть такой формулы, по которой, зная точный рост, мы находили бы точный вес.

Ага, скажет наш догадливый читатель! Вес зависит не только от роста, но и от размера талии! Несомненно так, ответим мы, но в то же время можно найти сколько угодно людей с одинаковым ростом и одинаковой талией, у которых, тем не менее, вес различный. Следовательно, вес не является функцией только двух переменных – роста и размера талии. Все ясно, скажет читатель: вес зависит от роста, размера талии, объема груди, размера обуви и т.д. и т.п. Вот тут-то мы и подошли к важному выводу: если искомая функциональная зависимость и существует (а пока еще она никем не обнаружена), то она должна быть исключительно сложной. А поскольку нельзя пользоваться тем, чего нет, то проще описывать эту сложную причинную связь между весом, ростом и другими параметрами человека как-то по иному, минуя классическое определение функции.

Вес и рост человека определяются практически одними и теми же факторами, число которых довольно велико (возраст, наследственность, физиологические особенности, социальные условия, экологическая среда и пр.). Поэтому можно считать, что вес человека зависит от ряда случайных величин, среди которых рост является одной из основных.

Эту зависимость описывают с помощью понятия вероятности. Например, имеет смысл говорить о вероятности того, что вес молодого человека с ростом 175 см равен 75 кг или заключен в пределах от 70 до 80 кг. Зависимости такого рода называются стохастическими, вероятностными или статистическими. Они существуют между биологическими параметрами человека, животного, растения; между способностями студента и его успехами в учебе; между отношением сообщества к образованию и уровнем преступности; между внешним видом солдат и боеспособностью полка. Подобных примеров можно привести сколько угодно. Важнейшим видом стохастической зависимости является корреляционная зависимость. Покажем на примере, как описать корреляционную зависимость по результатам наблюдений.

В таблице приведены данные измерения веса и роста двадцати курсантов школы МВД:

Номер 1 2 3 4 5 6 7 8 9 10
Рост 178 170 181 183 169 178 177 165 187 182
Вес 72 65 92 75 68 79 78 67 80 81

Номер 11 12 13 14 15 16 17 18 19 20
Рост 159 182 178 173 176 173 198 187 191 170
Вес 56 82 77 63 80 65 85 89 87 72

Эти результаты можно представить графически, построив точки с соответствующими координатами:

Полученные точки лежат внутри некоторой области или «облака», которое обозначено пунктирной линией.

Хорошо заметно, что облако вытянуто вдоль какой-то наклонной прямой. Этот факт означает, что величины X и У хорошо скоррелированы, т.е. при увеличении роста вес, как правило, тоже увеличивается. Мы видим, что на некоторых вертикальных прямых внутри облака находится по нескольку точек: 1, 6 и13; 2 и 20; 4, 14 и 16; 9 и 18; 10 и 12. Для точек 1, 6 и 13 средний вес будет (72 + 79 + 77) : 3 = 76; для точек 2 и 20 средний вес будет 68,5 и т.д. Если на вертикальной прямой находится одна точка, то ее вес и есть средний. Соединив средние точки отрезками, получим ломаную линию, которая называется эмпирической линией регрессии. С ее помощью можно приближенно находить средний вес по заданному росту в пределах от 159 см до 198 см. Например, при росте 185 см получаем вес 83,4 кг. Если бы мы провели не 20, а 200 измерений, то точек внутри облака оказалось бы больше, соответствующая линия регрессии была бы по форме ближе к прямой и давала бы более точный средний вес при заданном росте.

Теоретически, каждую точку внутри облака можно считать результатом измерения. При этом допущении линия регрессии, как показывает теория, является прямой. Эта прямая будет графиком некоторой линейной функции, которая называется регрессией. Доказано, что регрессия является наилучшим решением задачи, о которой шла речь в начале этого параграфа — приближенно выразить вес как функцию роста.

Если бы линия регрессии была нам известна, мы смогли бы ее продолжить за пределы облака и вычислить с ее помощью средний вес человека с ростом, например, 195 см. Однако мы можем с достаточной степенью точности решить эту задачу, имея в своем распоряжении эмпирическую линию регрессии — ломаную, изображенную на рис. 25. Для этого заменим ее прямой, используя приведенный выше метод наименьших квадратов. Уравнение искомой прямой имеет вид

у = kx + b,

где

, b = –k

Здесь , и — средние значения роста, веса и их попарных произведений, Dx — дисперсия роста.

Применяя формулы из второй главы, получаем:

= (178 + 170 + ... + 170) = 177,35; 20

= (72 + 65 + ... + 72) = 75,65; 20

= (178 • 72 + 170 • 65 + ... + 178 • 72) = 13485,15; 20

Dx = ((178-177,35)2 +(170 – 177,35)2 + ...+ (170-177,35)2) = 79,1.

Подставляя в предыдущие формулы, находим k и b:

b = 75,65 – 0,8675 • 177,35 = –78,20.

Итак, получим следующее уравнение искомой прямой:

у = 0,87x – 78,20 (24)

Она называется эмпирической прямой регрессии. Подставляя в последнее уравнение х = 195, найдем средний вес курсанта с таким ростом — 91 кг.

Теперь мы можем найти вероятность P(h) того, что вес курсанта с ростом х заключен в пределах от у – h до у + h. Здесь у — средний рост, найденный по формуле (24). Вероятность P(h) вычисляют с помощью функции Лапласа Ф по формулам:

P(h) = 2Ф(а) (25)

(26)

(27)

где п = 20 — число наблюдений. Величины ,, и Dx уже найдены выше; вычислим Sx, Sy и r:

D = ((72-75,65)2 +(65-75,65)2 +...+ (72 -75,65)2) = 86,03;

Теперь можно находить P(h).

Пусть, например, А = 5. Тогда

Значение Ф(0,5) находим по таблице, данной в Приложении на с. 219: Ф(0,5) = 0,1915. Подставляя в формулу (25), получаем Р(5) = 0,383 ? 0,38.

Таким образом, вероятность того, что вес курсанта отличается от среднего веса не больше чем на 5 кг, равна 0,38. Например, при росте 195 см средний вес курсанта будет 91 кг, следовательно, 38% курсантов с ростом 195 см имеют вес в пределах от 86 до 96 кг. Заметим, что формула (26) применяется для таких х, которые удовлетворяют условию: х - х < 3Sx.

Величина г, определенная формулой (27), называется коэффициентом корреляции между величинами X и Y. Коэффициент корреляции играет важную роль в вопросах математической статистики. Он обладает следующими свойствами:

1. –1 = г = 1.

2. Если величины X и Y независимы, то коэффициент корреляции между ними равен нулю.

3. Если величины X и Y связаны линейной зависимостью, то коэффициент корреляции равен 1 или –1. Обратно, если коэффициент корреляции равен 1 или –1, то величины X и Y связаны линейной зависимостью.

При совместном изучении двух случайных величин X и Y прежде всего находят коэффициент корреляции, и если он оказывается близким к единице (по крайней мере большим 0,5), то имеет смысл описывать корреляционную связь тем способом, который мы только что рассмотрели. Проведенные нами расчеты являются приближенными, и их точность зависит от того, насколько близка эмпирическая линия регрессии к теоретической линии регрессии. Точность повышается при увеличении числа наблюдений, т.е. объема выборки.

УПРАЖНЕНИЕ

16. Майор Зимин решил сравнить среднее число книг, прочитанных среднестатистическим восьмиклассником за год, с количеством правонарушений, совершенных подростками в его микрорайоне в течение года. Проанализировав данные за 10 лет, он получил следующую таблицу:

Х 19 25 24 22 18 38 39 30 35 38
Y 20 20 15 15 10 4 6 10 10 5

Здесь X — среднее число книг прочитанных одним восьмиклассником за год, Y – число правонарушений в течение года.

Изобразите данные графически, найдите коэффициент корреляции, постройте эмпирическую ломаную регрессии, определите параметры эмпирической линейной регрессии, найдите вероятность того, что при х = 41 число правонарушений отличается от среднего не более чем на 2.

Мечта майора Зимина — найти число N с таким волшебным свойством: всякий недоросль, прочитавший N книг, становится потенциально образцовым гражданином. Согласно его расчетам, при этом значении N среднее значение у должно равняться нулю, т.е. N = 50. Но будьте снисходительны к майору Зимину — он идеализировал математические методы из самых лучших побуждений!

<< |
Источник: Неизвестный. Математика. 0000

Еще по теме §6. Корреляционная зависимость: