1.3. Статистическая оценка законов распределения случайных величин
Для применения графического метода анализа распределений необходимо знать, как строить графики распределения, какие существуют типы распределений и какими свойствами обладают те-оретические распределения.
Покажем, каким образом производится обработка статистического материала для нахождения законов распределения случайной величины. Для этого будем рассматривать некоторую случайную величину X. При функционировании экономической системы или ее элемента в течение некоторого времени t случайная величина X может принять п определенных значений. Совокупность этих случайных значений случайной величины в математической статистике называется статистической выборкой объема п. Если расположить отдельные значения случайной величины X в возрастающем или убывающем порядке и указать относительно каждого значе- ния, как часто оно встречалось в данной совокупности, то получится эмпирическое распределение случайной величины, или ва-риационный ряд, на основании которого определяются аналитическая форма неизвестной плотности вероятности Дх), функция распределения F(x) и оцениваются входящие в нее параметры.
Рассмотрим подробнее процедуру построения вариационного ряда.
Весь диапазон значений непрерывной случайной величины X разбивается на интервалы. Далее подсчитывается количество значений /я, случайной величины X, приходящейся на каждый интервал, и определяется частота ее попадания в данный интервал по формуле
(1.36)
Если случайная величина X принимает значение, попадающее на границу /-го и (/ + 1)-го интервалов, то это значение учитывается в числе попаданий в (/ + 1)-й интервал.
Определив таким образом частоты попадания случайной величины X в каждый интервал, получим вариационный (статистичес-кий) ряд, который представлен в табл.
1.3.Таблица 1.3
Вариационный рад Интервал h-h ... - 'ж h ~ '*+1 Частота р* Р? Pt ... P? ... Pk*
Оптимальная длина интервала определяется по формуле
Ax=*max~*min, (137)
1 + 3,21-lgrt ' к ^п
гДе *max — *min ~~ размах вариации случайной величины X.
Число интервалов будет равно:
к=хтах-хт[п Ах
Если к не целое число, то в качестве числа интервалов надо взять ближайшее к к целое число, не меньшее к.
Вариационные ряды могут быть изображены графически в виде полигона распределения и гистограммы.
Полигон распределения представляет собой многоугольник, который строится на прямоугольной координатной сетке следующим образом. В выбранных масштабах на оси абсцисс наносится шкала для фактических значений случайной величины X, на оси ординат—
для частот />*= — (рис. 1.1). Пользуясь этими шкалами, нано- п
ґ \ Щ
Ч «У
сят точки М; с координатами xt и —. Точки Mj
\
ґ
M2x2,f
Ml
тк
xki-^-\ соединяют ломаной линией М{ М2
Л/3 ... Mi... Мк. Крайние точки Мх и Мк, если они не лежат на оси Ох, соединяют также со смежными точками соответственно М0(х0, 0) и Мк+1(хк+ь 0) на оси абсцисс. Полученный таким образом многоугольник Щ М\ М2 ... Mi... Мк Мк+Х является полигоном распределения.
Полигоны распределения чаще всего применяются для изобра-жения дискретных вариационных рядов.
Гистограмма распределения реализаций случайной величины применяется для графического изображения интервальных рядов распределения. Она представляет собой многоугольник, построенный с помощью смежных прямоугольников. В случае непрерывных равных интервалов с шириной интервала Ах гистограмма строится следующим образом (рис. 1.3).
I L
E F
В С
К N
(1.39)
F\x) = p\x p* — частота, или статистическая вероятность, события. Неравенство х,- < х под знаком суммы указывает, что суммирование распространяется на все те значения xh которые меньше х. муле (1.40) ГДЄ /I/ - ЧИСЛО ОПЫТОВ, при которых X < X/. При неограниченном увеличении числа опытов (наблюдений) п согласно теореме Я. Бернулли при любом х,- частота события р*(Х < X,) приближается (сходится по вероятности) к вероятности этого события. Следовательно, если X— непрерывная величина, то при увеличении п график функции F*(x) приближается к плавной кривой F(x) — интегральной функции распределения величины X Таким образом, графическое изображение рядов распределения дает возможность наглядно представить эмпирическое распределение реализаций случайной величины и выразить закономерность ее распределения путем построения статистической интегральной функции распределения. Пример 1.1. Построить гистограмму и статистическую функцию распределения часовой выработки подвижного состава автопредприятия. Значения часовой выработки получены в ходе наблюдения за работой автомобилей-самосвалов КамАЗ-5511 в течение календарного года. Объем выборки составил п = 100 наблюдений. Размах вариации равен: * = *max-*min= 15,13 -.4,0 = 11,13. Количество интервалов вариационного ряда равно: Величина интервала вариационного ряда определена по фор Вариационный ряд часовой выработки автомобиля представлен в табл. 1.4. Таблица 1.4 Вариационный рад часовой выработки автомобиля
Интер-вал Ах,, т 4-5,5 5,5-7,0 7,0-8,5 8,5-10 10-11,5 11,513,0 13,014,5 14,5-16
Частота Pi 0,07 0,14 0,17 0,17 0,15 0,14 0,11 0,05
Решение п-Ах Ах Для построения гистограммы определим ее ординаты из выражения: Отсюда находим: Ах 1,5 А = М = 0,093; Ах 1,5 ?LM = O;073; Ах 1,5 о f = ^ = 0,047; Ах 1,5 # = ^ = 0,093; Ах 1,5 f = ^ = 0,113; Ах 1,5 .8) Ж = М5=ода Ах 1,5 A = 0,113; Ах 1,5 Основываясь на данных табл. 1.4 и проведенных расчетах, построим гистограмму (рис. 1.4). Следует отметить, что при неограниченном увеличении объема выборки п кривая гистограммы частот совпадает с графиком плотности вероятностей. Построим статистическую функцию распределения часовой выработки автомобиля: при х < 4 F*(x{) = 0; при 4 < х < 5,5 F*(x2) = 0,07; при 5,5 < х < 7 Р*(х3) = 0,21; 0,12-" _____ 0,1- | 0,08- 0,060,040,02- чи—————————^ 0 4 5,5 7 8,5 10 11,5 13 14,5 16 * Рис. График статистической функции распределения представлен на рис. 1.5. Р(х) * < 0,8 - I 0,6 - | 0,4 - 0,2 - —> 0 4 5,5 7 8,5 10 11,5 13 14,5 16 * Рис. 1.5. Статистическая функция распределения часовой выработки автомобиля Статистическая функция распределения случайной величины всегда есть разрывная ступенчатая функция, скачки которой происходят в точках, соответствующих возможным значениям случайной величины, и равны эмпирическим вероятностям этих значений. Сумма всех скачков функции F*(x) равна единице. По мере увеличения объема выборки и уменьшения интервалов Ах число скачков становится больше, а сами скачки — меньше; ступенчатая кривая становится более плавной; случайная величина постепенно приближается к непрерывной величине, а ее статистическая функция распределения — к непрерывной функции - интегральной функции распределения F(x).