<<
>>

1.4 Первичная обработка и группировка данных. Грубые ошибки наблюдений.

Если выборка X имеет небольшой объем и, то мы можем непосредственно приступить к расчету выборочных характеристик наблюдаемой величины. Число

1 n

X = иХщ

i=1

называется выборочным средним или выборочным математическим ожиданием, а

1 п 1 п /1 п \ 2

S2 = U Yx - X)2 = U Y - U Y ч -

и ^ и \ и

i=1 i= 1 \ i= 1 /

выборочной дисперсией.

Эти характеристики не следует путать с математическим ожиданием и дисперсией наблюдаемой случайной величины x. X и S2 - это оценки Mx, Dx по результатам наблюдений и равны последним (теоретическим) характеристикам лишь приближенно. В частности, значение S2

и

применять т.н. исправленную (правильное название - несмещенную) оценку дисперсии:

1

Sg = - X)2.

Г) — '

и1

i=1

В прикладных исследованиях применяются также такие характеристики, как асимметрия и эксцесс:

пп

AsX = ^ Y(xi - ^ ExX = ^ Y(xi - х)4 - з.

i=1 i=1 S S2

характеризуют соответственно смещение пика плотности влево (асимметрия положительна) или вправо (асимметрия отрицательна) относительно середины интервала, и остроту (эксцесс положителен) или пологость (эксцесс отрицателен) этой плотности. Случай нулевого эксцесса соответствует нормальной кривой. Величины

X(1) = min{x1, ...,xn}, X(n) = max{x1, ...,xn} характеризуют размах выборки

T = X(n) - X(1).

Довольно часто бывает так, что выборка содержит повторяющиеся значения или имеется много близких по величине элементов. В этом случае всю

имеющуюся в выборке информацию удобно хранить в сгруппированном виде: Значение X1 X2 Xk Количество таких значений (повторности) ni n2 nk Очевидно, здесь Ek=і nj = n. Теперь выписанные выше формулы примут вид

1 k

, nixi

n

i=1

X = п niXi, S2 = - Ek=i ni(xi - X)2,

1 k

AsX = ni(Xi - X)3, ExX = Ek=i ni(Xi - XX)4 - 3

i=і

и для k ^ n вычисления существенно упрощаются.

Поэтому возникает желание "образовать"повторяющиеся элементы даже если совпадающих элементов в выборке нет. Этот процесс носит название группировки данных.

Далее даются некоторые рекомендации по группировке несгруппирован- ных числовых данных. Группировку можно производить и иначе, но те требования, которые обязательно должны быть выполнены при проведении любой группировки будут отдельно оговорены.

• Определим размах выборки и первоначальное число групп - интервалов. Если это число заранее никак не было определено, рекомендуется пользоваться формулой Стерджеса

r = [log2 n] +1,

где [.] - целая часть, т.е. наибольшее целое, не превосходящее данное. При этом, очевидно, можно использовать вместо формулы Стерджеса следующую таблицу: n 8-15 16-31 32-63 64-127 128-255 256-511 512-1023 r 4 5 6 7 8 9 10 r

ствии число групп может меняться.

• Определим нижнюю границу группировки. Это может быть либо -ж либо 0, либо X(i) - є, где є - достаточно малое число. Наличие здесь его обуславливается одним из двух основных принципов группировки, обязательным для соблюдения при любом способе:

Границы групп не должны совпадать с выборочными значениями

После выбора нижней границы ZQ строим остальные по формулам

zi = X(i) + T/r, zj+i = Zj + T/r, 1 < j < r - 2,

zr = X(n) + є.

Вместо последней формулы можно использовать zr = +ж. Если некоторые из построенных границ попали на выборочные значения - дви-

є

[zj-b zj], j = 1

r

устранено. Итак, построены группы Aj

Вычислим nj - количества элементов выборки, попавших в Aj, j = 1, ... , r

Для всех групп 3 < nj < 19.

Если хотя бы в одной из групп это условие нарушено - необходимо передвинуть границы интервалов или объединить "слишком пустые", или разбить "слишком наполненные "на более мелкие интервалы (со-

r

ся.

Выделенные условия являются основными, и можно проводить группировку "на глазок", ориентируясь лишь на них. После того, как мы добились их выполнения, группировка закончена, и мы заменяем нашу выборку таблицей X Xi X2 Xr ni n2 nr Здесь Xj - середина интервала Aj, j = 1, ...,r.

По сгруппированной выборке можно определить моду, медиану, построить гистограмму и полигон распределения наблюдаемой величины. Мода

- это наиболее часто встречающееся значение, т.е.

то из Xj, для которого nj

и правее которого расположено поровну элементов выборки. Гистограмма

Ai

ni/n, i = 1, ...,r. Полигоном называется ломаная линия с узлами в точках с координатами (Xi, ni/n).

Рассмотрим числовой пример на группировку данных. В опыте по изучению амплитудно-частотной характеристики колебаний руки оператора получены следующие амплитудные характеристики установившихся колебаний в мм (n = 100).

64 72 60 67 63 65 60 75 51 80 65 62 73 62 71 63 55 56 64 61 65 69 69 65 68 58 62 52 68 72 66 62 67 60 68 60 60 58 57 60 64 59 64 65 60 63 59 60 58 62 63 55 61 45 46 64 72 70 70 63 63 41 62 60 69 71 58 60 64 70 73 52 59 54 64 65 70 65 58 52 56 55 60 54 59 71 63 55 55 58 66 62 82 54 74 58 55 62 75 62 Здесь X(i) = 41, X(n) = 82. Размах выборки T = 41. Первоначальное рекомендованное число интервалов r = 7 Длина типичного интервала T/r « 5, 86. Результаты первичной группировки:

интервал Ui 1 40,90-46,76 3 2 46,76-52,61 4 3 52,61-58,47 19 4 58,47-64,33 39 5 64,33-70,19 22 6 70,19-76,04 И 7 76,04-82,10 2 Объединим первые два и последние два интервала. Получим грубую группировку:

Ai 40,90-52.61 52,61-58,47 58,47-64,33 64,33-70,19 70,19-82,10 Xi 46,76 55,54 61,40 67,26 76,04 Ui 7 19 39 22 13 Заметим, что в "переполненных"интервалах значения распределены следующим образом:

59-61 62 63-64 65 66-70 16 9 14 7 15

Таким образом, можно разбить интервал (58,41, 70,19) на 5 интервалов. Получим i Ai xi Ui 1 40,90-52,61 46,76 7 2 52,61-58,47 55,54 19 3 58,47-61,50 59,98 16 4 61,50-62,50 62,00 9 5 62,50-64,50 63,50 14 6 64,50-65,50 64,00 7 7 65,50-70,19 67,85 15 8 70,19-82,10 76,04 13

Окончательно получено 8 интервалов. Чтобы проследить влияние разбиения на выборочные характеристики, приведем значения четырех средних: по полной выборке X = 62, 52; с использованием первичной группировки - 62,22; после усечения краев (грубая группировка) - 62,45; по окончательной группировке - 62,44. Мы видим, что окончательная группировка незначительно сказалась на среднем, а число интервалов увеличилось.

Поэтому вычисления дисперсии, асимметрии и эксцесса проведем с использованием грубой группировки. Заполним таблицу i 1 2 3 4 5 ПІ 7 19 39 22 13 Xi 46,76 55,54 61,40 67,26 76,04 Xi - X -15,46 -6,68 -0,82 5,04 13,82 (Xi - X)2 239,01 44,62 0,67 25,40 190,99 (Xi - X)3 -3695,12 -298,08 -0,55 128,02 2639,51 (Xi - X)4 57126,54 1191,16 0,45 645,24 36478,09 Вычисления дают S 2 = 55, 90, S = a/S2 = 7,48, AsX = 0,13 (пик слегка влево), ЕхХ = 2,91 - 3 = -0,09 (пик скорее острый, чем пологий).

Гистограмма и полигон

40,9 52,6 58,5 64,3 70,2 82,1

Бывает, что среди наблюдаемых значений присутствуют такие, которые сильно отличаются от остальных. Как правило, это крайние по величине наблюдения. Эти наблюдения (если они действительно резко выбиваются из общего ряда наблюдений) называют грубыми ошибками наблюдения. Их желательно исключить из обрабатываемой выборки. Существует много способов (критериев) определения, является ли данное наблюдение грубой ошибкой. Эти способы иногда называют методами цензурирования. Один из таких методов - исключение тех значений, которые оказались в единственном числе при осуществлении группировки выборки, да еще отделены от остальных пустыми интервалами. Другой состоит в том, что отбрасыванию подлежит то значение, которое существенно изменяет X (см. ниже).

Мы приводим следующий критерий: рассчитывается

max | xi — X |

t = S

и сравнивается со значением t„, приводимым ниже в таблице. Если t > tn то выделяющееся значение нужно отбросить. U tn U tn 5 1,972 30 3,291 10 2,616 35 3,364 15 2,905 40 3,424 20 3,079 45 3,474 25 3,200 50 3,518 Следует иметь ввиду, что для уверенного пользования этим критерием нужно, чтобы наблюдения имели нормальный (в смысле распределения) характер. Соответствующий критерий для проверки этого будет дан ниже.

<< | >>
Источник: ОУНЮА. МАТЕМАТИЧЕСКИЕ МЕТОДЫ в психологии. 2001

Еще по теме 1.4 Первичная обработка и группировка данных. Грубые ошибки наблюдений.:

- Акмеология - Введение в профессию - Возрастная психология - Гендерная психология - Девиантное поведение - Дифференциальная психология - История психологии - Клиническая психология - Конфликтология - Математические методы в психологии - Методы психологического исследования - Нейропсихология - Основы психологии - Педагогическая психология - Политическая психология - Практическая психология - Психогенетика - Психодиагностика - Психокоррекция - Психологическая помощь - Психологические тесты - Психологический портрет - Психологическое исследование личности - Психологическое консультирование - Психология девиантного поведения - Психология и педагогика - Психология общения - Психология рекламы - Психология труда - Психология управления - Психосоматика - Психотерапия - Психофизиология - Реабилитационная психология - Сексология - Семейная психология - Словари психологических терминов - Социальная психология - Специальная психология - Сравнительная психология, зоопсихология - Экономическая психология - Экспериментальная психология - Экстремальная психология - Этническая психология - Юридическая психология -