1.3 Данные наблюдений и их виды. Понятие выборки.
этом случае говорят, что мы имеем в нашем распоряжении выборку объема nn
Одно наблюдение называют элементом выборки или выборочным значением. Например, в качестве наблюдаемой случайной величины могут выступать результаты какого-либо тестирования (в баллах) или процент верно опознанных изображений (фонем). Близко к этому расположены данные оценки близости в шкалах "максимально похожи - максимально различны", для которых также нетрудно установить числовые значения.
В практике социальных дисциплин встречаются и нечисловые данные. Отметим, что полностью нерегулярные данные представить себе довольно трудно, и на практике они не встречаются. Всегда имеются некоторые группы (категории) в которые можно отнести наблюдаемые характеристики. Такими группами (категориями) могут служить, например, темпераменты испытуемых (4 категории), данные о географическом происхождении наблюдений, об их времени и т.п. (см. пример с посетителями кафе ниже). В этом случае мы говорим о катетеризованных данных.
Интересным примером является также изучение результатов ранжирования (расположения в порядке убывания значимости) ряда факторов независимыми экспертами. Рассмотрим пример. Пяти студентам, пользующимся общественным транспортом, предложили пронумеровать в порядке убывания значимости следующие факторы: Ч - частота следования транспорта, 3 - степень его заполненности пассажирами, О - оборудование салона (комфортность сидений, кондиционер и т.п.), Д - исправность дверей и окон, К - настроение и доброжелательность кондуктора, С - освещение салона, Ц - стоимость проезда. Самому важному с точки зрения опрашиваемого фактору он присваивает номер 1, следующему по важности - 2 и т.д.
Если студент не может или не хочет упорядочивать несколько факторов (они для него равноценны), то он присваивает им равные номера (ранги). При этом сумма всех присвоенных рангов должна быть равна 1+2+... +7 = 28. Например, если студент уверен, что самые важные факторы - Ц и Ч, но он не может их различить, то каждому из них присваивается ранг (1+2)/2 = 1,5. Данные соответствующего опроса приведены в таблице. Такая таблица называется матрицей экспертных оценок.Встречаются также и данные, имеющие смешанный характер. Для примера рассмотрим следующие результаты наблюдений за 12 посетителями кафе. Ниже xi - сумма, истраченная посетителем, Х2 - время в минутах, проведенное в кафе, x3,x4,x5 - закуска, основное блюдо и напиток, выбранные посетителем. Здесь xi,Х2 - числовые переменные, хз, Х4, Х5 - нечисловые катетеризованные, x3 имеет 3 градации, x4, x5 по 4 градации.
Основные методы обработки данных разработаны для случая числовых данных (выборок). Поэтому важное значение приобретают методы придания нечисловым данным числовых значений (оцифровка). Такие методы мы обсудим ниже. Тем не менее, в силу общего происхождения (из наблюдений), условимся все наши данные далее называть выборочными данными.
Данные ранжирования пятью экспертами семи факторов по убыванию значимости эксперты факторы 1 2 3 4 5 TJ 1 2 2 1 3 3 3 1 2 5 2 О 5 3 6,5 5 5 д 7 4 6,5 5 4 к 6 7 5 5 7 с 4 6 2 5 6 ц 2 5 4 2 1 Двенадцать посетителей кафе
Посетитель Х1 Х2 хз Х4 Х5 1 100 63 1 4 1 2 85 63 1 2 1 3 65 45 1 2 2 4 65 45 2 2 2 5 110 95 2 3 3 6 120 95 2 3 3 7 125 135 2 3 4 8 170 95 2 1 3 9 180 135 2 1 4 10 95 63 3 4 1 И 105 95 3 3 3 12 175 135 3 4 4