Вопросы валидности и надежности эксперимента.
Идеальный эксперимент противостоит реальному, в котором изменяются не только интересующие исследователя переменные, но и ряд других условий. Соответствие идеального эксперимента реальному выражается в такой его характеристике, как внутренняя валидность (validity) — достоверность результатов, которую обеспечивает реальный эксперимент по сравнению с идеальным.
Внутренняя валидность характеризует меру влияния на изменение зависимой переменной тех условий (независимой переменной), которые варьирует экспериментатор. Высокая внутренняя валидность — главный признак хорошего эксперимента (близко к «безупречному эксперименту»).Рассмотрим более подробно центральное понятие «валидность». Обратимся к системе отношений «эксперимент—теория—реальность». На основе теории выдвигается гипотеза, которая, в конечном счете, и проверяется в эксперименте. Методики и план эксперимента должны соответствовать проверяемой гипотезе — степень этого соответствия и характеризует операциональную валидность. Например, в эксперименте по научению резкий звук зуммера используется как эквивалент «наказания» за ошибку, поэтому возникает сомнение в правильности такой интерпретации. В самом эксперименте мы должны максимально учесть, устранить и т. д. влияние побочных переменных на зависимую переменную. Внутренняя валидность характеризует меру влияния независимой переменной на зависимую по отношению к другим факторам. Иными словами, внутренняя валидность тем выше, чем больше вероятность того, что экспериментальный эффект (изменение зависимой переменной) вызван изменением независимой переменной.
Эксперимент должен воспроизводить внешнюю реальность. Эксперимент, который полностью воспроизводит внешнюю реальность, называется экспериментом полного соответствия. Разумеется, в реальности полное соответствие недостижимо. Мера соответствия экспериментальной процедуры реальности характеризует внешнюю валидность эксперимента.
Дополнительные переменные, которые требуют учета в эксперименте, влияют на внешнюю валидность. Если от внутренней валидности зависит достоверность экспериментальных результатов, то от внешней — переносимость результатов из лабораторных условий на реальные процессы и обобщение их на другие сферы реальности.
Наконец, связь теории и реальности отражается в адекватности теории реальности и прогностичности ее предсказаний. Кэмпбелл ввел еще одно важное понятие, характеризующее валидность эксперимента, а именно — конструктивную валидность. Конструктная валидность выражает адекватность метода интерпретации экспериментальных данных теории, т. е. в структуру следует ввести четвертую составляющую — интерпретацию: теория—эксперимент—интерпретация—реальность.
Конструктная валидность, по мнению Кэмпбелла, характеризует правильность обозначения (интерпретации) причины и экспериментального эффекта с помощью абстрактных терминов из обыденного языка или формальной теории.
Таким образом, внутренняя валидность определяется достоверностью интерпретации экспериментального эффекта как связи изучаемой причины и следствия (отношение эксперимент—интерпретация), а конструктная валидность — правильностью употребления терминов той или иной теории при интерпретации данных эксперимента.
Кэмпбелл отмечает, что установление внутренней валидности требует отбрако-вывания альтернативных объяснений связи между зависимой и независимой переменными. Установление конструктивной валидности требует отказа от альтернативных интерпретаций соотношения причины и следствия с понятиями, взятыми из той или иной теории. С точки зрения Кэмпбелла, хороший эксперимент должен:
1) выявлять временную последовательность предполагаемых причины и следствия;
2) показывать, что вероятные причины и эффект взаимосвязаны (ковариантны);
3) исключать влияние побочных переменных, которым можно было бы объяснить экспериментальный эффект;
4) исключать альтернативные гипотезы о теоретических конструктах, объясняющих эту связь.
Для уяснения отношений между основными характеристиками экспериментального исследования полезно запомнить следующую схему: (см. рис. 4.5).
Внутренняя валидность является непременным условием любого эксперимента Кэмпбелл выделил восемь основных факторов, нарушающих внутреннюю валидность эксперимента.
Первую группу можно назвать факторами выборки:
1. Селекция — неэквивалентность групп по составу, которая вызывает систематическую ошибку в результатах.
2. Статистическая регрессия — частный случай ошибки селекции, когда группы отбирались на основе «крайних» показателей (иначе — корреляция из-за неоднородности группы).
3. Экспериментальный отсев — неравномерное выбывание испытуемых из сравниваемых групп, приводящее к неэквивалентности групп по составу.
4. Естественное развитие — изменение испытуемых, являющееся следствием течения времени, без связи с конкретными событиями изменение состояния (голод, усталость, болезнь и др.), свойств индивида (возрастные перемены, накопление опыта и др.).
Вторая группа — побочные переменные, влияние которых приводит к следующим эффектам:
1. Эффект «истории»— конкретные события, происходящие в период между начальным и итоговым тестированием помимо экспериментального воздействия.
2. Эффект тестирования — влияние предварительного тестирования на результат итогового.
3. Инструментальная погрешность — определяется надежностью метода фиксации поведения испытуемого, т. е. надежностью теста; именно надежность влияет на валидность, по утверждению Кэмпбелла, а не наоборот.
4. Взаимодействие факторов: отбора; естественного развития; истории (разные истории экспериментальных групп) и др.
Позже Кэмпбелл описал еще ряд источников нарушения внутренней валидности. Наиболее существенные относятся к экспериментальной процедуре, а именно: компенсаторное сопоставление эффектов различных воздействий, имитация воздействия, когда его на самом деле не происходит и др.
Реальный эксперимент отличается как от эксперимента идеального, так и от самой реальности, которую он призван моделировать. Это отличие фиксируется таким понятием, как «внешняя валидность» психологического эксперимента.
Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, будут соответствовать жизненной ситуации, послужившей «первообразом» для эксперимента. Кроме того, внешняя валидность характеризует возможность обобщения, переноса результатов, полученных в эксперименте, на весь класс жизненных ситуаций, к которым принадлежит «первообразная», и на любые другие.
Надо сказать, что внешняя валидность имеет особое значение на эмпирической стадии развития науки. В принципе возможны такие эксперименты, которые не соответствуют никаким реальным жизненным ситуациям, а служат лишь для проверки гипотез, источником которых является развитая теория. В развитых науках исследователи стремятся избегать «прямого замыкания». Экспериментальный результат — реальность, так как понятно, что эксперимент строится исходя из требований проверяемой теории, а не из требований соответствия реальности. Моделирование некоторых условий, например, в экспериментах по сенсорной депривации или выработке классических условных рефлексов, не соответствует никакой жизненной реальности. При условии, если под реальностью понимать то, что было, а не то, что потенциально может быть. Поэтому многостраничные рассуждения такого солидного автора, как Готтсданкер, по поводу «экспериментов полного соответствия» или «экспериментов, улучшающих реальность», кажутся надуманными и архаичными.
Нельзя отрицать значение «внешней валидности» для эксперимента, если учитывать общее состояние психологической науки, а не «передовой» край психологической теории.
Внешняя валидность иногда трактуется как характеристика эксперимента, определяющая возможность переноса (обобщения) полученных результатов на различные времена, места, условия и группы людей (или животных). Однако возможность переноса является следствием двух причин:
1) соответствия условий эксперимента его «первообразной» жизненной ситуации («репрезентативность» эксперимента);
2) типичности самой «первообразной» ситуации для реальности («репрезентативность» ситуации).
Выбранная для моделирования в эксперименте ситуация может быть совершенно нерепрезентативной с точки зрения жизни той группы испытуемых, которая участвует в эксперименте, или являться редкой и нетипичной.
Внешняя валидность, как определяет ее Готтсданкер, влияет прежде всего на достоверность выводов, которую дают результаты реального эксперимента по сравнению с экспериментом полного соответствия. Для достижения высокой внешней валидности нужно, чтобы уровни дополнительных переменных в эксперименте соответствовали их уровням в реальности. Эксперимент, который не имеет внешней валидности, считается неверным. Добавим, что он неверен, если источником гипотезы является реальность, обыденное знание, а не теория. Эксперимент, не соответствующий реальности, может обладать совершенной внутренней и операциональной валидностью. Другое дело, что прямой перенос его результатов в реальность невозможен без учета влияния на зависимую переменную помимо независимой и дополнительных переменных.
Очевидно, что достижение полной внешней валидности невозможно в принципе, поэтому любое «чистое» аналитическое исследование является внешне невалидным. Вместе с тем рекомендуется максимально учитывать влияние дополнительных переменных на экспериментальный эффект, так как неизвестно, когда будет построена теория для их объяснения, а данные, возможно, придется использовать на практике.
Заботу о внешней валидности эксперимента особо проявляют исследователи, работающие в прикладных областях: клинической психологии, педагогической и организационной психологии. Это понятно, ибо для решения своих повседневных задач им чаще приходится прибегать к постановке экспериментов, имитирующих реальность. По сути, историческая дискуссия сторонников лабораторного эксперимента и «естественного эксперимента» была отражением разного методического подхода специалистов, занимавшихся фундаментальной или прикладной психологией. В настоящее время факторами, влияющими на внешнюю валидность, считают неустранимые особенности эксперимента, отличающие его от реальной ситуации.
Кэмпбелл ставит знак равенства между внешней валидностью, репрезентативностью эксперимента и возможностью генерализации его результатов. Он относит к факторам, угрожающим внешней валидности, в первую очередь эффекты, связанные с особенностями объекта исследования: обучаемость, наличие памяти, способность эмоционально реагировать на ситуации. Кэмпбелл называет главные причины нарушения внешней валидности:1. Эффект тестирования — уменьшение или увеличение восприимчивости испытуемых к экспериментальному воздействию под влиянием тестирования. Например, предварительный контроль знаний учеников может повысить их интерес к новому учебному материалу. Поскольку генеральная совокупность предварительному тестированию не подвергается, то результаты для нее могут быть нерепрезентативными.
2. Условия проведения исследования. Они вызывают реакцию испытуемого на эксперимент. Следовательно, его данные нельзя переносить на лиц, не принимавших участия в эксперименте, этими лицами является вся генеральная совокупность, кроме экспериментальной выборки.
3. Взаимодействие факторов отбора и содержания экспериментального воздействия. Их следствия — артефакты (в экспериментах с добровольцами или испытуемыми, участвующими по принуждению).
4. Интерференция экспериментальных воздействий. Испытуемые обладают памятью и обучаемостью. Если эксперимент состоит из нескольких серий, то первые воздействия не проходят для них бесследно и сказываются на появлении эффектов от последующих воздействий.
Большинство причин нарушения внешней валидности связано с особенностями психологического эксперимента, проводимого с участием человека, которые отличают психологическое исследование от эксперимента, осуществляемого специалистами других естественных наук.
Еще раз отметим, что проблема внутренней валидности разрешима в принципе, так как можно подобрать соответствующие процедуры планирования эксперимента и математической обработки результатов, чтобы обеспечить заданный уровень их достоверности.
Согласно Кэмпбеллу, проблема внешней валидности как репрезентативности эксперимента по отношению к реальности неразрешима, так как индукция, т.е. обобщение, никогда не может быть полностью объективна.
Проблема внешней валидности как адекватности ситуации эксперимента его «первообразной» жизненной ситуации также неразрешима логическими и математическими средствами: она требует привлечения всей совокупности научных психологических знаний для описания ситуации в целом.
Валидность означает пригодность теста измерять то свойство, для измерения которого он предназначен. Следовательно, чем больше на результат выполнения теста или отдельного задания влияет измеряемое свойство и чем меньше — другие переменные (в том числе внешние), тем тест валидней и, добавим, надежнее, поскольку влияние помех на деятельность испытуемого, измеряемую валидным тестом, минимально.
Но это противоречит классической теории теста, которая основана не на дея-тельностном подходе к измерению психических свойств, а на бихевиористской парадигме: стимул—ответ. Если же рассматривать тестирование как активное порождение испытуемым ответов на задания, то надежность теста будет функцией, производной от валидности.
Тест валиден (и надежен), если на его результаты влияет лишь измеряемое свойство.
Тест невалиден (и ненадежен), если результаты тестирования определяются влиянием нерелевантных переменных.
Каким же образом определяется валидность? Все многочисленные способы доказательства валидности теста называются разными ее видами.
1. Очевидная валидность. Тест считается валидным, если у испытуемого складывается впечатление, что он измеряет то, что должен измерять.
2. Конкретная валидность, или конвергентная—дивергентная валидность. Тест должен хорошо коррелировать с тестами, измеряющими конкретное свойство либо близкое ему по содержанию, и иметь низкие корреляции с тестами, измеряющими заведомо иные свойства.
3. Прогностическая валидность. Тест должен коррелировать с отдаленными по времени внешними критериями: измерение интеллекта в детстве должно предсказывать будущие профессиональные успехи.
4. Содержательная валидность. Применяется для тестов достижений: тест должен охватывать всю область изучаемого поведения.
5. Конструктная валидность. Предполагает:
а) полное описание измеряемой переменной;
б) выдвижение системы гипотез о связях ее с другими переменными;
в) эмпирическое подтверждение (неопровержение) этих гипотез.
С теоретической точки зрения, единственным способом установления «внутренней» валидности теста и отдельных заданий является метод факторного анализа (и аналогичные), позволяющий:
а) выявлять латентные свойства и вычислять значение «факторных нагрузок» — коэффициенты детерминации свойств тех или иных поведенческих признаков;
б) определять меру влияния каждого латентного свойства на результаты тестирования.
К сожалению, в классической теории теста не выявлены причинные связи факторных нагрузок и надежности теста.
Дискриминативность задания является еще одним параметром, внутренне присущим тесту. Тест должен хорошо «различать» испытуемых с разными уровнями выраженности свойства. Считается, что больше 9-10 градаций использовать не стоит.
Тестовые нормы, полученные в ходе стандартизации, представляют собой систему шкал с характеристиками распределения тестового балла для различных выборок. Они не являются «внутренним» свойством теста, а лишь облегчают его практическое применение.