Внешняя валидность это: Внутренняя валидность психологического исследования — Психологос

Содержание

Внешняя валидность — Психологос

Внешняя валидность (англ. external validity) — вид валидности, определяющий то, насколько результаты конкретного исследования можно распространить на весь класс подобных ситуаций/явлений/объектов. Данное понятие можно рассматривать как междисциплинарное: оно широко применяется в экспериментальной психологии, а также в других сферах науки.

Общие сведения

Внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации. Например, критику психологов-экспериментаторов в том, что о студентах-второкурсниках и белых крысах они знают очень много, а обо всём остальном — очень мало, можно рассматривать как критику внешней валидности.

Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение.

Абсолютным соблюдение внешней валидности считалось бы тогда, когда результаты исследования можно обобщить на любые популяции при любых условиях и в любое время, поэтому учёные говорят не о соблюдении либо несоблюдении внешней валидности, а о степени её соблюдения.

Критерии внешней валидности

Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на

  • другие популяции,
  • другие условия,
  • другое время.

Пример нарушения внешней валидности

Исследование Лоренса Колберга, посвящённое изучению нравственного развития детей, было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития.

Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно генерализовал свою модель на представителей обоих полов.

Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные.

Соблюдение внешней валидности

Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие — например, наблюдение, межкультурные исследования и т. д.

При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, — то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.

Внешняя валидность и виды обобщений за пределами исследовательской ситуации

Сущность понятия «валидность»

Определение 1

Валидность – это комплексная характеристика методики, которая включает сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.

Данное понятие относится к тому, что эта методика измеряет и как хорошо она это делает. Те тесты, которые не обладают валидностью, для практического использования не годятся.

Уровень валидности – это её коэффициент.

На валидность теста оказывают влияние систематические факторы, привносящие в результаты искажения. К ним относятся другие психические свойства, мешающие в результатах теста проявиться тому свойству, на которое направлен тест.

Например, необходимо измерить потенциал обученности, но время исполнения строго ограничено, и допущенную ошибку исправить невозможно. Таким образом, искомое психическое свойство смешается с другим – «стрессоустойчивостью». Те, у кого стрессоустойчивость высокая, выполнять тест будут лучше. Здесь проявляется эффект систематического искажения. Отсюда, единого и универсального подхода к определению валидности не существует.

Исходя из того, какая сторона валидности будет рассматриваться, будут использоваться и соответствующие способы доказательства.

Замечание 1

Методика имеет столько валидностей, сколько существует критериев.

В первом понимании валидность относится к самой методике – это валидность измерительного инструмента, а проверка получила название теоретической валидизации. Второе понимание относится уже не столько к методике, сколько к цели её использования – это прагматическая валидизация.

Для использования психодиагностических методик в практических целях, они должны быть проверены по ряду формальных критериев, которые являются главным элементом методик и доказывают их эффективность и высокое качество.

Основными критериями оценок являются надежность и валидность.

Критерий валидности представляет собой источник информации об измеряемом психическом свойстве, он не зависит от теста и по отношению к нему является внешним. Говорить о валидности теста можно только тогда, когда его результаты будут сравнимы с источником истиной информации об измеряемом свойстве, т.е. с критерием.

Готовые работы на аналогичную тему

В качестве критерия валидности на практике часто используется прагматический критерий, представляющий собой очевидный признак, проявляемый испытуемым независимо от исследуемого качества. Например, данные о выполнении разных заданий, контрольных проб и данные, полученные при помощи других методик, валидность которых доказана.

Виды валидности

В употребление понятие «валидность» было введено Д. Кемпбеллом, который им обозначил уверенность экспериментатора в том, что с помощью определенной методики, он измеряет именно то, что хотел измерить.

Рисунок 1. Основные виды валидности. Автор24 — интернет-биржа студенческих работ

Валидность эксперимента может быть внутренней и внешней. Признак хорошего эксперимента – это высокая внутренняя валидность и, если экспериментальный эффект вызван изменением независимой переменной, то внутренняя валидность будет выше.

Внутреннюю валидность эксперимента, по мнению Кемпбелла могут нарушить несколько основных факторов:

  • селекция – неэквивалентность, вызывающая систематическую ошибку в результатах;
  • статистическая регрессия является частным случаем селекции;
  • экспериментальный отсев при котором из группы происходит неравномерное выбывание испытуемых;
  • естественное развитие – изменение испытуемых в течение времени.

Теоретическая валидность, определить которую можно по соответствиям показателей исследуемых качеств, получена с помощью созданной методики. Проверить теоретическую валидность можно путем корреляции одного и того же свойства, который измеряется различными методами.

В пределах теоретической валидности выделяют конвергентную, конструктную, эмпирическую, внутреннюю валидность.

Благоприятная ситуация использования конвергентной валидности складывается тогда, когда уже есть в психологии валидная методика, которая проверяет изучаемое качество. Если между показателями этих методик корреляция высокая, то это значит, что для новой методики характерна конвергентная валидность.

Когда для измерения какого-либо свойства тест с известной валидностью не опробирован тогда исследователь выдвигает ряд гипотез – будет ли коррелировать новый тест с другими тестами. В основе выдвигаемых гипотез лежат теоретические представления об измеряемом свойстве. Когда они подтверждаются, то это указывает на валидность выдвигаемого конструкта, т. е. конструктную валидность (предполагаемую).

Что касается эмпирической валидности, то исследователь смотрит, насколько клиент в реальной жизни ведет себя соответственно результатам исследования. Кроме этих видов существует ложная, очевидная валидность, валидность, исходящая из опыта, валидность, основанная на желаниях, валидность всех тестовых методик.

Ложная валидность фиксирует видимость пригодности методики, а очевидная валидность соответствует подлинной только в дидактических тестах и иногда действительно исследует реально существующие факты.

В основе валидности, исходящей из опыта, лежат личные чувства психолога для измерения какого-либо качества испытуемого.

Валидность, основанная на желаниях предполагает желание видеть свою методику валидной, не замечая, при этом, противоречащих этому желанию фактов. Для расчета валидности, как показывает практика, должно быть не меньше 50 человек, но, лучше больше 200.

Внешняя валидность

Замечание 2

Внешняя валидность указывает, на какие популяции, ситуации, независимые переменные, параметры воздействия, переменные измерения можно распространить результаты эксперимента.

Например, можно ли использовать методику обучения плаванию 10-летних детей при обучении студентов.

Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, соответствуют жизненной ситуации.

Кроме того, она характеризует возможность обобщения переноса экспериментальных результатов на все жизненные условия — время, место, условия и группы людей.

Возможность переноса является следствием двух причин:

  1. когда условия эксперимента соответствуют его «первообразной» ситуации (репрезентативность эксперимента), например, исследование мотивации учащихся, есть репрезентативный эксперимент, потому что все они находятся в ситуации учебной деятельности и мотивированы на учебу;
  2. типичности ситуации для реальности (репрезентативность ситуации).

В эксперименте ситуация, выбранная для моделирования, может быть с точки зрения жизни совсем нерепрезентативной для испытуемых, может являться нетипичной, редкой.

Внешняя валидность делится на операциональную валидность и конструктную, которая объясняет поведение человека при прохождении им теста.

Кемпбелл говорит о причинах нарушения внешней валидности:

  • Реактивный эффект или эффект тестирования – это возможное увеличение или уменьшение восприимчивости испытуемых к экспериментальному воздействию. Результаты тех, кто прошел предварительное тестирование, будут нерепрезентативны относительно тех, кто предварительному тестированию не подвергался;
  • Условия, при которых организуется эксперимент, вызывают у испытуемого реакцию, значит, результат эксперимента нельзя переносить на тех, кто участия в эксперименте не принимал;
  • Взаимная интерференция – испытуемые имеют память и обладают обучаемостью, и если эксперимент будет состоять из нескольких серий, то, безусловно, первые воздействия бесследно для них не пройдут и скажутся на появлении эффектов от последующих воздействий.

Провести «правильное» исследование с учетом всех условий и требований в реальной практике невозможно. Чаще бывает так, что невозможно подобрать репрезентативные выборки, исключить эффекты селекции, выбывания и возможность переноса результатов на всю популяцию.

Внутренняя и внешняя пригодность применения методик UX исследованиях

Резюме: Плохо спланированное качественное или количественное исследование может дать неверные результаты. Избегайте поощрения определенных ответов или поведения участников исследования, убедитесь, что условия и участники вашего исследования являются репрезентативными.

Любое UX исследование направлено на то, чтобы ответить на основные вопросы о дизайне или о наших пользователях. Какой процент наших пользователей сможет подписаться на нашу рассылку новостей? С какими серьезными проблемами удобства использования нашего сайта его посетители могут столкнуться? Является ли дизайн A более удобным для нашей целевой аудитории, чем дизайн B? Но всякий раз, когда мы проводим UX-исследование, будь то количественное или качественное, существует опасность, что оно не будет отражать реальность, которую мы хотим зафиксировать, потому что исследование некорректно спланировано.
Есть два основных типа ошибок дизайн-исследования:

  • Ошибки внутренней валидности (мера соответствия методик и результатов исследования поставленным задачам), которые склоняют участников к определенному ответу или поведению.
  • Ошибки внешней валидности, которые фиксируют поведение или ситуации, не характерные для нашей целевой аудитории.

Поговорим о каждой из них отдельно. Но, прежде чем мы это сделаем, отметим, что валидность отличается от достоверности. Достоверность исследования просто означает, что вы получите тот же результат, если повторите исследование. Другими словами, результаты не случайны. Существует множество статистических методов для расчета степени надежности исследования, и основной способ повысить достоверность — протестировать большее количество участников. Но достоверность бесполезна без валидности: исследование с высокой надежностью и низкой валидностью — это исследование, в котором вы действительно хорошо оцениваете не то, что нужно.

Внутренняя валидность для UX-исследований

Представим себе исследование, в котором сравниваются два сайта — сайт A и сайт B. Вы пытаетесь решить, какой из двух лучше и вы всегда сначала показываете участникам исследования дизайн сайта A, просите их выполнить некоторые задания, а затем показываете сайт B и просите решить те же задачи. Может ли этот план исследования дать точные результаты, отражающие реальность? Другими словами, определит ли это исследование лучший дизайн?

Не обязательно. Этот план исследования более благосклонен к дизайну сайта B, потому что, когда респонденты дойдут до его оценки, они уже будут ознакомлены с этапами тестирования и с предметной областью — если они, к примеру, тестируют сайты аренды автомобилей, они уже будут знать, что такое LDW (отказ от возмещения ущерба), и, когда они попадут на сайт B, у них уже могут быть определенные ожидания относительно этапов процесса аренды. Они также будут знать, чего вы от них ожидаете и как они должны выполнять задачу. Таким образом, это исследование не имеет внутренней валидности.

(Основное решение этой проблемы состоит в том, чтобы попеременно выбирать, какой сайт исследовать первым, и сначала попросить половину пользователей проанализировать сайт B).

Вывод: исследование имеет внутреннюю валидность, если оно не способствует или не поощряет какую-либо реакцию или поведение конкретного участника.

Недостаток внутренней валидности является проблемой как качественных, так и количественных исследований. При проведении качественных исследований, исследователь может непреднамеренно вызвать у участников предвзятость или определенную реакцию. Например, даже простые вопросы, такие как «Вам было сложно оформить заказ?» может сделать результаты исследования недействительными, потому что респондентов натолкнули на размышления о трудностях, которых может показаться больше, чем обычно (по аналогии с заявлением Ричарда Никсона «Я не мошенник»).

В случае количественных исследований отсутствие внутренней валидности может привести к результатам, которые тяготеют к какому-то одному выводу, но не отражают реальность. Например, в ходе сравнительного исследования вы можете обнаружить, что показатели затраты времени на решение задачи лучше в обновленной версии сайта, чем в оригинальной, и вы можете сделать вывод, что вы отлично справились с редизайном, хотя на самом деле разница было связана с различными условиями исследования — при тестировании исходного сайта использовалось условие «думай вслух», а при тестировании редизайна сайта- нет. (А размышление вслух требует дополнительного времени, поэтому время выполнения задачи может увеличиться.)

В этом примере условие является примером некорректной переменной — скрытой переменной, которая может повлиять на результаты вашего исследования, но которую вы не приняли во внимание при разработке исследования.

Внешняя валидность

Внешняя валидность показывает, насколько ваше исследование натуралистично.

Если вы разрабатываете сайт для пожилых людей и набираете респондентов среди всего населения, будет ли это исследование действительным? Покажет ли это исследование результаты, соответствующие вашей целевой аудитории?

Возможно, нет, потому что более молодые участники, вероятно, будут выполнять задания иначе, чем старшие. Или, если вы тестируете дизайн для мобильных устройств на персональном компьютере, будут ли ваши выводы применимы к мобильному дизайну в реальных условиях? Может быть, да, а может быть, нет — это невозможно узнать наверняка (только если вы не проведете еще одно исследование). В обеих этих ситуациях исследованиям не хватает внешней достоверности (внешней валидности)

Вывод: исследование имеет внешнюю валидность, если участники и структура исследования являются репрезентативными для реальной ситуации, в которой используется дизайн.

Концепция внешней валидности также применима как к качественным, так и к количественным исследованиям — что очевидно.

Рекомендации по дизайн исследованию.

Ниже привожу несколько рекомендаций, которые помогут вам провести исследования, имеющие как внутреннюю, так и внешнюю валидность.

Внутренняя валидность

Случайность важна для обеспечения внутренней валидности.

1. Используйте случайный порядок выполнения задач.

Порядок выполнения задач может влиять на их решение. В начале исследования люди обычно плохо знакомы как со сферой исследования, так и с системой, которую они тестируют. Это нормально, если в процессе выполнения им потребуется больше времени для решения первых задач, возможно, они допустят больше ошибок, чем обычно. С другой стороны, задачи, которые будут им предоставлены в конце выполнения, могут вызвать утомление респондентов.

Вот почему мы настоятельно рекомендуем в любом тесте, качественном или количественном, давать выполнять задачи респондентам в максимально случайном порядке. (Иногда, однако, следование этой рекомендации может быть не совсем выполнимым — например, если задачами являются «вход в систему» и проверка «баланса счета», проверка «баланса счета» не может идти перед «входом в систему»).

Кроме того, чтобы облегчить этап обучения в начале каждого занятия, мы рекомендуем вам подготовить 1-2 разминки (психологи называют их практическими испытаниями, разогревом), которые не имеют отношения к вашему исследованию и предназначены для ознакомления участников с учебной средой и процедурой исследования. Мне нравится выбирать простые задания, которые укрепляют уверенность респондентов и заставляют их расслабиться. Но, если вы все-таки используете задания на разминку, убедитесь, что вы не включаете их результаты в свой анализ.

2. Если ваше исследование сопоставляет два условия и более (например, вы хотите сравнить свой сайт с сайтом конкурента) и каждый респондент будет отвечать на одни и те же вопросы (например, оценивание внутрипредметного дизайна), вам следует сбалансировать или организовать порядок задач для выполнения пользователем таким образом, чтобы не возникало никакой определённой модели или системы (например, порядок, в котором они видят ваш сайт и сайт вашего конкурента).

Эта рекомендация связана с предыдущей — случайный порядок задач. Однако, если вы тестируете, скажем, 2 сайта электронной коммерции, иногда может быть некорректно или невозможно попросить участника сделать покупки на сайте 1, затем добавить элемент в вишлист на сайте 2, затем вернуться на сайт 1 и подписаться на информационную рассылку, а затем совершить покупки на сайте 2 — это будет неправильной и, возможно, запутанной процедурой, если вы хотите, например, собрать анкеты после тестирования, такие как SUS и NPS, для двух дизайнов в конце тестирования.

В этой ситуации мы рекомендуем вам сгруппировать отдельно все задачи для оценки дизайна первого сайта и отдельно для второго. Однако следует рандомизировать порядок, в котором респонденты видят два дизайна: одни сначала видят дизайн 1, а другие — дизайн 2. И в каждой оценке дизайна сайта порядок задач должен быть случайным.

3. Постоянно контролируйте процедуру исследования и ищите некорректные переменные — скрытые факторы, которые могут повлиять на ваши результаты.

Например, предположим, что исследователь заинтересован в сравнении двух сайтов и использует межпредметный дизайн. Она решает изучить сайт A с респондентами, которые приходят утром и сайт B с респондентами, приходящими после обеда. Если исследователь в конечном итоге обнаружит, что показатели респондентов лучше, скажем, при тестировании сайта А, это может быть не потому, что сайт А лучше, а потому, что люди меньше устают по утрам. Точно так же, если вы разделяете с коллегой работу над исследованием, к примеру вы курируете тестирование сайта A, а коллега — сайта B, куратор — это скрытая переменная. Может случиться так, что поведение одного куратора более предвзято, чем поведение другого, или что один из них от природы более приятный человек, и участники чувствуют себя с ней более разговорчивыми и расслабленными.

Таким образом, если вы знаете, что будут какие-либо факторы, которые нужно будет варьировать от одного исследования к другому, убедитесь, что они меняются для всех параметров вашего исследования.

Когда вы составляете программу сравнительного анализа для своей организации, важно тщательно спланировать внутреннюю валидность. Вы должны очень тщательно задокументировать структуру вашего исследования (формулировка задачи, протокол исследования, использовалось ли размышление вслух и т. д.), чтобы на нее можно было положиться в дальнейших исследованиях, которые вы будете проводить для определения результатов улучшения дизайна с течением времени. В противном случае разница в результатах оценки текущей версии сайта и предыдущей версии может быть связана просто с организацией исследования, а не с улучшением удобства использования.

Внешняя валидность.

4. Выбирайте респондентов, которые представляют вашу целевую аудиторию — как с точки зрения демографии, так и с точки зрения пользовательских целей. В целом, исследователи очень тщательно подходят к сбору первичной информации, которая точно соответствует демографическим характеристикам населения, но этого может быть недостаточно для обеспечения внешней валидности. Возможно, участники исследования принадлежат к необходимой демографической группе, но имеют совсем другие цели, чем ваши пользователи (или они просто недостаточно мотивированы). Всегда стремитесь найти респондентов, которые, вероятно, будут преследовать те же цели, что и ваши пользователи.

5. Воспроизведите, насколько это возможно, естественную ситуацию, в которой участники будут использовать пользовательский интерфейс, который они тестируют.

Ваши участники должны использовать ваше мобильное приложение для ремонта автомобилей в своем гараже? Тогда не заставляйте их тестировать его в конференц-зале. Окружающая среда — освещение, грязные руки, место, где находится телефон, доступное время, доступные инструменты — все, вероятно, будет играть роль в том, насколько пригодно это приложение.
Однако, иногда исследование не может быть признано внешне валидным.

Всегда ли возможна внешняя валидность?

В некотором смысле любое исследование не будет иметь внешней достоверности — мы редко используем интерфейсы, когда незнакомец смотрит через плечо или мы сидим за столом или в лаборатории. (В некоторой степени можно даже утверждать, что некоторые дистанционные исследования более результативны с позиции внешней валидности, чем тет-а-тет тестирования, потому что, по крайней мере, участники могут находиться в их естественной среде обитания). Мы также знаем, что респонденты, как правило, ведут себя несколько иначе — они более сговорчивы и более усердны — в ситуации, когда они тестируют приложение, чем сами по себе.

Хотя, иногда дизайн-тестирование в естественной среде может быть слишком дорогостоящим. Например, мы большие сторонники бумажного прототипирования, но у этих типов тестов всегда будет недостаток внешней валидности. Так что же нам делать?

В таких ситуациях неидеальное тестирование лучше, чем отсутствие тестирования в принципе. При бумажном прототипировании страницы вашего сайта или приложения могут оказаться не совсем точными, и вам придется повторно протестировать их позже в естественных условиях. Но цель бумажного прототипа — выявить серьезные препятствия, чтобы вы не тратили деньги на реализацию чего-то совершенно неправильного. Итак, запустите исследование бумажного прототипа, определите серьезные проблемы, исправьте их, а затем перейдите к детализированному прототипу, который вы могли бы протестировать в естественных условиях, на устройстве, которое участники будут использовать для выполнения задачи.

Еще одна распространенная ситуация, не имеющая внешней валидности, — это мобильное тестирование: большинство участников не будут использовать мобильные приложения и сайты с мобильными версиями без перерыва, сидя за столом и подключенными к Wi-Fi. Однако, может быть приемлемо протестировать приложение и в этом случае, чтобы выявить те проблемы, которые будут встречаться даже в идеальных условиях, когда соединение будет отличным и без перерывов. Вероятно, это первые проблемы, которые необходимо будет решить многим сайтам с мобильными версиями — если на сайте есть проблемы даже в идеальных условиях, дизайн необходимо исправить. После того, как вы устраните эти проблемы, вам все равно придется провести повторное тестирование в более реалистичных условиях.

Точно так же некоторые специалисты по количественным исследованиям рекомендуют включать в определенные количественные исследования только экспертов, чтобы уменьшить количество вариантов ответов (отсутствие слишком разных ответов приводит к более низкой погрешности результатов исследования и может позволить исследователям уменьшить количество участников). Опытные пользователи предложат вам лучший сценарий, которым вы будете удовлетворены, при условии, что вы не предполагаете, что результаты будут характерны для абсолютно всех ваших пользователей.

В общем, если вы обнаружите, что вынуждены пожертвовать некоторой внешней достоверностью, крайне важно, чтобы вы всегда интерпретировали свои выводы в контексте и понимали, что они могут не соответствовать действительности, если исследование будет воспроизведено в реальных условиях.

Заключение

Плохо спланированное исследование приведет к некорректным результатам. Возможно, вы потратили впустую время и деньги на проведение исследования, которое ничего не скажет вам о вашем продукте или вашей аудитории. Обратите внимание на внутреннюю и внешнюю валидность вашего исследования — постарайтесь набрать респондентов, которые представляют вашу целевую аудиторию, и убедитесь, что структура исследования воспроизводит то, как ваши пользователи будут применять систему в реальной жизни, и что она не поощряет какую-либо одну реакцию или поведение.

Онлайн-тесты на oltest.ru: Экспериментальная психология

Онлайн-тестыТестыФилософия и психологияЭкспериментальная психологиявопросы76-90

76. Внешние переменные в эксперименте могут быть:
побочными и дополнительными

77. Внешние переменные, порождаемые систематическим смешением факторов времени, задачи, индивидуальных особенностей испытуемых, ведущие к появлению неожиданных данных, называются:
побочными

78. Внешним отличительным моментом психологического эксперимента с участием людей от других видов естественнонаучного исследования является наличие
инструкции

79. Внешняя валидность — это мера …
соответствия экспериментальной процедуры реальности

80. Внешняя переменная, которая существенна для изучаемой связи между причиной и следствием, называется:
дополнительной

81. Внутренний психологический склад человека другими словами называется:
эндопсихикой

82. Внутренняя валидность — это мера …
влияния независимой переменной на зависимую переменную по отношению к другим факторам

83. Возможность и право изменять масштаб шкалы, умножая каждое из ее значений на константу, и производить ее сдвиг относительно произвольно выбранной точки на любое расстояние вправо или влево (прибавлять или отнимать константу) имеется только в шкалах
интервалов и равных отношений

84. Возможность переноса экспериментальных результатов на реальную ситуацию, обобщение их для других объектов реальности, составляет суть __________________ валидности.
внешней

85. Возможность эксперимента (теста) по измерению какой-либо психической переменной является валидностью
содержательной

86. Воспроизводящее исследование в психологии проводится с целью
точного повторения исследования предшественников для подтверждения полученных результатов

87. Впервые, основываясь на бихевиористской традиции, теоретическое обоснование психологического эксперимента дал:
В. Вундт

88. Время реакции в основном можно измерить только экспериментом
лабораторным

89. Все методы, применяемые для получения эмпирического материала, можно условно разделить на:
активные и пассивные

90. Все функции, которые имеют максимум, называются:
изотонными



Разница между внутренней и внешней валидностью (образование)

Обоснованность говорит о обоснованности дизайна и методов исследования. При проведении эксперимента исследователь ставит перед собой две задачи, касающиеся достоверности, то есть делает выводы о влиянии независимой переменной на исследуемую группу и делает выводы о населении в целом. Первая цель подчеркивает внутренняя валидность, в то время как второй фокусируется на внешняя валидность.

Основное различие между внутренней и внешней достоверностью заключается в том, что первое говорит о связи между переменными, а второе касается универсальности результатов. Для дальнейшего понимания темы, прочитайте эту статью.

Содержание: Внутренняя валидность против внешней валидности

  1. Сравнительная таблица
  2. Определение
  3. Ключевые отличия
  4. Вывод

Сравнительная таблица

Основа для сравненияВнутренняя валидностьВнешняя валидность
СмыслВнутренняя достоверность — это степень, в которой эксперимент свободен от ошибок, и любая разница в измерении обусловлена ​​независимой переменной и ничем иным.. Внешняя достоверность — это степень, в которой результаты исследования могут быть выведены для всего мира..
Обеспокоенконтрольнатуральность
Что это? Это мера точности эксперимента.Он проверяет, могут ли случайные отношения, обнаруженные в эксперименте, быть обобщенными или нет.
ИдентифицируетНасколько сильны методы исследования?Можно ли применить результаты исследования к реальному миру??
ОписываетСтепень, до которой обоснован вывод.Степень, в которой обосновано исследование, чтобы обобщить результат в другой контекст.
Использовал кОбратитесь или исключите альтернативное объяснение результата.Обобщить результат.

Определение внутренней действительности

В статистике внутренняя достоверность используется для обозначения меры точности, которая проверяет обоснованность эксперимента, особенно в отношении смешения. Он измеряет, вызывают ли независимые переменные наблюдаемое влияние на зависимые переменные или нет. Когда наблюдаемые эффекты находятся под влиянием или смешиваются с посторонними переменными, тогда будет трудно сделать обоснованные выводы о взаимосвязи между переменными..

Просто внутренняя действительность относится к степень, в которой обоснованные причинно-следственные связи основаны на эксперименте, установлено, в какой степени эксперимент избегает систематических ошибок.

Высокая внутренняя достоверность позволяет исследователю с достаточной уверенностью выбирать одно объяснение из другого, поскольку оно игнорирует ошибки. Чем меньше путаницы в эксперименте, тем выше его внутренняя обоснованность.

Определение внешней действительности

Термин «внешняя достоверность» подразумевает определение того, можно ли обобщить случайные отношения, наблюдаемые в исследовании, или нет. Это констатирует, Можно ли обобщить результаты, полученные в ходе эксперимента, на другие ситуации и, если да, то на какие параметры, группы людей, время можно экстраполировать?

Внешняя валидность определяет правильность результатов исследования, изучая его применимость от одного параметра к другому. Угрозы внешней достоверности имеют место, когда конкретный набор условий исследования практически не учитывает взаимодействия других переменных реального мира..

Два типа внешней валидности, которая измеряет силу исследования:

  • Достоверность населения
  • Экологическая обоснованность

Ключевые различия между внутренней и внешней валидностью

Представленные вам пункты описывают различия между внутренней и внешней валидностью:

  1. Степень, в которой эксперимент свободен от ошибок и любой разницы в измерении, обусловлен независимой переменной, и ничто другое не известно как независимая переменная. Степень, в которой результаты исследований могут быть выведены для всего мира, известна как зависимая переменная.
  2. Внутренняя валидность — не что иное, как мера точности эксперимента. Напротив, внешняя достоверность проверяет, можно ли обобщить причинно-следственную связь между зависимой и независимой переменными, обнаруженными в эксперименте, или нет..
  3. Внутренняя валидность связана с контролем над посторонними переменными, тогда как внешняя валидность подчеркивает применимость результата к практическим ситуациям..
  4. Внутренняя валидность определяет силу методов исследования и дизайна. И наоборот, внешняя валидность исследует общность результатов исследования с реальным миром..
  5. Внутренняя действительность определяет степень, в которой заключение является обоснованным. В отличие от этого, внешняя достоверность определяет степень, в которой обосновано исследование для обобщения результата в другой контекст.
  6. Внутренняя валидность либо устраняет, либо устраняет альтернативное объяснение результата. Напротив, внешняя валидность используется для обобщения результатов.

Вывод

Ожидается, что экспериментальный дизайн будет иметь как внутреннюю, так и внешнюю валидность. Внутренняя достоверность является наиболее важным требованием, которое должно присутствовать в эксперименте до того, как будут сделаны какие-либо выводы относительно эффектов лечения. Чтобы установить внутреннюю действительность, необходимо контролировать внешнюю действительность. С другой стороны, внешняя валидность является краеугольным камнем хорошего эксперимента, и его немного сложно достичь..

Внешняя валидность и виды обобщений за пределами исследовательской ситуации

Оценка валидности реально проведенных экспериментов осуществляется через «внутренние очки», сквозь призму которых видны направления возможных или уже допущенных ошибок при разработке и проведении эксперимента. Р. Готтсданкер использовал удобную технику представления мысленных образцов эксперимента в виде таких инструкций.

Не следует путать термины «мысленный эксперимент» (МЭ) и «мысленная схема» эксперимента. ДОЭ можно понимать, во-первых, как принятую норму размышлений психолога на всех этапах следования логике экспериментальной проверки психологической гипотезы. Во-вторых, DOE можно рассматривать в контексте использования психологом мысленной репетиции для оценки контроля угрозы для вывода эмпирической зависимости. В-третьих, МЭ может представлять собой такой эксперимент, который невыполним из-за отсутствия средств операционализации переменных, принятия определенных этических норм или экономических соображений и т.д.

В первых двух случаях путь продуманного экспериментирования — это обсуждение экспериментальной модели, которая определяет взаимосвязь между переменными, интересующими исследователя, при анализе эксперимента, который был фактически проведен или запланирован для фактического сбора данных. В третьем случае МЭ может представлять собой разработку заведомо нереального, т.е. в принципе невыполнимого, исследования. Тем не менее, он представляет собой один из способов, с помощью которого можно было бы спроектировать результаты, если бы у исследователя был доступ к предполагаемым формам экспериментального контроля.

Как и реальный эксперимент, мысленный эксперимент является средством проверки не всех психологических гипотез. Детерминистически сформулированные гипотезы, проверяемые в ДОЭ, могут быть причинно-следственными и структурно-функциональными. Последние не являются предметом экспериментов в строгом смысле слова, но могут направлять построение, например, формирующих экспериментов. Методы теоретического моделирования, которые больше подходят для проверки структурно-функциональных гипотез, не рассматриваются в данном учебнике, который построен как введение в эксперимент как метод сбора эмпирических данных.

При планировании психологического эксперимента можно понимать ДОЭ и как реализуемый во внутреннем, психическом ходе экспериментальной деятельности, внешне реально развернутый в этапах проведения эксперимента. Фактически, все этапы планирования являются вариантами мысленного экспериментирования с целью определения лучших форм экспериментального контроля, выбора лучшего из возможных экспериментальных планов.

Помимо планирования, функция мысленного эксперимента заключается в обосновании или оценке валидности фактически проведенных экспериментов. Ментальные паттерны, в терминах которых оцениваются свойства реального эксперимента, позволяют нам обсудить основные аспекты «правильности» построения экспериментальной модели. Правильность в данном случае означает лишь степень приближения к наилучшему мысленному воплощению условий эксперимента, соответствующих данной экспериментальной гипотезе. Экспериментатор может выбрать переменные, технику как средство операционализации этих переменных правильно или неправильно, обосновать или нет. Экспериментатор может вводить смеси НП с другими переменными или успешно избегать смесей. Он может получить более или менее надежные данные, задав определенное количество образцов для каждого из условий НП; он может обеспечить случайное распределение условий для вспомогательных переменных по уровням НП, или он может не контролировать несистематическую изменчивость (НП, ПД, вспомогательные факторы).

Именно такое прочтение функций ментальных паттернов представлено в понятиях идеальных и бесконечных экспериментов, экспериментов полного согласия и безошибочных экспериментов, используемых Р. Готтсданкером. Все эти четыре термина служат для уточнения критериев, по которым следует оценивать успех планирования, организации и проведения реалистичного эксперимента.

В контексте рассматриваемых норм профессиональной аргументации психолога термин «мысленный эксперимент» является одной из таких норм (или «внутренних точек»), которые психолог может использовать для ответа на многие вопросы об уровне эмпирической поддержки, достигнутой для проверяемой каузальной гипотезы. Однако не существует рецепта, как использовать эти «очки» в каждом конкретном случае. Иногда от них приходится отказываться, если характер исследования не таков, чтобы к нему можно было применить установленные нормы оценки экспериментальных гипотез. Такой отказ, однако, не следует путать с неспособностью правильно организовать и провести психологический эксперимент.

Виды валидности в оценке психологического эксперимента

Виды валидности — это направления сравнения реально проведенных экспериментов с мысленными образцами. Оценка валидности относится как к оценке реализации выбранных форм экспериментального контроля, так и к оценке системы выводов в организации исследования с точки зрения соответствия нормам экспериментального вывода. Нормы, связанные с возможными обобщениями по результатам психологических экспериментов, включают в себя различные типы валидности.

Внутренняя и внешняя валидность — это обязательно обсуждаемые аспекты валидного эксперимента, будь то эксперимент в научных или практических целях. Различия в выводах из этих экспериментов будут связаны с тем, как построено обобщение: переносимо ли оно на других людей, другие ситуации, виды деятельности или на теоретическую модель.

Внутренняя валидность эксперимента говорит лишь что-то об изучаемой зависимости, то есть о связи между независимыми и зависимыми переменными, но ничего о возможности их распространения за пределы данной экспериментальной ситуации. Если полученные данные характеризуются ненадежностью или наличием смещений (систематических, несистематических, сопутствующих), утверждение, сформулированное в экспериментальной гипотезе, не может считаться достоверным, даже если получен соответствующий ему экспериментальный эффект.

Если внутренняя валидность проведенного эксперимента классифицируется как высокая, из этого еще не следует, что экспериментально установленная зависимость также соответствует действительности. Таким образом, в лабораторных экспериментах экспериментальная модель может представлять собой научную модель, которая отражает определенные отношения между операционализированными переменными. Возможно, что для этих моделей типы субъективной реальности, которые они должны представлять в экспериментальной ситуации, впоследствии не обнаруживаются. Таким образом, не существует эмпирии, к которой можно было бы применить обобщение зависимости, обнаруженной в эксперименте.

Внешняя валидность, которая включает решение проблем соответствия (NP, PD, DP), обеспечивает возможность обобщения на типы ситуаций или деятельности, которым соответствуют экспериментально контролируемые переменные. Когда дело доходит до теоретических обобщений, оценка внешней валидности уступает место оценке валидности конструкции. Прояснение вопросов валидности конструкции и внешней валидности приводит исследователя к выбору типа эксперимента: естественный («дублирующий реальный мир»), искусственный (расширяющий реальный мир) или лабораторный.

Необходимо различать системы теоретических утверждений, предполагающих, что они относятся к миру реальности (для психологических теорий это мир субъективной или психологической реальности), и утверждений, не ставящих целью соотнести мир теории и эмпирии (как онтологическую реальность, если использовать терминологию П. Фресса и Ж. Пиаже). Это различие может касаться позиции автора: «Если моя теория несовместима с миром реальности, то она — реальность — должна быть хуже». Это может быть следствием того, что сформулированные психологические конструкты не согласуются на уровне экспериментальных данных. При рассмотрении свойств экспериментального метода речь идет о другом — о способности эмпирически оценить теоретические причинные объяснения.

В экспериментальном методе исследование строится таким образом, чтобы отвергнуть неадекватные объяснения или «ложные» теории как не соответствующие эмпирически установленным зависимостям. Чаще всего различие между продуктивным теоретизированием и псевдотеоретизированием связано с тем, что всегда необходим значительный «прорыв» в обобщении, чтобы связать закономерности, обнаруженные при построении экспериментальных ситуаций (экспериментальных моделей) и теоретических моделей, хотя бы через гипотетические конструкты. Только содержательное обсуждение связи между переменными, установленной в каузальной гипотезе, с учетом объяснительных принципов, сложившихся в рамках конкретных психологических школ, позволяет исследователю настаивать на реальности, т.е. «эмпирической нагрузке», психологических концепций, стоящих за изучаемыми переменными и зависимостями. Анализ эмпирической нагрузки гипотез, вытекающих из теории, играет существенную роль в качестве «ограничителя» для утверждения псевдозаконов.

Понятие валидности конструкта включает в себя актуальный аспект оценки правильности экспериментального дизайна: насколько обоснованным был переход от представленных в теоретической гипотезе понятий — психологических конструктов к их эмпирическим репрезентациям в виде NP, ST, DP, а также насколько объяснение установленной зависимости действительно следует из представленной автором теории. Еще до выбора конкретных методов или уже при их обосновании экспериментатор совершает тот «прорыв» в обобщении (от теории к эмпирике), который связан с разнообразными экспериментальными воплощениями универсальных утверждений. Один и тот же конструкт (например, понятие агрессии или фрустрации) может предполагать различные модели возникновения и регуляции изучаемых явлений, т.е. всегда возникает вопрос об авторской позиции, стоящей за используемой психологической концепцией. От этой позиции во многом зависит, как будут заданы переменные на уровне экспериментальных и контргипотез.

Оценка

Проблема возможных множественных интерпретаций одной и той же экспериментальной зависимости, рассмотренная ранее, охватывает другой аспект валидности конструкта, а именно, насколько валидным выглядит введение автором гипотетических конструктов в причинно-следственную зависимость в качестве объяснения связи между НП и СТ. Хорошо известно, что отсутствие сильных конкурирующих объяснений является третьим условием причинного вывода. В действительности конкурирующие объяснения всегда остаются, вопрос лишь в том, насколько более обоснованной кажется авторская интерпретация по сравнению с другими объяснениями одной и той же установленной зависимости. Очевидно, что эта оценка является содержательной, а не просто формально-логической (которую также следует рассматривать как проявление логической компетентности автора). Уже принятие той или иной позиции может обозначить предвзятость экспериментатора, но оценка валидности конструкта не может быть тем более предвзятой, поскольку связана с отражением в гипотезе накопленных знаний об изучаемой реальности.

Проблема заключается не в различии между старыми и новыми гипотезами, которые в той или иной степени поддерживаются эмпирическими аргументами. V. Налимов назвал эту проблему одним из парадоксов в понимании развития науки вслед за К. Поппером. Кажется парадоксальным, что новая гипотеза, в пользу которой существует меньше теоретических и эмпирических аргументов, со временем вытесняет старую, которая, как правило, лучше подтверждается проведенными исследованиями. Проблема заключается в том, как автор может заставить предполагаемого профессионального читателя исследовательского отчета признать, что автор достоверно представил теоретически подразумеваемые конструкты на уровне эмпирической реальности, а не вольно или невольно заменил их другими.

Таким образом, оценка валидности перехода от уровня теоретических предложений к уровню экспериментальных и контргипотез — это вопросы конструктивной валидности эксперимента. Решение проблем операционализации переменных в методических процедурах их измерения (и контроля) — это вопросы операциональной валидности. Если обобщение зависимости предполагает ее перенос на «реальные», т.е. реально существующие типы человеческих ситуаций и деятельности, то это и есть решение проблем приспособления переменных с точки зрения внешней или, как ее теперь иногда называют, экологической валидности.

Оценка операциональной валидности включает этап перехода от уже сформулированных экспериментальных и контргипотез к процедурам их методического оформления. Одна и та же переменная может быть представлена показателями разных методик. Одна и та же мысленная модель эксперимента может быть реализована с совершенно разными «техническими» или операционными проявлениями контрольных и измерительных переменных.

Популяционные гипотезы, направленные на обобщение на конкретные группы людей и целые популяции, могут быть оценены с помощью ментальной выборки, но не поддаются ментальной проверке. Эти дополнительные переменные, которые должны учитываться исследователем в целях обобщения, не дают обоснования условий необходимости или достаточности, связанных с представлением в реальном поведении человека или в реальных ситуациях механизмов, рассматриваемых в МЭ.

Факторы, угрожающие внутренней валидности эксперимента, рассматриваются в контексте обсуждения формального дизайна как условия принятия решения об экспериментальных фактах. Разработка межгрупповых или внутрииндивидуальных схем направлена в первую очередь на обеспечение контроля внутренней валидности. Что касается стратегий отбора испытуемых в группы из популяций, то здесь также следует обсудить соотношение между внешней (популяционной) и внутренней валидностью, поскольку эти стратегии решают одновременно две проблемы: обеспечение репрезентативности выборки испытуемых и эквивалентности сравниваемых групп.

Конструктивная валидность и концептуальные репликации

Психологическая гипотеза, которая была эксплицирована или выведена как следствие теоретической концепции, может быть несколько изменена при повторной проверке, если меняются средства операционализации содержащихся в ней переменных. Когда необходимо раскрыть одну и ту же теоретически предположенную зависимость, но психологические конструкты инстанцируются различными методологическими средствами, это известно как концептуальная репликация. Таким образом, при многократном измерении зависимой переменной с использованием различных методик повышается достоверность утверждений о природе изучаемого процесса. Изменения в типах задания независимой переменной также расширяют диапазон обобщений наблюдаемой психологической закономерности. Важно, чтобы не нарушалась однозначная интерпретация самого психологического конструкта («мотивация достижения», «функциональные состояния», «гибкость — ригидность контроля» и т.д.).

На самом деле, одно и то же понятие часто используется в психологии для изучения глубинных процессов на разных уровнях, т.е. эксперименты с терминологически схожими формулировками гипотез имеют совершенно разные типы переменных. В качестве примера рассмотрим конструкт «импульсивность». Существует множество теоретических расхождений в обосновании процедур, претендующих на измерение переменной импульсивности как индивидуальной или личностной черты. Некоторые из них связывают импульсивность со снижением рациональности, функции планирования, отсутствием самоконтроля, то есть с одной из обобщенных особенностей человеческого поведения. Другие измеряют импульсивность как когнитивный стиль. Другие настаивают на связи импульсивности с особенностями темперамента. Допустим, что авторы находятся в рамках сходных методологических подходов к пониманию личности, например, с позиции теории черт, но даже в этом случае трудно достичь согласия относительно того, что является психологической реальностью, соответствующей данной черте.

По мнению Г. Айзенка, необходимо различать черты личности, понимаемые как проявления поведения в строго ограниченных областях, и типы или измерения личности, которые связаны с проявлением значимых форм поведения в более общем виде. Черта Импульсивность отличается тем, что занимает промежуточное положение в иерархии личностных черт между этими двумя уровнями. Он включает в себя 4 фактора: стремление к риску, снижение или отсутствие планирования, живость реакции и «узкая импульсивность». Существенно, что благодаря структуре этого «гибрида» Г. Айзенк соглашается с одним из утверждений, вытекающих из результатов исследования Р. Кеттелла: с правомерностью взаимных корреляций между различными шкалами, выделяемыми в теориях черт.

Впоследствии термин «импульсивность» претерпел следующие изменения в совместной работе Ганса и Сибил Айзенк. Во-первых, «импульсивность» была включена вместе с «общительностью» и «живостью» как часть фактора «экстраверсия». Затем, из-за выделения «психотизма» как фактора второго порядка, было проведено различие между «склонностью к риску», которая связана с экстраверсией, и «импульсивностью» в более узком смысле, которая более тесно связана с «психотизмом» (импульсивностью в широком смысле). Попытка выделить «склонность к риску» и «узкую импульсивность» в качестве отдельных шкал оказалась по-разному успешной для женской и мужской выборок.

Таким образом, существует достаточно возможностей для уточнения психологического конструкта «импульсивность» даже в рамках одного исходного понятия. Обобщение для проверки гипотез, связанных с переменной импульсивности, должно учитывать внешние и внутренние детерминанты, которые были определены для этой черты.

Особенности оценки достоверности лабораторного эксперимента

Особым случаем является обобщение, которое предполагает организацию «очищенных» условий в эксперименте для проверки так называемых точных гипотез. Обычно это функция лабораторных экспериментов: получение данных в условиях, соответствующих причинно-следственным связям в специально сформулированной модели, чтобы эмпирически оценить объяснительную силу этой теоретической модели. Теоретические обобщения, однако, относятся не только к линии рассуждений типа «эксперимент — модель — теория». Оценка силы определенных обобщений выявляется также при анализе свойств самой теории — относящейся к «миру теорий» (а не к миру «психологической реальности»). Независимо от того, моделирует ли эксперимент ситуацию, которая отражает теоретическую модель или модель «внешнего мира», оценивается как объяснительная сила предложения, сформулированного в качестве экспериментальной гипотезы, так и возможность перехода от теории как объяснительной системы к этому эмпирически нагруженному предложению. ЭГ как эмпирическая гипотеза будет включать переменные, которые можно не только наблюдать, но и измерять (по той или иной шкале).

Конструктивная валидность обсуждается во всех типах экспериментов с научной целью как адекватность перехода от научной гипотезы к экспериментальной гипотезе или от «рабочей» к интерпретационной теоретической гипотезе. Обсуждение вопросов операциональной валидности включает фазу перехода от уже сформулированных экспериментальных и контргипотез к методологическим процедурам реализации в экспериментальной модели или ситуации. Р. Готтсданкер рассматривает понятие операциональной валидности только применительно к такому типу эксперимента, как лабораторный эксперимент. В этом случае два этапа развития методологических процедур, упомянутых выше, не различаются, поскольку предполагается, что психологический конструкт представлен в том, как он измеряется. Это может быть обосновано, с одной стороны, несводимостью обобщенного понятия к его эмпирическому содержанию, а с другой — возможной неспецифичностью методологических показателей.

В целом, считается, что валидность эксперимента подразумевает все формы экспериментального контроля, направленные на обеспечение всех видов валидности. Результаты валидного эксперимента могут служить основой для надежных выводов, если в целом реализована логически обоснованная система умозаключений, включающая взаимные переходы между различными уровнями гипотез, проверяемых в эксперименте. Если все возможные или очевидные угрозы внутренней и внешней валидности контролируются, а проблемы операционализации и сопоставления переменных хорошо решены, то такой эксперимент считается валидным или «правильным». Valid — валидные или «правильные» — выводы могут быть сделаны из правильно поставленного эксперимента, что означает, что в нем нет ошибок обобщения или умозаключения, но ошибки в умозаключениях возможны.

Ошибки в выводах или ненадежные заключения возможны как из-за неправильных обобщений, так и из-за недействительных экспериментов. Поэтому понимание экспериментирования как сенсорно-объективной деятельности ученого не должно ограничиваться описанием и оценкой того, как операционализируются переменные или как они регистрируются. Формулировка системы гипотез, оценка достоверности эксперимента и реализация выводов относятся к нормативным или нормативно-правовым регуляторам этой деятельности.

Выбор определенной формы эксперимента связан с разработкой того или иного экспериментального дизайна (как схемы сбора данных в различных условиях НП) и с другими видами контроля (выбор типа эксперимента, осуществление «первичного» контроля, «дополнительное варьирование» переменных, введение расширенной переменной и т.д.). Решение проблем дизайна в данном случае означает «прописывание» эксперимента в системе классификаций типов экспериментов и типов экспериментальных дизайнов. Это, в свою очередь, позволяет очертить возможности и ограничения следующих выводов.

Именно предположениями о возможностях последующих обобщений руководствуется исследователь при планировании содержания и формы экспериментов. Таким образом, проблема вывода и обобщения решается в два достаточно отдаленных этапа — мысленное планирование экспериментальных конструкций и процедур и обоснование выводов на основе результатов уже проведенного исследования. В реальных экспериментальных исследованиях это соответствует двухэтапному обобщению: в виде исходных предположений о характере зависимости между НП и БП и в виде окончательных выводов о возможности обобщений как переноса установленной зависимости за пределы экспериментальной ситуации (обобщения на теоретическую модель, на другие ситуации, виды деятельности, субъектов и т.д.).

На странице курсовые работы по психологии вы найдете много готовых тем для курсовых по предмету «Психология».

Читайте дополнительные лекции:

  1. Виды психических процессов: ощущение
  2. Психология тела
  3. Психосемантика рекламы
  4. Профилактика суицидального поведения детей
  5. Клинический психолог
  6. Бернштейн Николай Александрович, советский психофизиолог — Психофизиологические основы организации движения
  7. Стили руководства. Влияние руководителей на эффективность работы подчиненных
  8. Практические методы обучения дошкольников
  9. Теоретическая психология как область психологической науки
  10. Диагностика задержки психического развития, нейропсихологический подход

27 Типичные нарушения внутренней валидности вывода

2. Типичные нарушения внутренней валидности вывода

Изменения исторического фона, матурация, несоответствие составов контрольной и экспериментальной групп, отсев респондентов, нестабильность инструментального комплекса, эффект тестирования, реактивный эффект. «Натурные» эксперименты.

На результаты эксперимента оказывают влияние любые события, происходящие во время проведения исследования, особенно если оно занимает продолжительное время. Сама зависимая переменная меняется под влиянием посторонних обстоятельств, и какое из них обусловило изменения, — остается неясным. Причины изменений обозначаются как изменения исторического фона. Под «историей» имеется в виду история эксперимента.

Предположим, проверяется гипотеза о воздействии пропаганды на поведение избирателей. В соответствии со схемой эксперимента осуществляется замер электоральных предпочтений до пропагандистской атаки и после нее. Затем сопоставляются значения этой переменной в двух группах: экспериментальной, подвергавшейся пропагандистскому воздействию, и контрольной, где на избирателей не оказывалось влияния. Предположим, далее, что установлены существенные различия между экспериментальной и контрольной

3 Кэмпбелл Дж, Модели эксперимента в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М.И. Бобневой; Вступ. ст. Г.М. Андреевой. М.: Прогресс, 1980. С.72 — 73.

199


труппами. Однако можем ли мы быть уверены, что различия обусловлены именно пропагандой. За короткий промежуток времени на мнения избирателей могли повлиять различные события: повышение цен, сенсационные разоблачения политических лидеров, рост инфляции. Все эти факторы могут служить основой альтернативных гипотез. Чем больше временной промежуток между претестом и посттестом, тем больше вероятность «исторических» искажений результатов эксперимента.

Модификацией «исторических» изменений являются естественные изменения в самом объекте экспериментирования — «матурация». С течением времени меняется не только внешняя среда, но и внутренние качества испытуемых. Предположим, что экспериментальной проверке подвергается метод преподавания и предварительные измерения отделены от итоговых измерений временем, занимающим почти весь учебный год. Разумеется, за этот период произойдут существенные сдвиги в уровне усвоения материала студентами — здесь нельзя сбрасывать со счетов то обстоятельство, что испытуемые стали взрослее и, вероятно, умнее. Результат может быть вызван и новым методом преподавания, и взрослением экспериментального контингента. Даже если эксперимент длится два-три часа, на его результаты может повлиять усталость и раздражение испытуемых.

Несоответствие составов групп. На внутреннюю валидность вывода оказывают искажающее влияние изменения в составе экспериментальной и контрольной групп. Особенно часто это случается тогда, когда для эксперимента выбираются примерно равные по возрасту классы, студенческие группы. Однако проконтролировать все различия довольно трудно. Например, более высокий уровень сплоченности в одной группе может привести к существенным искажениям результатов. Надежное средство выравнивания составов контрольной и экспериментальной групп — рандомизация.

Отсев испытуемых. Если эксперимент длится долго, вероятность избежать отсева испытуемых по разным причинам довольно высока. Поэтому при осуществлении итоговых измерений невозможно с уверенностью сказать, насколько повлияло выбытие испытуемых на результат. Чаще всего из экспериментов выбывают испытуемые из контрольных групп.

Рекомендуемые файлы

Нестабильность инструментального комплекса. Изменения могут затрагивать не только внешние обстоятельства (фон) и испытуемых, но и измерительный инструментарий исследования. Проблема заключается в том, что в отличие от естественных наук в социологии и психологии измерительные инструменты (в том числе интервьюер) меняются. А смена измерительного комплекса влечет за собой смещение данных. Здесь нельзя менять ни wording, ни калибровку, ни

200


стиль интервьюирования. При экспериментах, связанных с контролем успеваемости студентов, такого рода погрешности практически неизбежны. Необходимо не только сохранить критерии оценки знаний — часто интуитивные, но даже тот психологический настрой, который был присущ экзаменатору в момент первой проверки. Смена экзаменатора в данном случае эквивалентна смене инструмента и препятствует всяким сопоставлениям.

Экспериментальный инструментарий предполагает однократное применение к одному испытуемому. В противном случае возникнет эффект тестирования. Если экспериментатор обратится с тем же тествопросником вторично, результаты замера будут иными, поскольку испытуемый уже знаком с инструментом и будет осознанно или неосознанно корректировать свои реакции, например, стараться вспомнить, что говорил прошлый раз, и воспроизводить свои ответы. Собственно говоря, знакомый испытуемому тест-вопросник — уже другой инструмент, чем тот, который применялся на стадии претеста, и сравнение данных содержит существенную погрешность.

И, наконец, самые существенные искажения связаны с влиянием на результат эксперимента наряду с независимой переменной самой экспериментальной ситуации — часто такое влияние называют реактивным эффектом.

Лучше всего проиллюстрировать возникновение реактивного эффекта на примере проверки нового метода лечения. Зная о том, что на них испытывается новый метод лечения, пациенты обнаруживают заметные улучшения по крайней мере в клинической симптоматике заболевания. Лучше себя чувствуют даже те, кто входит в контрольную группу, т. е, не находится под воздействием экспериментальной переменной.

Влияние инструмента на реакции респондентов может быть самым неожиданным. В литературе хорошо описан «эффект интервьюера», когда ответы в значительной мере обусловлены невольным воздействием личности интервьюера. Реже упоминается, что вопросы, задаваемые в ходе одного интервью, обнаруживают более высокую корреляцию, чем те же вопросы, включенные в разные анкеты. Если вопросы интервью следуют друг за другом, наблюдается «галаэффект»: корреляция между ними выше, чем между такими же, но «отдаленными» вопросами. Корреляция между данными, полученными в один день, выше, чем корреляция между данными, полученными в разные дни.

Следует различать действие экспериментальной переменной и экспериментальной ситуации. В последнем случае мы имеем дело с реактивным эффектом. В медицине от него пытаются избавиться с помощью placebo — контрольным больным дают «видимость» экспе

201


риментальной переменной, например, таблетки такого же цвета и вкуса, какие дают экспериментальным больным. Таким образом, placebo является одним из способов выравнивания эффекта экспериментальной ситуации. В социологии применить placebo практически невозможно.

Имеются и другие факторы, снижающие внутреннюю валидность: взаимодействие фактора отбора с «матурацией», деморализация испытуемых, связанная с кажущимися неудачами; имитация воздействия и т. п.

В лекции «Классификация подземных вод по условиям их происхождения» также много полезной информации.

Нарушения внутренней валидности, обусловленные изменениями «исторических» обстоятельств эксперимента, компенсируются сравнением контрольной и экспериментальной групп — изменения в данном случае затрагивают и тех, и других испытуемых. Аналогичным образом изменения в измерительном инструментарии затрагивают обе группы. Реактивный эффект также оказывает одинаковое воздействие на всех испытуемых. Особенно серьезную опасность представляют посторонние переменные, связанные с недостаточным выравниванием групп.

Внешняя валидность, как уже говорилось, это возможность распространить установленные зависимости за рамки экспериментального материала. При высокой внутренней валидности, т. е. при уверенности, что изменения в переменной х вызывают определенные изменения в переменной у, внешняя валидность может оказаться совершенно неудовлетворительной.

Предполагается, что в отличие от лабораторного эксперимент «на натуре» ближе к жизни. Часто эксперименты, проводимые на улице, на производстве, в общественных учреждениях, по месту жительства и т. п. называют в отличие от лабораторных «естественными». Здесь этические проблемы, связанные с навязыванием ничего не подозревающим людям экспериментальной «легенды», стоят особенно остро.

В литературе имеются десятки примеров замаскированных полевых экспериментов, позволяющих сравнить ситуации с разными значениями независимой переменной. Изучалась реакция публики на «пешеходов» высокого и низкого социального статуса, переходящих проезжую часть на красный сигнал светофора. Разумеется, пешеходами были экспериментаторы, одетые так, как одеваются люди высокого и низкого социального положения. Рассылались письма с просьбой о приеме на работу, при этом в одной группе указывались сведения уголовного характера, в другой — нет. Зависимой переменной в данном случае являлись реакции работодателей. Женщина рядом с автомобилем, у которого села покрышка… В одних случаях она демонстрирует просьбу о помощи, в других — нет. «Нищие», внешний вид которых отчетливо идентифицируется с представителями опре

202


деленных этнических групп, сидят на тротуаре… «Джентльмен» спрашивает прохожих, не уронил ли кто только что найденную долларовую бумажку… Помощники экспериментатора собираются на улице в группы разной величины, а затем устанавливается число прохожих, привлеченных группой. Несколько «хулиганов» на улице пристают к дамам… Письма делового, любовного и «нейтрального» содержания, «по ошибке» попавшие в чужие руки… Перечень подобных естественных экспериментов бесконечен. Однако свидетельствуют ли они о связи переменных — неясно. Остается сомнение: являются ли естественные эксперименты более естественными и валидными, чем эксперименты в лабораториях. Очевидный «минус» естественных экспериментов — нарушение моральных норм, связанное с целенаправленным обманом испытуемых, не дававших согласия на участие в «социодраме». Отчасти исследователей извиняет то обстоятельство, что моделируемые ситуации входят в число повседневных и не связаны с ущербом, кроме незначительной потери времени. Но, бывает, мера превышается. Известны, например, опыты С. Мильгрема с кажущимся применением электрошока к испытуемым, создание ситуаций, связанных с угрозой верной гибели, и т. п.

Общие сведения о внутренней и внешней действительности

Внутренняя и внешняя валидность — это концепции, которые отражают достоверность и значимость результатов исследования. В то время как внутренняя валидность связана с тем, насколько хорошо проведено исследование (его структура), внешняя валидность связана с тем, насколько результаты применимы к реальному миру.

Что такое внутренняя действительность?

Внутренняя валидность — это степень, в которой исследование устанавливает заслуживающую доверия причинно-следственную связь между лечением и результатом.Внутренняя валидность также отражает то, что данное исследование позволяет исключить альтернативные объяснения вывода.

Например, если вы реализуете программу отказа от курения с группой лиц, насколько вы можете быть уверены, что любое улучшение, наблюдаемое в группе лечения, связано с лечением, которое вы провели?

Внутренняя валидность во многом зависит от процедур исследования и от того, насколько строго оно проводится.

Внутренняя валидность — это не концепция типа «да или нет».Вместо этого мы рассматриваем, насколько мы можем быть уверены в результатах исследования, основываясь на том, позволяет ли оно избежать ловушек, которые могут сделать результаты сомнительными.

Чем меньше шансов на «смешение» в исследовании, тем выше внутренняя валидность и тем больше мы можем быть уверены в результатах. Под сомнением понимается ситуация, в которой в игру вступают другие факторы, которые искажают результат исследования. Например, исследование может сделать нас неуверенными в том, можем ли мы доверять тому, что мы определили вышеупомянутый «причинно-следственный» сценарий.

Короче говоря, вы можете быть уверены в том, что ваше исследование внутренне достоверно, только если вы можете исключить альтернативные объяснения своих выводов. Вкратце, вы можете предположить причинно-следственную связь, только если вы соответствуете следующим трем критериям в своем исследовании:

  • Причина предшествовала следствию во времени.
  • Причина и следствие различаются.
  • Других возможных объяснений наблюдаемой вами взаимосвязи нет.

Факторы, улучшающие внутреннюю валидность

Если вы хотите повысить внутреннюю валидность исследования, вы захотите рассмотреть те аспекты дизайна вашего исследования, которые повысят вероятность того, что вы сможете отклонить альтернативные гипотезы.Есть много факторов, которые могут улучшить внутреннюю валидность.

  • Ослепление : участники — а иногда и исследователи — которые не знают, какое вмешательство они получают (например, с помощью плацебо в исследовании лекарств), чтобы избежать искажения этих знаний в их восприятии и поведении и, следовательно, на результатах исследования
  • Экспериментальная манипуляция : Манипулирование независимой переменной в исследовании (например, предоставление курильщикам программы отказа от курения) вместо простого наблюдения ассоциации без проведения какого-либо вмешательства (изучение взаимосвязи между упражнениями и курением)
  • Случайный выбор : Выбор участников наугад или таким образом, чтобы они представляли популяцию, которую вы хотите изучать
  • Рандомизация : случайное распределение участников по группам лечения и контроля и гарантирует отсутствие систематической ошибки между группами
  • Протокол исследования : Следование определенным процедурам для проведения лечения, чтобы не вызывать каких-либо эффектов, например, при различном поведении одной группы людей по сравнению с другой группой людей

Факторы, угрожающие внутренней действительности

Подобно тому, как существует множество способов убедиться, что исследование является внутренне достоверным, существует также список потенциальных угроз внутренней достоверности, которые следует учитывать при планировании исследования.

  • Исчезновение : участники выбывают из исследования или покидают его, что означает, что результаты основаны на предвзятой выборке только людей, которые не решили уйти (и, возможно, у всех есть что-то общее, например, более высокая мотивация)
  • Смешение : Ситуация, в которой можно считать, что изменения в переменной результата являются результатом некоторой третьей переменной, связанной с проведенным вами лечением.
  • Распространение : Это относится к лечению в исследовании, которое распространяется от экспериментальной группы к контрольной группе через группы, взаимодействующие и разговаривающие или наблюдающие друг за другом.Это также может привести к другой проблеме, называемой обиженной деморализацией, при которой контрольная группа старается меньше, потому что чувствует обиду на группу, в которой они находятся.
  • Исторические события : может повлиять на результаты исследований, которые происходят в течение определенного периода времени, например, смена политического лидера или стихийное бедствие, которое влияет на то, как участники исследования себя чувствуют и действуют.
  • Инструменты : можно «подготовить» участников исследования определенным образом с помощью мер, которые вы используете, что заставляет их реагировать иначе, чем они бы иметь иначе.
  • Созревание : описывает влияние времени как переменной в исследовании. Если исследование проводится в течение периода времени, когда возможно, что участники каким-то образом изменились естественным образом (стали старше, устали), то может быть невозможно исключить, были ли эффекты, наблюдаемые в исследовании, просто следствием эффекта. времени.
  • Статистическая регрессия : естественный эффект участников на крайних концах меры, падающий в определенном направлении только по прошествии времени, а не эффект вмешательства
  • Тестирование : многократное тестирование участников с использованием тех же мер влияет на результаты.Если вы дадите кому-то один и тот же тест три раза, не кажется ли, что он лучше справится с тестом или привыкнет к процессу тестирования и ответит по-разному?

Что такое внешняя действительность?

Внешняя валидность относится к тому, насколько хорошо можно ожидать, что результаты исследования будут применимы к другим условиям. Другими словами, этот тип достоверности относится к тому, насколько обобщаемы результаты. Например, применимы ли результаты к другим людям, условиям, ситуациям и временным периодам?

Экологическая валидность, аспект внешней валидности, относится к тому, можно ли обобщить результаты исследования на реальный мир.

В то время как строгие методы исследования могут гарантировать внутреннюю валидность, внешняя валидность, с другой стороны, может быть ограничена этими методами.

Другой термин, называемый переносимостью, относится к внешней валидности и относится к качественному дизайну исследования. Переносимость относится к тому, переносятся ли результаты в ситуации с аналогичными характеристиками.

Факторы, улучшающие внешнюю валидность

Что вы можете сделать, чтобы улучшить внешнюю валидность вашего исследования?

  • Учитывайте психологический реализм. : Убедитесь, что участники воспринимают события исследования как реальные события, рассказав им «прикрытие» о цели исследования.В противном случае в некоторых случаях участники могут вести себя иначе, чем в реальной жизни, если они знают, чего ожидать, или знают, какова цель исследования.
  • Выполните повторную обработку или калибровку. : Используйте статистические методы для устранения проблем, связанных с внешней достоверностью. Например, если в исследовании были неравные группы по какой-либо характеристике (например, возрасту), можно было бы использовать повторное взвешивание.
  • Реплика : повторите исследование с другими образцами или с другими настройками, чтобы увидеть, получите ли вы те же результаты.Когда было проведено много исследований, можно также использовать метаанализ , чтобы определить, является ли эффект независимой переменной надежным (на основе изучения результатов большого количества исследований по одной теме).
  • Попробуйте полевые эксперименты : Проведите исследование вне лаборатории в естественной обстановке.
  • Используйте критерии включения и исключения : Это гарантирует, что вы четко определили популяцию, которую изучаете в своем исследовании.

Факторы, угрожающие внешней действительности

Внешняя валидность находится под угрозой, когда исследование не принимает во внимание взаимодействия переменных в реальном мире.

  • Эффекты до и после тестирования : Когда предварительное или послетестовое тестирование каким-либо образом связано с эффектом, наблюдаемым в исследовании, так что причинно-следственная связь исчезает без этих дополнительных тестов
  • Характеристики выборки : когда какая-либо особенность конкретной выборки была ответственна за эффект (или частично ответственна), что привело к ограниченной обобщаемости результатов
  • Ошибка отбора : Также считается угрозой внутренней валидности, систематическая ошибка выбора описывает различия между группами в исследовании, которое может относиться к независимой переменной (опять же, что-то вроде мотивации или желания принять участие в исследовании, конкретные демографические данные людей с большей вероятностью примут участие в онлайн-опросе).
  • Ситуационные факторы : Время дня, местоположение, шум, характеристики исследователя и количество используемых мер могут повлиять на обобщаемость результатов.

Внутренняя и внешняя валидность

Внутренняя и внешняя значимость — две стороны одной медали. Вы можете провести исследование с хорошей внутренней достоверностью, но в целом оно может не иметь отношения к реальному миру. С другой стороны, вы можете провести полевое исследование, которое очень актуально для реального мира, но не даст достоверных результатов с точки зрения знания того, какие переменные привели к результатам, которые вы видите.

Сходства

В чем сходство между внутренней и внешней валидностью? Оба эти фактора следует учитывать при разработке исследования, и оба имеют значение с точки зрения того, имеют ли результаты исследования значение. Оба они не являются концепциями «либо / или», и поэтому вы всегда будете решать, в какой степени ваше исследование работает с точки зрения обоих типов достоверности.

Каждая из этих концепций обычно описывается в исследовательской статье, которая публикуется в научном журнале.Это сделано для того, чтобы другие исследователи могли оценить исследование и принять решение о том, являются ли результаты полезными и достоверными.

Отличия

Существенное различие между внутренней и внешней валидностью состоит в том, что внутренняя валидность относится к структуре исследования и его переменным, в то время как внешняя валидность связана с универсальностью результатов. Между ними есть и другие различия.

Внутренняя валидность
  • Выводы гарантированы

  • Управляет посторонними переменными

  • Исключает альтернативные объяснения

  • Ориентация на точность и сильные методы исследования

Внешняя валидность
  • Выводы можно обобщить

  • Результаты применимы к практическим ситуациям

  • Результаты применимы ко всему миру

  • Результаты можно перевести в другой контекст

Внутренняя достоверность фокусируется на демонстрации разницы, обусловленной только независимой переменной, тогда как результаты внешней достоверности могут быть переведены на мир в целом.

Примеры действия

Примером исследования с хорошей внутренней валидностью может быть гипотеза исследователя о том, что использование определенного приложения внимательности снизит негативное настроение. Чтобы проверить эту гипотезу, исследователь случайным образом распределяет выборку участников в одну из двух групп: тех, кто будет использовать приложение в течение определенного периода, и тех, кто занимается контрольной задачей.

Исследователь следит за тем, чтобы не было систематической предвзятости в распределении участников по группам, а также не позволяет своим научным сотрудникам видеть группы, в которых учащиеся находятся во время экспериментов.

Используется строгий протокол исследования, в котором излагаются процедуры исследования. Возможные искажающие переменные измеряются вместе с настроением, например, социально-экономический статус участников, пол, возраст и другие факторы. Если участники выбывают из исследования, их характеристики изучаются, чтобы убедиться в отсутствии систематической ошибки в отношении того, кто остается в исследовании.

Пример исследования с хорошей внешней валидностью может быть в приведенном выше примере, исследователь также удостоверился, что исследование имело внешнюю валидность, заставив участников использовать приложение дома, а не в лаборатории.Исследователь четко определяет интересующую нас совокупность и выбирает репрезентативную выборку, и он / она воспроизводит исследование для различных технологических устройств.

Слово от Verywell

Настройка эксперимента так, чтобы он имел прочную внутреннюю и внешнюю валидность, предполагает с самого начала помнить о факторах, которые могут повлиять на каждый аспект вашего исследования.

Лучше потратить дополнительное время на разработку структурно обоснованного исследования, имеющего далеко идущие последствия, а не торопиться с этапом проектирования только для того, чтобы позже обнаружить проблемы.Только когда и внутренняя, и внешняя валидность высоки, можно сделать убедительные выводы о ваших результатах.

Внешняя действительность | Типы, угрозы и примеры

Внешняя валидность — это степень, в которой вы можете обобщить результаты исследования на другие ситуации, людей, условия и меры. Другими словами, можете ли вы применить результаты своего исследования в более широком контексте?

Целью научных исследований является получение обобщаемых знаний о реальном мире.Без высокой внешней достоверности вы не можете применить результаты лабораторных исследований к другим людям или к реальному миру.

В качественных исследованиях внешняя валидность называется переносимостью.

Виды внешней действительности

Существует два основных типа внешней валидности: популяционная валидность и экологическая валидность.