Внешняя валидность — Психологос
Внешняя валидность (англ. external validity) — вид валидности, определяющий то, насколько результаты конкретного исследования можно распространить на весь класс подобных ситуаций/явлений/объектов. Данное понятие можно рассматривать как междисциплинарное: оно широко применяется в экспериментальной психологии, а также в других сферах науки.
Общие сведения
Внешняя валидность определяет то, в какой мере результаты, полученные в эксперименте, могут соответствовать тому типу жизненной ситуации, которая была исследована, и то, насколько возможно обобщить эти результаты на все подобные жизненные ситуации. Например, критику психологов-экспериментаторов в том, что о студентах-второкурсниках и белых крысах они знают очень много, а обо всём остальном — очень мало, можно рассматривать как критику внешней валидности.
Как и в отношении любой другой валидности, о внешней валидности в исследовании, вероятно, невозможно сказать, что она абсолютно соблюдена, можно указать только на её нарушение.
Критерии внешней валидности
Чтобы исследование обладало наивысшей степенью валидности, должна существовать возможность генерализации его результатов на
- другие популяции,
- другие условия,
- другое время.
Пример нарушения внешней валидности
Исследование Лоренса Колберга, посвящённое изучению нравственного развития детей, было подвергнуто критике за низкую степень внешней валидности. В 1963 году Колберг предложил мальчикам-подросткам разрешить различные коротко сформулированные дилеммы. На основании полученных ответов он разработал теорию о шести стадиях морального развития.
Критика внешней валидности этого исследования в частности состояла в том, что учёный не учитывал половых различий в особенностях мышления способах принятия моральных решений и, следовательно, неправомерно генерализовал свою модель на представителей обоих полов.
Колберг также исходил из предпосылки о том, что существуют некие «универсальные принципы справедливости и соблюдения прав личности», однако он не учёл межкультурных различий, следовательно, выводы, которые он сделал, не могут восприниматься как универсальные.
Соблюдение внешней валидности
Чтобы увеличить степень внешней валидности, в исследованиях могут не ограничиваться лишь экспериментальным методом, но также использовать и другие — например, наблюдение, межкультурные исследования и т. д.
При современном научном подходе в психологии соблюдение внешней валидности в исследованиях играет ведущую роль, так как наиболее ценным считается создание общих теорий, моделей и алгоритмов, применимых к психике в целом, независимо от контекста, — то есть моделей, обладающих крайне широкими предсказательными возможностями; поэтому исследования, результаты, которых можно применить только к какой-то определённой ограниченной ситуации, обладают нисходящей ценностью.
Внешняя валидность и виды обобщений за пределами исследовательской ситуации
Сущность понятия «валидность»
Определение 1
Валидность – это комплексная характеристика методики, которая включает сведения об области исследуемых явлений и репрезентативности диагностической процедуры по отношению к ним.
Данное понятие относится к тому, что эта методика измеряет и как хорошо она это делает. Те тесты, которые не обладают валидностью, для практического использования не годятся.
Уровень валидности – это её коэффициент.
На валидность теста оказывают влияние систематические факторы, привносящие в результаты искажения. К ним относятся другие психические свойства, мешающие в результатах теста проявиться тому свойству, на которое направлен тест.
Например, необходимо измерить потенциал обученности, но время исполнения строго ограничено, и допущенную ошибку исправить невозможно. Таким образом, искомое психическое свойство смешается с другим – «стрессоустойчивостью». Те, у кого стрессоустойчивость высокая, выполнять тест будут лучше. Здесь проявляется эффект систематического искажения. Отсюда, единого и универсального подхода к определению валидности не существует.
Исходя из того, какая сторона валидности будет рассматриваться, будут использоваться и соответствующие способы доказательства.
Замечание 1
Методика имеет столько валидностей, сколько существует критериев.
В первом понимании валидность относится к самой методике – это валидность измерительного инструмента, а проверка получила название теоретической валидизации. Второе понимание относится уже не столько к методике, сколько к цели её использования – это прагматическая валидизация.
Для использования психодиагностических методик в практических целях, они должны быть проверены по ряду формальных критериев, которые являются главным элементом методик и доказывают их эффективность и высокое качество.
Основными критериями оценок являются надежность и валидность.
Критерий валидности представляет собой источник информации об измеряемом психическом свойстве, он не зависит от теста и по отношению к нему является внешним. Говорить о валидности теста можно только тогда, когда его результаты будут сравнимы с источником истиной информации об измеряемом свойстве, т.е. с критерием.
Готовые работы на аналогичную тему
В качестве критерия валидности на практике часто используется прагматический критерий, представляющий собой очевидный признак, проявляемый испытуемым независимо от исследуемого качества. Например, данные о выполнении разных заданий, контрольных проб и данные, полученные при помощи других методик, валидность которых доказана.
Виды валидности
В употребление понятие «валидность» было введено Д. Кемпбеллом, который им обозначил уверенность экспериментатора в том, что с помощью определенной методики, он измеряет именно то, что хотел измерить.
Рисунок 1. Основные виды валидности. Автор24 — интернет-биржа студенческих работ
Валидность эксперимента может быть внутренней и внешней. Признак хорошего эксперимента – это высокая внутренняя валидность и, если экспериментальный эффект вызван изменением независимой переменной, то внутренняя валидность будет выше.
Внутреннюю валидность эксперимента, по мнению Кемпбелла могут нарушить несколько основных факторов:
- селекция – неэквивалентность, вызывающая систематическую ошибку в результатах;
- статистическая регрессия является частным случаем селекции;
- экспериментальный отсев при котором из группы происходит неравномерное выбывание испытуемых;
- естественное развитие – изменение испытуемых в течение времени.
Теоретическая валидность, определить которую можно по соответствиям показателей исследуемых качеств, получена с помощью созданной методики. Проверить теоретическую валидность можно путем корреляции одного и того же свойства, который измеряется различными методами.
В пределах теоретической валидности выделяют конвергентную, конструктную, эмпирическую, внутреннюю валидность.
Благоприятная ситуация использования конвергентной валидности складывается тогда, когда уже есть в психологии валидная методика, которая проверяет изучаемое качество. Если между показателями этих методик корреляция высокая, то это значит, что для новой методики характерна конвергентная валидность.
Когда для измерения какого-либо свойства тест с известной валидностью не опробирован тогда исследователь выдвигает ряд гипотез – будет ли коррелировать новый тест с другими тестами. В основе выдвигаемых гипотез лежат теоретические представления об измеряемом свойстве. Когда они подтверждаются, то это указывает на валидность выдвигаемого конструкта, т. е. конструктную валидность (предполагаемую).
Что касается эмпирической валидности, то исследователь смотрит, насколько клиент в реальной жизни ведет себя соответственно результатам исследования. Кроме этих видов существует ложная, очевидная валидность, валидность, исходящая из опыта, валидность, основанная на желаниях, валидность всех тестовых методик.
Ложная валидность фиксирует видимость пригодности методики, а очевидная валидность соответствует подлинной только в дидактических тестах и иногда действительно исследует реально существующие факты.
В основе валидности, исходящей из опыта, лежат личные чувства психолога для измерения какого-либо качества испытуемого.
Валидность, основанная на желаниях предполагает желание видеть свою методику валидной, не замечая, при этом, противоречащих этому желанию фактов. Для расчета валидности, как показывает практика, должно быть не меньше 50 человек, но, лучше больше 200.
Внешняя валидность
Замечание 2
Внешняя валидность указывает, на какие популяции, ситуации, независимые переменные, параметры воздействия, переменные измерения можно распространить результаты эксперимента.
Например, можно ли использовать методику обучения плаванию 10-летних детей при обучении студентов.
Внешняя валидность определяет, в какой мере результаты, полученные в эксперименте, соответствуют жизненной ситуации.
Кроме того, она характеризует возможность обобщения переноса экспериментальных результатов на все жизненные условия — время, место, условия и группы людей.
Возможность переноса является следствием двух причин:
- когда условия эксперимента соответствуют его «первообразной» ситуации (репрезентативность эксперимента), например, исследование мотивации учащихся, есть репрезентативный эксперимент, потому что все они находятся в ситуации учебной деятельности и мотивированы на учебу;
- типичности ситуации для реальности (репрезентативность ситуации).
В эксперименте ситуация, выбранная для моделирования, может быть с точки зрения жизни совсем нерепрезентативной для испытуемых, может являться нетипичной, редкой.
Внешняя валидность делится на операциональную валидность и конструктную, которая объясняет поведение человека при прохождении им теста.
Кемпбелл говорит о причинах нарушения внешней валидности:
- Реактивный эффект или эффект тестирования – это возможное увеличение или уменьшение восприимчивости испытуемых к экспериментальному воздействию. Результаты тех, кто прошел предварительное тестирование, будут нерепрезентативны относительно тех, кто предварительному тестированию не подвергался;
- Условия, при которых организуется эксперимент, вызывают у испытуемого реакцию, значит, результат эксперимента нельзя переносить на тех, кто участия в эксперименте не принимал;
- Взаимная интерференция – испытуемые имеют память и обладают обучаемостью, и если эксперимент будет состоять из нескольких серий, то, безусловно, первые воздействия бесследно для них не пройдут и скажутся на появлении эффектов от последующих воздействий.
Провести «правильное» исследование с учетом всех условий и требований в реальной практике невозможно. Чаще бывает так, что невозможно подобрать репрезентативные выборки, исключить эффекты селекции, выбывания и возможность переноса результатов на всю популяцию.
Внутренняя и внешняя пригодность применения методик UX исследованиях
Резюме: Плохо спланированное качественное или количественное исследование может дать неверные результаты. Избегайте поощрения определенных ответов или поведения участников исследования, убедитесь, что условия и участники вашего исследования являются репрезентативными.
Любое UX исследование направлено на то, чтобы ответить на основные вопросы о дизайне или о наших пользователях. Какой процент наших пользователей сможет подписаться на нашу рассылку новостей? С какими серьезными проблемами удобства использования нашего сайта его посетители могут столкнуться? Является ли дизайн A более удобным для нашей целевой аудитории, чем дизайн B? Но всякий раз, когда мы проводим UX-исследование, будь то количественное или качественное, существует опасность, что оно не будет отражать реальность, которую мы хотим зафиксировать, потому что исследование некорректно спланировано.
Есть два основных типа ошибок дизайн-исследования:
- Ошибки внутренней валидности (мера соответствия методик и результатов исследования поставленным задачам), которые склоняют участников к определенному ответу или поведению.
- Ошибки внешней валидности, которые фиксируют поведение или ситуации, не характерные для нашей целевой аудитории.
Поговорим о каждой из них отдельно. Но, прежде чем мы это сделаем, отметим, что валидность отличается от достоверности. Достоверность исследования просто означает, что вы получите тот же результат, если повторите исследование. Другими словами, результаты не случайны. Существует множество статистических методов для расчета степени надежности исследования, и основной способ повысить достоверность — протестировать большее количество участников. Но достоверность бесполезна без валидности: исследование с высокой надежностью и низкой валидностью — это исследование, в котором вы действительно хорошо оцениваете не то, что нужно.
Внутренняя валидность для UX-исследований
Представим себе исследование, в котором сравниваются два сайта — сайт A и сайт B. Вы пытаетесь решить, какой из двух лучше и вы всегда сначала показываете участникам исследования дизайн сайта A, просите их выполнить некоторые задания, а затем показываете сайт B и просите решить те же задачи. Может ли этот план исследования дать точные результаты, отражающие реальность? Другими словами, определит ли это исследование лучший дизайн?
Не обязательно. Этот план исследования более благосклонен к дизайну сайта B, потому что, когда респонденты дойдут до его оценки, они уже будут ознакомлены с этапами тестирования и с предметной областью — если они, к примеру, тестируют сайты аренды автомобилей, они уже будут знать, что такое LDW (отказ от возмещения ущерба), и, когда они попадут на сайт B, у них уже могут быть определенные ожидания относительно этапов процесса аренды. Они также будут знать, чего вы от них ожидаете и как они должны выполнять задачу. Таким образом, это исследование не имеет внутренней валидности.
(Основное решение этой проблемы состоит в том, чтобы попеременно выбирать, какой сайт исследовать первым, и сначала попросить половину пользователей проанализировать сайт B).
Вывод: исследование имеет внутреннюю валидность, если оно не способствует или не поощряет какую-либо реакцию или поведение конкретного участника.
Недостаток внутренней валидности является проблемой как качественных, так и количественных исследований. При проведении качественных исследований, исследователь может непреднамеренно вызвать у участников предвзятость или определенную реакцию. Например, даже простые вопросы, такие как «Вам было сложно оформить заказ?» может сделать результаты исследования недействительными, потому что респондентов натолкнули на размышления о трудностях, которых может показаться больше, чем обычно (по аналогии с заявлением Ричарда Никсона «Я не мошенник»).
В случае количественных исследований отсутствие внутренней валидности может привести к результатам, которые тяготеют к какому-то одному выводу, но не отражают реальность. Например, в ходе сравнительного исследования вы можете обнаружить, что показатели затраты времени на решение задачи лучше в обновленной версии сайта, чем в оригинальной, и вы можете сделать вывод, что вы отлично справились с редизайном, хотя на самом деле разница было связана с различными условиями исследования — при тестировании исходного сайта использовалось условие «думай вслух», а при тестировании редизайна сайта- нет. (А размышление вслух требует дополнительного времени, поэтому время выполнения задачи может увеличиться.)
В этом примере условие является примером некорректной переменной — скрытой переменной, которая может повлиять на результаты вашего исследования, но которую вы не приняли во внимание при разработке исследования.
Внешняя валидность
Внешняя валидность показывает, насколько ваше исследование натуралистично.
Если вы разрабатываете сайт для пожилых людей и набираете респондентов среди всего населения, будет ли это исследование действительным? Покажет ли это исследование результаты, соответствующие вашей целевой аудитории?
Возможно, нет, потому что более молодые участники, вероятно, будут выполнять задания иначе, чем старшие. Или, если вы тестируете дизайн для мобильных устройств на персональном компьютере, будут ли ваши выводы применимы к мобильному дизайну в реальных условиях? Может быть, да, а может быть, нет — это невозможно узнать наверняка (только если вы не проведете еще одно исследование). В обеих этих ситуациях исследованиям не хватает внешней достоверности (внешней валидности)
Вывод: исследование имеет внешнюю валидность, если участники и структура исследования являются репрезентативными для реальной ситуации, в которой используется дизайн.
Концепция внешней валидности также применима как к качественным, так и к количественным исследованиям — что очевидно.
Рекомендации по дизайн исследованию.
Ниже привожу несколько рекомендаций, которые помогут вам провести исследования, имеющие как внутреннюю, так и внешнюю валидность.
Внутренняя валидность
Случайность важна для обеспечения внутренней валидности.
1. Используйте случайный порядок выполнения задач.
Порядок выполнения задач может влиять на их решение. В начале исследования люди обычно плохо знакомы как со сферой исследования, так и с системой, которую они тестируют. Это нормально, если в процессе выполнения им потребуется больше времени для решения первых задач, возможно, они допустят больше ошибок, чем обычно. С другой стороны, задачи, которые будут им предоставлены в конце выполнения, могут вызвать утомление респондентов.
Вот почему мы настоятельно рекомендуем в любом тесте, качественном или количественном, давать выполнять задачи респондентам в максимально случайном порядке. (Иногда, однако, следование этой рекомендации может быть не совсем выполнимым — например, если задачами являются «вход в систему» и проверка «баланса счета», проверка «баланса счета» не может идти перед «входом в систему»).
Кроме того, чтобы облегчить этап обучения в начале каждого занятия, мы рекомендуем вам подготовить 1-2 разминки (психологи называют их практическими испытаниями, разогревом), которые не имеют отношения к вашему исследованию и предназначены для ознакомления участников с учебной средой и процедурой исследования. Мне нравится выбирать простые задания, которые укрепляют уверенность респондентов и заставляют их расслабиться. Но, если вы все-таки используете задания на разминку, убедитесь, что вы не включаете их результаты в свой анализ.
2. Если ваше исследование сопоставляет два условия и более (например, вы хотите сравнить свой сайт с сайтом конкурента) и каждый респондент будет отвечать на одни и те же вопросы (например, оценивание внутрипредметного дизайна), вам следует сбалансировать или организовать порядок задач для выполнения пользователем таким образом, чтобы не возникало никакой определённой модели или системы (например, порядок, в котором они видят ваш сайт и сайт вашего конкурента).
Эта рекомендация связана с предыдущей — случайный порядок задач. Однако, если вы тестируете, скажем, 2 сайта электронной коммерции, иногда может быть некорректно или невозможно попросить участника сделать покупки на сайте 1, затем добавить элемент в вишлист на сайте 2, затем вернуться на сайт 1 и подписаться на информационную рассылку, а затем совершить покупки на сайте 2 — это будет неправильной и, возможно, запутанной процедурой, если вы хотите, например, собрать анкеты после тестирования, такие как SUS и NPS, для двух дизайнов в конце тестирования.
В этой ситуации мы рекомендуем вам сгруппировать отдельно все задачи для оценки дизайна первого сайта и отдельно для второго. Однако следует рандомизировать порядок, в котором респонденты видят два дизайна: одни сначала видят дизайн 1, а другие — дизайн 2. И в каждой оценке дизайна сайта порядок задач должен быть случайным.
3. Постоянно контролируйте процедуру исследования и ищите некорректные переменные — скрытые факторы, которые могут повлиять на ваши результаты.
Например, предположим, что исследователь заинтересован в сравнении двух сайтов и использует межпредметный дизайн. Она решает изучить сайт A с респондентами, которые приходят утром и сайт B с респондентами, приходящими после обеда. Если исследователь в конечном итоге обнаружит, что показатели респондентов лучше, скажем, при тестировании сайта А, это может быть не потому, что сайт А лучше, а потому, что люди меньше устают по утрам. Точно так же, если вы разделяете с коллегой работу над исследованием, к примеру вы курируете тестирование сайта A, а коллега — сайта B, куратор — это скрытая переменная. Может случиться так, что поведение одного куратора более предвзято, чем поведение другого, или что один из них от природы более приятный человек, и участники чувствуют себя с ней более разговорчивыми и расслабленными.
Таким образом, если вы знаете, что будут какие-либо факторы, которые нужно будет варьировать от одного исследования к другому, убедитесь, что они меняются для всех параметров вашего исследования.
Когда вы составляете программу сравнительного анализа для своей организации, важно тщательно спланировать внутреннюю валидность. Вы должны очень тщательно задокументировать структуру вашего исследования (формулировка задачи, протокол исследования, использовалось ли размышление вслух и т. д.), чтобы на нее можно было положиться в дальнейших исследованиях, которые вы будете проводить для определения результатов улучшения дизайна с течением времени. В противном случае разница в результатах оценки текущей версии сайта и предыдущей версии может быть связана просто с организацией исследования, а не с улучшением удобства использования.
Внешняя валидность.
4. Выбирайте респондентов, которые представляют вашу целевую аудиторию — как с точки зрения демографии, так и с точки зрения пользовательских целей. В целом, исследователи очень тщательно подходят к сбору первичной информации, которая точно соответствует демографическим характеристикам населения, но этого может быть недостаточно для обеспечения внешней валидности. Возможно, участники исследования принадлежат к необходимой демографической группе, но имеют совсем другие цели, чем ваши пользователи (или они просто недостаточно мотивированы). Всегда стремитесь найти респондентов, которые, вероятно, будут преследовать те же цели, что и ваши пользователи.
5. Воспроизведите, насколько это возможно, естественную ситуацию, в которой участники будут использовать пользовательский интерфейс, который они тестируют.
Ваши участники должны использовать ваше мобильное приложение для ремонта автомобилей в своем гараже? Тогда не заставляйте их тестировать его в конференц-зале. Окружающая среда — освещение, грязные руки, место, где находится телефон, доступное время, доступные инструменты — все, вероятно, будет играть роль в том, насколько пригодно это приложение.
Однако, иногда исследование не может быть признано внешне валидным.
Всегда ли возможна внешняя валидность?
В некотором смысле любое исследование не будет иметь внешней достоверности — мы редко используем интерфейсы, когда незнакомец смотрит через плечо или мы сидим за столом или в лаборатории. (В некоторой степени можно даже утверждать, что некоторые дистанционные исследования более результативны с позиции внешней валидности, чем тет-а-тет тестирования, потому что, по крайней мере, участники могут находиться в их естественной среде обитания). Мы также знаем, что респонденты, как правило, ведут себя несколько иначе — они более сговорчивы и более усердны — в ситуации, когда они тестируют приложение, чем сами по себе.
Хотя, иногда дизайн-тестирование в естественной среде может быть слишком дорогостоящим. Например, мы большие сторонники бумажного прототипирования, но у этих типов тестов всегда будет недостаток внешней валидности. Так что же нам делать?
В таких ситуациях неидеальное тестирование лучше, чем отсутствие тестирования в принципе. При бумажном прототипировании страницы вашего сайта или приложения могут оказаться не совсем точными, и вам придется повторно протестировать их позже в естественных условиях. Но цель бумажного прототипа — выявить серьезные препятствия, чтобы вы не тратили деньги на реализацию чего-то совершенно неправильного. Итак, запустите исследование бумажного прототипа, определите серьезные проблемы, исправьте их, а затем перейдите к детализированному прототипу, который вы могли бы протестировать в естественных условиях, на устройстве, которое участники будут использовать для выполнения задачи.
Еще одна распространенная ситуация, не имеющая внешней валидности, — это мобильное тестирование: большинство участников не будут использовать мобильные приложения и сайты с мобильными версиями без перерыва, сидя за столом и подключенными к Wi-Fi. Однако, может быть приемлемо протестировать приложение и в этом случае, чтобы выявить те проблемы, которые будут встречаться даже в идеальных условиях, когда соединение будет отличным и без перерывов. Вероятно, это первые проблемы, которые необходимо будет решить многим сайтам с мобильными версиями — если на сайте есть проблемы даже в идеальных условиях, дизайн необходимо исправить. После того, как вы устраните эти проблемы, вам все равно придется провести повторное тестирование в более реалистичных условиях.
Точно так же некоторые специалисты по количественным исследованиям рекомендуют включать в определенные количественные исследования только экспертов, чтобы уменьшить количество вариантов ответов (отсутствие слишком разных ответов приводит к более низкой погрешности результатов исследования и может позволить исследователям уменьшить количество участников). Опытные пользователи предложат вам лучший сценарий, которым вы будете удовлетворены, при условии, что вы не предполагаете, что результаты будут характерны для абсолютно всех ваших пользователей.
В общем, если вы обнаружите, что вынуждены пожертвовать некоторой внешней достоверностью, крайне важно, чтобы вы всегда интерпретировали свои выводы в контексте и понимали, что они могут не соответствовать действительности, если исследование будет воспроизведено в реальных условиях.
Заключение
Плохо спланированное исследование приведет к некорректным результатам. Возможно, вы потратили впустую время и деньги на проведение исследования, которое ничего не скажет вам о вашем продукте или вашей аудитории. Обратите внимание на внутреннюю и внешнюю валидность вашего исследования — постарайтесь набрать респондентов, которые представляют вашу целевую аудиторию, и убедитесь, что структура исследования воспроизводит то, как ваши пользователи будут применять систему в реальной жизни, и что она не поощряет какую-либо одну реакцию или поведение.
Онлайн-тесты на oltest.ru: Экспериментальная психология
Онлайн-тестыТестыФилософия и психологияЭкспериментальная психологиявопросы76-9076. Внешние переменные в эксперименте могут быть:
• побочными и дополнительными
77. Внешние переменные, порождаемые систематическим смешением факторов времени, задачи, индивидуальных особенностей испытуемых, ведущие к появлению неожиданных данных, называются:
• побочными
78. Внешним отличительным моментом психологического эксперимента с участием людей от других видов естественнонаучного исследования является наличие
• инструкции
79. Внешняя валидность — это мера …
• соответствия экспериментальной процедуры реальности
80. Внешняя переменная, которая существенна для изучаемой связи между причиной и следствием, называется:
• дополнительной
81. Внутренний психологический склад человека другими словами называется:
• эндопсихикой
82. Внутренняя валидность — это мера …
• влияния независимой переменной на зависимую переменную по отношению к другим факторам
• интервалов и равных отношений
84. Возможность переноса экспериментальных результатов на реальную ситуацию, обобщение их для других объектов реальности, составляет суть __________________ валидности.
• внешней
85. Возможность эксперимента (теста) по измерению какой-либо психической переменной является валидностью
• содержательной
86. Воспроизводящее исследование в психологии проводится с целью
• точного повторения исследования предшественников для подтверждения полученных результатов
87. Впервые, основываясь на бихевиористской традиции, теоретическое обоснование психологического эксперимента дал:
• В. Вундт
88. Время реакции в основном можно измерить только экспериментом
• лабораторным
89. Все методы, применяемые для получения эмпирического материала, можно условно разделить на:
• активные и пассивные
90. Все функции, которые имеют максимум, называются:
• изотонными
Разница между внутренней и внешней валидностью (образование)
Обоснованность говорит о обоснованности дизайна и методов исследования. При проведении эксперимента исследователь ставит перед собой две задачи, касающиеся достоверности, то есть делает выводы о влиянии независимой переменной на исследуемую группу и делает выводы о населении в целом. Первая цель подчеркивает внутренняя валидность, в то время как второй фокусируется на внешняя валидность.
Основное различие между внутренней и внешней достоверностью заключается в том, что первое говорит о связи между переменными, а второе касается универсальности результатов. Для дальнейшего понимания темы, прочитайте эту статью.
Содержание: Внутренняя валидность против внешней валидности
- Сравнительная таблица
- Определение
- Ключевые отличия
- Вывод
Сравнительная таблица
Основа для сравнения | Внутренняя валидность | Внешняя валидность |
---|---|---|
Смысл | Внутренняя достоверность — это степень, в которой эксперимент свободен от ошибок, и любая разница в измерении обусловлена независимой переменной и ничем иным.. | Внешняя достоверность — это степень, в которой результаты исследования могут быть выведены для всего мира.. |
Обеспокоен | контроль | натуральность |
Что это? | Это мера точности эксперимента. | Он проверяет, могут ли случайные отношения, обнаруженные в эксперименте, быть обобщенными или нет. |
Идентифицирует | Насколько сильны методы исследования? | Можно ли применить результаты исследования к реальному миру?? |
Описывает | Степень, до которой обоснован вывод. | Степень, в которой обосновано исследование, чтобы обобщить результат в другой контекст. |
Использовал к | Обратитесь или исключите альтернативное объяснение результата. | Обобщить результат. |
Определение внутренней действительности
В статистике внутренняя достоверность используется для обозначения меры точности, которая проверяет обоснованность эксперимента, особенно в отношении смешения. Он измеряет, вызывают ли независимые переменные наблюдаемое влияние на зависимые переменные или нет. Когда наблюдаемые эффекты находятся под влиянием или смешиваются с посторонними переменными, тогда будет трудно сделать обоснованные выводы о взаимосвязи между переменными..
Просто внутренняя действительность относится к степень, в которой обоснованные причинно-следственные связи основаны на эксперименте, установлено, в какой степени эксперимент избегает систематических ошибок.
Высокая внутренняя достоверность позволяет исследователю с достаточной уверенностью выбирать одно объяснение из другого, поскольку оно игнорирует ошибки. Чем меньше путаницы в эксперименте, тем выше его внутренняя обоснованность.
Определение внешней действительности
Термин «внешняя достоверность» подразумевает определение того, можно ли обобщить случайные отношения, наблюдаемые в исследовании, или нет. Это констатирует, Можно ли обобщить результаты, полученные в ходе эксперимента, на другие ситуации и, если да, то на какие параметры, группы людей, время можно экстраполировать?
Внешняя валидность определяет правильность результатов исследования, изучая его применимость от одного параметра к другому. Угрозы внешней достоверности имеют место, когда конкретный набор условий исследования практически не учитывает взаимодействия других переменных реального мира..
Два типа внешней валидности, которая измеряет силу исследования:
- Достоверность населения
- Экологическая обоснованность
Ключевые различия между внутренней и внешней валидностью
Представленные вам пункты описывают различия между внутренней и внешней валидностью:
- Степень, в которой эксперимент свободен от ошибок и любой разницы в измерении, обусловлен независимой переменной, и ничто другое не известно как независимая переменная. Степень, в которой результаты исследований могут быть выведены для всего мира, известна как зависимая переменная.
- Внутренняя валидность — не что иное, как мера точности эксперимента. Напротив, внешняя достоверность проверяет, можно ли обобщить причинно-следственную связь между зависимой и независимой переменными, обнаруженными в эксперименте, или нет..
- Внутренняя валидность связана с контролем над посторонними переменными, тогда как внешняя валидность подчеркивает применимость результата к практическим ситуациям..
- Внутренняя валидность определяет силу методов исследования и дизайна. И наоборот, внешняя валидность исследует общность результатов исследования с реальным миром..
- Внутренняя действительность определяет степень, в которой заключение является обоснованным. В отличие от этого, внешняя достоверность определяет степень, в которой обосновано исследование для обобщения результата в другой контекст.
- Внутренняя валидность либо устраняет, либо устраняет альтернативное объяснение результата. Напротив, внешняя валидность используется для обобщения результатов.
Вывод
Ожидается, что экспериментальный дизайн будет иметь как внутреннюю, так и внешнюю валидность. Внутренняя достоверность является наиболее важным требованием, которое должно присутствовать в эксперименте до того, как будут сделаны какие-либо выводы относительно эффектов лечения. Чтобы установить внутреннюю действительность, необходимо контролировать внешнюю действительность. С другой стороны, внешняя валидность является краеугольным камнем хорошего эксперимента, и его немного сложно достичь..
Внешняя валидность и виды обобщений за пределами исследовательской ситуации
Оценка валидности реально проведенных экспериментов осуществляется через «внутренние очки», сквозь призму которых видны направления возможных или уже допущенных ошибок при разработке и проведении эксперимента. Р. Готтсданкер использовал удобную технику представления мысленных образцов эксперимента в виде таких инструкций.
Не следует путать термины «мысленный эксперимент» (МЭ) и «мысленная схема» эксперимента. ДОЭ можно понимать, во-первых, как принятую норму размышлений психолога на всех этапах следования логике экспериментальной проверки психологической гипотезы. Во-вторых, DOE можно рассматривать в контексте использования психологом мысленной репетиции для оценки контроля угрозы для вывода эмпирической зависимости. В-третьих, МЭ может представлять собой такой эксперимент, который невыполним из-за отсутствия средств операционализации переменных, принятия определенных этических норм или экономических соображений и т.д.
В первых двух случаях путь продуманного экспериментирования — это обсуждение экспериментальной модели, которая определяет взаимосвязь между переменными, интересующими исследователя, при анализе эксперимента, который был фактически проведен или запланирован для фактического сбора данных. В третьем случае МЭ может представлять собой разработку заведомо нереального, т.е. в принципе невыполнимого, исследования. Тем не менее, он представляет собой один из способов, с помощью которого можно было бы спроектировать результаты, если бы у исследователя был доступ к предполагаемым формам экспериментального контроля.
Как и реальный эксперимент, мысленный эксперимент является средством проверки не всех психологических гипотез. Детерминистически сформулированные гипотезы, проверяемые в ДОЭ, могут быть причинно-следственными и структурно-функциональными. Последние не являются предметом экспериментов в строгом смысле слова, но могут направлять построение, например, формирующих экспериментов. Методы теоретического моделирования, которые больше подходят для проверки структурно-функциональных гипотез, не рассматриваются в данном учебнике, который построен как введение в эксперимент как метод сбора эмпирических данных.
При планировании психологического эксперимента можно понимать ДОЭ и как реализуемый во внутреннем, психическом ходе экспериментальной деятельности, внешне реально развернутый в этапах проведения эксперимента. Фактически, все этапы планирования являются вариантами мысленного экспериментирования с целью определения лучших форм экспериментального контроля, выбора лучшего из возможных экспериментальных планов.
Помимо планирования, функция мысленного эксперимента заключается в обосновании или оценке валидности фактически проведенных экспериментов. Ментальные паттерны, в терминах которых оцениваются свойства реального эксперимента, позволяют нам обсудить основные аспекты «правильности» построения экспериментальной модели. Правильность в данном случае означает лишь степень приближения к наилучшему мысленному воплощению условий эксперимента, соответствующих данной экспериментальной гипотезе. Экспериментатор может выбрать переменные, технику как средство операционализации этих переменных правильно или неправильно, обосновать или нет. Экспериментатор может вводить смеси НП с другими переменными или успешно избегать смесей. Он может получить более или менее надежные данные, задав определенное количество образцов для каждого из условий НП; он может обеспечить случайное распределение условий для вспомогательных переменных по уровням НП, или он может не контролировать несистематическую изменчивость (НП, ПД, вспомогательные факторы).
Именно такое прочтение функций ментальных паттернов представлено в понятиях идеальных и бесконечных экспериментов, экспериментов полного согласия и безошибочных экспериментов, используемых Р. Готтсданкером. Все эти четыре термина служат для уточнения критериев, по которым следует оценивать успех планирования, организации и проведения реалистичного эксперимента.
В контексте рассматриваемых норм профессиональной аргументации психолога термин «мысленный эксперимент» является одной из таких норм (или «внутренних точек»), которые психолог может использовать для ответа на многие вопросы об уровне эмпирической поддержки, достигнутой для проверяемой каузальной гипотезы. Однако не существует рецепта, как использовать эти «очки» в каждом конкретном случае. Иногда от них приходится отказываться, если характер исследования не таков, чтобы к нему можно было применить установленные нормы оценки экспериментальных гипотез. Такой отказ, однако, не следует путать с неспособностью правильно организовать и провести психологический эксперимент.
Виды валидности в оценке психологического эксперимента
Виды валидности — это направления сравнения реально проведенных экспериментов с мысленными образцами. Оценка валидности относится как к оценке реализации выбранных форм экспериментального контроля, так и к оценке системы выводов в организации исследования с точки зрения соответствия нормам экспериментального вывода. Нормы, связанные с возможными обобщениями по результатам психологических экспериментов, включают в себя различные типы валидности.
Внутренняя и внешняя валидность — это обязательно обсуждаемые аспекты валидного эксперимента, будь то эксперимент в научных или практических целях. Различия в выводах из этих экспериментов будут связаны с тем, как построено обобщение: переносимо ли оно на других людей, другие ситуации, виды деятельности или на теоретическую модель.
Внутренняя валидность эксперимента говорит лишь что-то об изучаемой зависимости, то есть о связи между независимыми и зависимыми переменными, но ничего о возможности их распространения за пределы данной экспериментальной ситуации. Если полученные данные характеризуются ненадежностью или наличием смещений (систематических, несистематических, сопутствующих), утверждение, сформулированное в экспериментальной гипотезе, не может считаться достоверным, даже если получен соответствующий ему экспериментальный эффект.
Если внутренняя валидность проведенного эксперимента классифицируется как высокая, из этого еще не следует, что экспериментально установленная зависимость также соответствует действительности. Таким образом, в лабораторных экспериментах экспериментальная модель может представлять собой научную модель, которая отражает определенные отношения между операционализированными переменными. Возможно, что для этих моделей типы субъективной реальности, которые они должны представлять в экспериментальной ситуации, впоследствии не обнаруживаются. Таким образом, не существует эмпирии, к которой можно было бы применить обобщение зависимости, обнаруженной в эксперименте.
Внешняя валидность, которая включает решение проблем соответствия (NP, PD, DP), обеспечивает возможность обобщения на типы ситуаций или деятельности, которым соответствуют экспериментально контролируемые переменные. Когда дело доходит до теоретических обобщений, оценка внешней валидности уступает место оценке валидности конструкции. Прояснение вопросов валидности конструкции и внешней валидности приводит исследователя к выбору типа эксперимента: естественный («дублирующий реальный мир»), искусственный (расширяющий реальный мир) или лабораторный.
Необходимо различать системы теоретических утверждений, предполагающих, что они относятся к миру реальности (для психологических теорий это мир субъективной или психологической реальности), и утверждений, не ставящих целью соотнести мир теории и эмпирии (как онтологическую реальность, если использовать терминологию П. Фресса и Ж. Пиаже). Это различие может касаться позиции автора: «Если моя теория несовместима с миром реальности, то она — реальность — должна быть хуже». Это может быть следствием того, что сформулированные психологические конструкты не согласуются на уровне экспериментальных данных. При рассмотрении свойств экспериментального метода речь идет о другом — о способности эмпирически оценить теоретические причинные объяснения.
В экспериментальном методе исследование строится таким образом, чтобы отвергнуть неадекватные объяснения или «ложные» теории как не соответствующие эмпирически установленным зависимостям. Чаще всего различие между продуктивным теоретизированием и псевдотеоретизированием связано с тем, что всегда необходим значительный «прорыв» в обобщении, чтобы связать закономерности, обнаруженные при построении экспериментальных ситуаций (экспериментальных моделей) и теоретических моделей, хотя бы через гипотетические конструкты. Только содержательное обсуждение связи между переменными, установленной в каузальной гипотезе, с учетом объяснительных принципов, сложившихся в рамках конкретных психологических школ, позволяет исследователю настаивать на реальности, т.е. «эмпирической нагрузке», психологических концепций, стоящих за изучаемыми переменными и зависимостями. Анализ эмпирической нагрузки гипотез, вытекающих из теории, играет существенную роль в качестве «ограничителя» для утверждения псевдозаконов.
Понятие валидности конструкта включает в себя актуальный аспект оценки правильности экспериментального дизайна: насколько обоснованным был переход от представленных в теоретической гипотезе понятий — психологических конструктов к их эмпирическим репрезентациям в виде NP, ST, DP, а также насколько объяснение установленной зависимости действительно следует из представленной автором теории. Еще до выбора конкретных методов или уже при их обосновании экспериментатор совершает тот «прорыв» в обобщении (от теории к эмпирике), который связан с разнообразными экспериментальными воплощениями универсальных утверждений. Один и тот же конструкт (например, понятие агрессии или фрустрации) может предполагать различные модели возникновения и регуляции изучаемых явлений, т.е. всегда возникает вопрос об авторской позиции, стоящей за используемой психологической концепцией. От этой позиции во многом зависит, как будут заданы переменные на уровне экспериментальных и контргипотез.
Оценка
Проблема возможных множественных интерпретаций одной и той же экспериментальной зависимости, рассмотренная ранее, охватывает другой аспект валидности конструкта, а именно, насколько валидным выглядит введение автором гипотетических конструктов в причинно-следственную зависимость в качестве объяснения связи между НП и СТ. Хорошо известно, что отсутствие сильных конкурирующих объяснений является третьим условием причинного вывода. В действительности конкурирующие объяснения всегда остаются, вопрос лишь в том, насколько более обоснованной кажется авторская интерпретация по сравнению с другими объяснениями одной и той же установленной зависимости. Очевидно, что эта оценка является содержательной, а не просто формально-логической (которую также следует рассматривать как проявление логической компетентности автора). Уже принятие той или иной позиции может обозначить предвзятость экспериментатора, но оценка валидности конструкта не может быть тем более предвзятой, поскольку связана с отражением в гипотезе накопленных знаний об изучаемой реальности.
Проблема заключается не в различии между старыми и новыми гипотезами, которые в той или иной степени поддерживаются эмпирическими аргументами. V. Налимов назвал эту проблему одним из парадоксов в понимании развития науки вслед за К. Поппером. Кажется парадоксальным, что новая гипотеза, в пользу которой существует меньше теоретических и эмпирических аргументов, со временем вытесняет старую, которая, как правило, лучше подтверждается проведенными исследованиями. Проблема заключается в том, как автор может заставить предполагаемого профессионального читателя исследовательского отчета признать, что автор достоверно представил теоретически подразумеваемые конструкты на уровне эмпирической реальности, а не вольно или невольно заменил их другими.
Таким образом, оценка валидности перехода от уровня теоретических предложений к уровню экспериментальных и контргипотез — это вопросы конструктивной валидности эксперимента. Решение проблем операционализации переменных в методических процедурах их измерения (и контроля) — это вопросы операциональной валидности. Если обобщение зависимости предполагает ее перенос на «реальные», т.е. реально существующие типы человеческих ситуаций и деятельности, то это и есть решение проблем приспособления переменных с точки зрения внешней или, как ее теперь иногда называют, экологической валидности.
Оценка операциональной валидности включает этап перехода от уже сформулированных экспериментальных и контргипотез к процедурам их методического оформления. Одна и та же переменная может быть представлена показателями разных методик. Одна и та же мысленная модель эксперимента может быть реализована с совершенно разными «техническими» или операционными проявлениями контрольных и измерительных переменных.
Популяционные гипотезы, направленные на обобщение на конкретные группы людей и целые популяции, могут быть оценены с помощью ментальной выборки, но не поддаются ментальной проверке. Эти дополнительные переменные, которые должны учитываться исследователем в целях обобщения, не дают обоснования условий необходимости или достаточности, связанных с представлением в реальном поведении человека или в реальных ситуациях механизмов, рассматриваемых в МЭ.
Факторы, угрожающие внутренней валидности эксперимента, рассматриваются в контексте обсуждения формального дизайна как условия принятия решения об экспериментальных фактах. Разработка межгрупповых или внутрииндивидуальных схем направлена в первую очередь на обеспечение контроля внутренней валидности. Что касается стратегий отбора испытуемых в группы из популяций, то здесь также следует обсудить соотношение между внешней (популяционной) и внутренней валидностью, поскольку эти стратегии решают одновременно две проблемы: обеспечение репрезентативности выборки испытуемых и эквивалентности сравниваемых групп.
Конструктивная валидность и концептуальные репликации
Психологическая гипотеза, которая была эксплицирована или выведена как следствие теоретической концепции, может быть несколько изменена при повторной проверке, если меняются средства операционализации содержащихся в ней переменных. Когда необходимо раскрыть одну и ту же теоретически предположенную зависимость, но психологические конструкты инстанцируются различными методологическими средствами, это известно как концептуальная репликация. Таким образом, при многократном измерении зависимой переменной с использованием различных методик повышается достоверность утверждений о природе изучаемого процесса. Изменения в типах задания независимой переменной также расширяют диапазон обобщений наблюдаемой психологической закономерности. Важно, чтобы не нарушалась однозначная интерпретация самого психологического конструкта («мотивация достижения», «функциональные состояния», «гибкость — ригидность контроля» и т.д.).
На самом деле, одно и то же понятие часто используется в психологии для изучения глубинных процессов на разных уровнях, т.е. эксперименты с терминологически схожими формулировками гипотез имеют совершенно разные типы переменных. В качестве примера рассмотрим конструкт «импульсивность». Существует множество теоретических расхождений в обосновании процедур, претендующих на измерение переменной импульсивности как индивидуальной или личностной черты. Некоторые из них связывают импульсивность со снижением рациональности, функции планирования, отсутствием самоконтроля, то есть с одной из обобщенных особенностей человеческого поведения. Другие измеряют импульсивность как когнитивный стиль. Другие настаивают на связи импульсивности с особенностями темперамента. Допустим, что авторы находятся в рамках сходных методологических подходов к пониманию личности, например, с позиции теории черт, но даже в этом случае трудно достичь согласия относительно того, что является психологической реальностью, соответствующей данной черте.
По мнению Г. Айзенка, необходимо различать черты личности, понимаемые как проявления поведения в строго ограниченных областях, и типы или измерения личности, которые связаны с проявлением значимых форм поведения в более общем виде. Черта Импульсивность отличается тем, что занимает промежуточное положение в иерархии личностных черт между этими двумя уровнями. Он включает в себя 4 фактора: стремление к риску, снижение или отсутствие планирования, живость реакции и «узкая импульсивность». Существенно, что благодаря структуре этого «гибрида» Г. Айзенк соглашается с одним из утверждений, вытекающих из результатов исследования Р. Кеттелла: с правомерностью взаимных корреляций между различными шкалами, выделяемыми в теориях черт.
Впоследствии термин «импульсивность» претерпел следующие изменения в совместной работе Ганса и Сибил Айзенк. Во-первых, «импульсивность» была включена вместе с «общительностью» и «живостью» как часть фактора «экстраверсия». Затем, из-за выделения «психотизма» как фактора второго порядка, было проведено различие между «склонностью к риску», которая связана с экстраверсией, и «импульсивностью» в более узком смысле, которая более тесно связана с «психотизмом» (импульсивностью в широком смысле). Попытка выделить «склонность к риску» и «узкую импульсивность» в качестве отдельных шкал оказалась по-разному успешной для женской и мужской выборок.
Таким образом, существует достаточно возможностей для уточнения психологического конструкта «импульсивность» даже в рамках одного исходного понятия. Обобщение для проверки гипотез, связанных с переменной импульсивности, должно учитывать внешние и внутренние детерминанты, которые были определены для этой черты.
Особенности оценки достоверности лабораторного эксперимента
Особым случаем является обобщение, которое предполагает организацию «очищенных» условий в эксперименте для проверки так называемых точных гипотез. Обычно это функция лабораторных экспериментов: получение данных в условиях, соответствующих причинно-следственным связям в специально сформулированной модели, чтобы эмпирически оценить объяснительную силу этой теоретической модели. Теоретические обобщения, однако, относятся не только к линии рассуждений типа «эксперимент — модель — теория». Оценка силы определенных обобщений выявляется также при анализе свойств самой теории — относящейся к «миру теорий» (а не к миру «психологической реальности»). Независимо от того, моделирует ли эксперимент ситуацию, которая отражает теоретическую модель или модель «внешнего мира», оценивается как объяснительная сила предложения, сформулированного в качестве экспериментальной гипотезы, так и возможность перехода от теории как объяснительной системы к этому эмпирически нагруженному предложению. ЭГ как эмпирическая гипотеза будет включать переменные, которые можно не только наблюдать, но и измерять (по той или иной шкале).
Конструктивная валидность обсуждается во всех типах экспериментов с научной целью как адекватность перехода от научной гипотезы к экспериментальной гипотезе или от «рабочей» к интерпретационной теоретической гипотезе. Обсуждение вопросов операциональной валидности включает фазу перехода от уже сформулированных экспериментальных и контргипотез к методологическим процедурам реализации в экспериментальной модели или ситуации. Р. Готтсданкер рассматривает понятие операциональной валидности только применительно к такому типу эксперимента, как лабораторный эксперимент. В этом случае два этапа развития методологических процедур, упомянутых выше, не различаются, поскольку предполагается, что психологический конструкт представлен в том, как он измеряется. Это может быть обосновано, с одной стороны, несводимостью обобщенного понятия к его эмпирическому содержанию, а с другой — возможной неспецифичностью методологических показателей.
В целом, считается, что валидность эксперимента подразумевает все формы экспериментального контроля, направленные на обеспечение всех видов валидности. Результаты валидного эксперимента могут служить основой для надежных выводов, если в целом реализована логически обоснованная система умозаключений, включающая взаимные переходы между различными уровнями гипотез, проверяемых в эксперименте. Если все возможные или очевидные угрозы внутренней и внешней валидности контролируются, а проблемы операционализации и сопоставления переменных хорошо решены, то такой эксперимент считается валидным или «правильным». Valid — валидные или «правильные» — выводы могут быть сделаны из правильно поставленного эксперимента, что означает, что в нем нет ошибок обобщения или умозаключения, но ошибки в умозаключениях возможны.
Ошибки в выводах или ненадежные заключения возможны как из-за неправильных обобщений, так и из-за недействительных экспериментов. Поэтому понимание экспериментирования как сенсорно-объективной деятельности ученого не должно ограничиваться описанием и оценкой того, как операционализируются переменные или как они регистрируются. Формулировка системы гипотез, оценка достоверности эксперимента и реализация выводов относятся к нормативным или нормативно-правовым регуляторам этой деятельности.
Выбор определенной формы эксперимента связан с разработкой того или иного экспериментального дизайна (как схемы сбора данных в различных условиях НП) и с другими видами контроля (выбор типа эксперимента, осуществление «первичного» контроля, «дополнительное варьирование» переменных, введение расширенной переменной и т.д.). Решение проблем дизайна в данном случае означает «прописывание» эксперимента в системе классификаций типов экспериментов и типов экспериментальных дизайнов. Это, в свою очередь, позволяет очертить возможности и ограничения следующих выводов.
Именно предположениями о возможностях последующих обобщений руководствуется исследователь при планировании содержания и формы экспериментов. Таким образом, проблема вывода и обобщения решается в два достаточно отдаленных этапа — мысленное планирование экспериментальных конструкций и процедур и обоснование выводов на основе результатов уже проведенного исследования. В реальных экспериментальных исследованиях это соответствует двухэтапному обобщению: в виде исходных предположений о характере зависимости между НП и БП и в виде окончательных выводов о возможности обобщений как переноса установленной зависимости за пределы экспериментальной ситуации (обобщения на теоретическую модель, на другие ситуации, виды деятельности, субъектов и т.д.).
На странице курсовые работы по психологии вы найдете много готовых тем для курсовых по предмету «Психология».
Читайте дополнительные лекции:
- Виды психических процессов: ощущение
- Психология тела
- Психосемантика рекламы
- Профилактика суицидального поведения детей
- Клинический психолог
- Бернштейн Николай Александрович, советский психофизиолог — Психофизиологические основы организации движения
- Стили руководства. Влияние руководителей на эффективность работы подчиненных
- Практические методы обучения дошкольников
- Теоретическая психология как область психологической науки
- Диагностика задержки психического развития, нейропсихологический подход
27 Типичные нарушения внутренней валидности вывода
2. Типичные нарушения внутренней валидности вывода
Изменения исторического фона, матурация, несоответствие составов контрольной и экспериментальной групп, отсев респондентов, нестабильность инструментального комплекса, эффект тестирования, реактивный эффект. «Натурные» эксперименты.
На результаты эксперимента оказывают влияние любые события, происходящие во время проведения исследования, особенно если оно занимает продолжительное время. Сама зависимая переменная меняется под влиянием посторонних обстоятельств, и какое из них обусловило изменения, — остается неясным. Причины изменений обозначаются как изменения исторического фона. Под «историей» имеется в виду история эксперимента.
Предположим, проверяется гипотеза о воздействии пропаганды на поведение избирателей. В соответствии со схемой эксперимента осуществляется замер электоральных предпочтений до пропагандистской атаки и после нее. Затем сопоставляются значения этой переменной в двух группах: экспериментальной, подвергавшейся пропагандистскому воздействию, и контрольной, где на избирателей не оказывалось влияния. Предположим, далее, что установлены существенные различия между экспериментальной и контрольной
3 Кэмпбелл Дж, Модели эксперимента в социальной психологии и прикладных исследованиях: Пер. с англ. / Сост. и общ. ред. М.И. Бобневой; Вступ. ст. Г.М. Андреевой. М.: Прогресс, 1980. С.72 — 73.
199
труппами. Однако можем ли мы быть уверены, что различия обусловлены именно пропагандой. За короткий промежуток времени на мнения избирателей могли повлиять различные события: повышение цен, сенсационные разоблачения политических лидеров, рост инфляции. Все эти факторы могут служить основой альтернативных гипотез. Чем больше временной промежуток между претестом и посттестом, тем больше вероятность «исторических» искажений результатов эксперимента.
Модификацией «исторических» изменений являются естественные изменения в самом объекте экспериментирования — «матурация». С течением времени меняется не только внешняя среда, но и внутренние качества испытуемых. Предположим, что экспериментальной проверке подвергается метод преподавания и предварительные измерения отделены от итоговых измерений временем, занимающим почти весь учебный год. Разумеется, за этот период произойдут существенные сдвиги в уровне усвоения материала студентами — здесь нельзя сбрасывать со счетов то обстоятельство, что испытуемые стали взрослее и, вероятно, умнее. Результат может быть вызван и новым методом преподавания, и взрослением экспериментального контингента. Даже если эксперимент длится два-три часа, на его результаты может повлиять усталость и раздражение испытуемых.
Несоответствие составов групп. На внутреннюю валидность вывода оказывают искажающее влияние изменения в составе экспериментальной и контрольной групп. Особенно часто это случается тогда, когда для эксперимента выбираются примерно равные по возрасту классы, студенческие группы. Однако проконтролировать все различия довольно трудно. Например, более высокий уровень сплоченности в одной группе может привести к существенным искажениям результатов. Надежное средство выравнивания составов контрольной и экспериментальной групп — рандомизация.
Отсев испытуемых. Если эксперимент длится долго, вероятность избежать отсева испытуемых по разным причинам довольно высока. Поэтому при осуществлении итоговых измерений невозможно с уверенностью сказать, насколько повлияло выбытие испытуемых на результат. Чаще всего из экспериментов выбывают испытуемые из контрольных групп.
Рекомендуемые файлы
Нестабильность инструментального комплекса. Изменения могут затрагивать не только внешние обстоятельства (фон) и испытуемых, но и измерительный инструментарий исследования. Проблема заключается в том, что в отличие от естественных наук в социологии и психологии измерительные инструменты (в том числе интервьюер) меняются. А смена измерительного комплекса влечет за собой смещение данных. Здесь нельзя менять ни wording, ни калибровку, ни
200
стиль интервьюирования. При экспериментах, связанных с контролем успеваемости студентов, такого рода погрешности практически неизбежны. Необходимо не только сохранить критерии оценки знаний — часто интуитивные, но даже тот психологический настрой, который был присущ экзаменатору в момент первой проверки. Смена экзаменатора в данном случае эквивалентна смене инструмента и препятствует всяким сопоставлениям.
Экспериментальный инструментарий предполагает однократное применение к одному испытуемому. В противном случае возникнет эффект тестирования. Если экспериментатор обратится с тем же тествопросником вторично, результаты замера будут иными, поскольку испытуемый уже знаком с инструментом и будет осознанно или неосознанно корректировать свои реакции, например, стараться вспомнить, что говорил прошлый раз, и воспроизводить свои ответы. Собственно говоря, знакомый испытуемому тест-вопросник — уже другой инструмент, чем тот, который применялся на стадии претеста, и сравнение данных содержит существенную погрешность.
И, наконец, самые существенные искажения связаны с влиянием на результат эксперимента наряду с независимой переменной самой экспериментальной ситуации — часто такое влияние называют реактивным эффектом.
Лучше всего проиллюстрировать возникновение реактивного эффекта на примере проверки нового метода лечения. Зная о том, что на них испытывается новый метод лечения, пациенты обнаруживают заметные улучшения по крайней мере в клинической симптоматике заболевания. Лучше себя чувствуют даже те, кто входит в контрольную группу, т. е, не находится под воздействием экспериментальной переменной.
Влияние инструмента на реакции респондентов может быть самым неожиданным. В литературе хорошо описан «эффект интервьюера», когда ответы в значительной мере обусловлены невольным воздействием личности интервьюера. Реже упоминается, что вопросы, задаваемые в ходе одного интервью, обнаруживают более высокую корреляцию, чем те же вопросы, включенные в разные анкеты. Если вопросы интервью следуют друг за другом, наблюдается «галаэффект»: корреляция между ними выше, чем между такими же, но «отдаленными» вопросами. Корреляция между данными, полученными в один день, выше, чем корреляция между данными, полученными в разные дни.
Следует различать действие экспериментальной переменной и экспериментальной ситуации. В последнем случае мы имеем дело с реактивным эффектом. В медицине от него пытаются избавиться с помощью placebo — контрольным больным дают «видимость» экспе
201
риментальной переменной, например, таблетки такого же цвета и вкуса, какие дают экспериментальным больным. Таким образом, placebo является одним из способов выравнивания эффекта экспериментальной ситуации. В социологии применить placebo практически невозможно.
Имеются и другие факторы, снижающие внутреннюю валидность: взаимодействие фактора отбора с «матурацией», деморализация испытуемых, связанная с кажущимися неудачами; имитация воздействия и т. п.
В лекции «Классификация подземных вод по условиям их происхождения» также много полезной информации.
Нарушения внутренней валидности, обусловленные изменениями «исторических» обстоятельств эксперимента, компенсируются сравнением контрольной и экспериментальной групп — изменения в данном случае затрагивают и тех, и других испытуемых. Аналогичным образом изменения в измерительном инструментарии затрагивают обе группы. Реактивный эффект также оказывает одинаковое воздействие на всех испытуемых. Особенно серьезную опасность представляют посторонние переменные, связанные с недостаточным выравниванием групп.
Внешняя валидность, как уже говорилось, это возможность распространить установленные зависимости за рамки экспериментального материала. При высокой внутренней валидности, т. е. при уверенности, что изменения в переменной х вызывают определенные изменения в переменной у, внешняя валидность может оказаться совершенно неудовлетворительной.
Предполагается, что в отличие от лабораторного эксперимент «на натуре» ближе к жизни. Часто эксперименты, проводимые на улице, на производстве, в общественных учреждениях, по месту жительства и т. п. называют в отличие от лабораторных «естественными». Здесь этические проблемы, связанные с навязыванием ничего не подозревающим людям экспериментальной «легенды», стоят особенно остро.
В литературе имеются десятки примеров замаскированных полевых экспериментов, позволяющих сравнить ситуации с разными значениями независимой переменной. Изучалась реакция публики на «пешеходов» высокого и низкого социального статуса, переходящих проезжую часть на красный сигнал светофора. Разумеется, пешеходами были экспериментаторы, одетые так, как одеваются люди высокого и низкого социального положения. Рассылались письма с просьбой о приеме на работу, при этом в одной группе указывались сведения уголовного характера, в другой — нет. Зависимой переменной в данном случае являлись реакции работодателей. Женщина рядом с автомобилем, у которого села покрышка… В одних случаях она демонстрирует просьбу о помощи, в других — нет. «Нищие», внешний вид которых отчетливо идентифицируется с представителями опре
202
деленных этнических групп, сидят на тротуаре… «Джентльмен» спрашивает прохожих, не уронил ли кто только что найденную долларовую бумажку… Помощники экспериментатора собираются на улице в группы разной величины, а затем устанавливается число прохожих, привлеченных группой. Несколько «хулиганов» на улице пристают к дамам… Письма делового, любовного и «нейтрального» содержания, «по ошибке» попавшие в чужие руки… Перечень подобных естественных экспериментов бесконечен. Однако свидетельствуют ли они о связи переменных — неясно. Остается сомнение: являются ли естественные эксперименты более естественными и валидными, чем эксперименты в лабораториях. Очевидный «минус» естественных экспериментов — нарушение моральных норм, связанное с целенаправленным обманом испытуемых, не дававших согласия на участие в «социодраме». Отчасти исследователей извиняет то обстоятельство, что моделируемые ситуации входят в число повседневных и не связаны с ущербом, кроме незначительной потери времени. Но, бывает, мера превышается. Известны, например, опыты С. Мильгрема с кажущимся применением электрошока к испытуемым, создание ситуаций, связанных с угрозой верной гибели, и т. п.
Общие сведения о внутренней и внешней действительности
Внутренняя и внешняя валидность — это концепции, которые отражают достоверность и значимость результатов исследования. В то время как внутренняя валидность связана с тем, насколько хорошо проведено исследование (его структура), внешняя валидность связана с тем, насколько результаты применимы к реальному миру.
Что такое внутренняя действительность?
Внутренняя валидность — это степень, в которой исследование устанавливает заслуживающую доверия причинно-следственную связь между лечением и результатом.Внутренняя валидность также отражает то, что данное исследование позволяет исключить альтернативные объяснения вывода.
Например, если вы реализуете программу отказа от курения с группой лиц, насколько вы можете быть уверены, что любое улучшение, наблюдаемое в группе лечения, связано с лечением, которое вы провели?
Внутренняя валидность во многом зависит от процедур исследования и от того, насколько строго оно проводится.
Внутренняя валидность — это не концепция типа «да или нет».Вместо этого мы рассматриваем, насколько мы можем быть уверены в результатах исследования, основываясь на том, позволяет ли оно избежать ловушек, которые могут сделать результаты сомнительными.
Чем меньше шансов на «смешение» в исследовании, тем выше внутренняя валидность и тем больше мы можем быть уверены в результатах. Под сомнением понимается ситуация, в которой в игру вступают другие факторы, которые искажают результат исследования. Например, исследование может сделать нас неуверенными в том, можем ли мы доверять тому, что мы определили вышеупомянутый «причинно-следственный» сценарий.
Короче говоря, вы можете быть уверены в том, что ваше исследование внутренне достоверно, только если вы можете исключить альтернативные объяснения своих выводов. Вкратце, вы можете предположить причинно-следственную связь, только если вы соответствуете следующим трем критериям в своем исследовании:
- Причина предшествовала следствию во времени.
- Причина и следствие различаются.
- Других возможных объяснений наблюдаемой вами взаимосвязи нет.
Факторы, улучшающие внутреннюю валидность
Если вы хотите повысить внутреннюю валидность исследования, вы захотите рассмотреть те аспекты дизайна вашего исследования, которые повысят вероятность того, что вы сможете отклонить альтернативные гипотезы.Есть много факторов, которые могут улучшить внутреннюю валидность.
- Ослепление : участники — а иногда и исследователи — которые не знают, какое вмешательство они получают (например, с помощью плацебо в исследовании лекарств), чтобы избежать искажения этих знаний в их восприятии и поведении и, следовательно, на результатах исследования
- Экспериментальная манипуляция : Манипулирование независимой переменной в исследовании (например, предоставление курильщикам программы отказа от курения) вместо простого наблюдения ассоциации без проведения какого-либо вмешательства (изучение взаимосвязи между упражнениями и курением)
- Случайный выбор : Выбор участников наугад или таким образом, чтобы они представляли популяцию, которую вы хотите изучать
- Рандомизация : случайное распределение участников по группам лечения и контроля и гарантирует отсутствие систематической ошибки между группами
- Протокол исследования : Следование определенным процедурам для проведения лечения, чтобы не вызывать каких-либо эффектов, например, при различном поведении одной группы людей по сравнению с другой группой людей
Факторы, угрожающие внутренней действительности
Подобно тому, как существует множество способов убедиться, что исследование является внутренне достоверным, существует также список потенциальных угроз внутренней достоверности, которые следует учитывать при планировании исследования.
- Исчезновение : участники выбывают из исследования или покидают его, что означает, что результаты основаны на предвзятой выборке только людей, которые не решили уйти (и, возможно, у всех есть что-то общее, например, более высокая мотивация)
- Смешение : Ситуация, в которой можно считать, что изменения в переменной результата являются результатом некоторой третьей переменной, связанной с проведенным вами лечением.
- Распространение : Это относится к лечению в исследовании, которое распространяется от экспериментальной группы к контрольной группе через группы, взаимодействующие и разговаривающие или наблюдающие друг за другом.Это также может привести к другой проблеме, называемой обиженной деморализацией, при которой контрольная группа старается меньше, потому что чувствует обиду на группу, в которой они находятся.
- Исторические события : может повлиять на результаты исследований, которые происходят в течение определенного периода времени, например, смена политического лидера или стихийное бедствие, которое влияет на то, как участники исследования себя чувствуют и действуют.
- Инструменты : можно «подготовить» участников исследования определенным образом с помощью мер, которые вы используете, что заставляет их реагировать иначе, чем они бы иметь иначе.
- Созревание : описывает влияние времени как переменной в исследовании. Если исследование проводится в течение периода времени, когда возможно, что участники каким-то образом изменились естественным образом (стали старше, устали), то может быть невозможно исключить, были ли эффекты, наблюдаемые в исследовании, просто следствием эффекта. времени.
- Статистическая регрессия : естественный эффект участников на крайних концах меры, падающий в определенном направлении только по прошествии времени, а не эффект вмешательства
- Тестирование : многократное тестирование участников с использованием тех же мер влияет на результаты.Если вы дадите кому-то один и тот же тест три раза, не кажется ли, что он лучше справится с тестом или привыкнет к процессу тестирования и ответит по-разному?
Что такое внешняя действительность?
Внешняя валидность относится к тому, насколько хорошо можно ожидать, что результаты исследования будут применимы к другим условиям. Другими словами, этот тип достоверности относится к тому, насколько обобщаемы результаты. Например, применимы ли результаты к другим людям, условиям, ситуациям и временным периодам?
Экологическая валидность, аспект внешней валидности, относится к тому, можно ли обобщить результаты исследования на реальный мир.
В то время как строгие методы исследования могут гарантировать внутреннюю валидность, внешняя валидность, с другой стороны, может быть ограничена этими методами.
Другой термин, называемый переносимостью, относится к внешней валидности и относится к качественному дизайну исследования. Переносимость относится к тому, переносятся ли результаты в ситуации с аналогичными характеристиками.
Факторы, улучшающие внешнюю валидность
Что вы можете сделать, чтобы улучшить внешнюю валидность вашего исследования?
- Учитывайте психологический реализм. : Убедитесь, что участники воспринимают события исследования как реальные события, рассказав им «прикрытие» о цели исследования.В противном случае в некоторых случаях участники могут вести себя иначе, чем в реальной жизни, если они знают, чего ожидать, или знают, какова цель исследования.
- Выполните повторную обработку или калибровку. : Используйте статистические методы для устранения проблем, связанных с внешней достоверностью. Например, если в исследовании были неравные группы по какой-либо характеристике (например, возрасту), можно было бы использовать повторное взвешивание.
- Реплика : повторите исследование с другими образцами или с другими настройками, чтобы увидеть, получите ли вы те же результаты.Когда было проведено много исследований, можно также использовать метаанализ , чтобы определить, является ли эффект независимой переменной надежным (на основе изучения результатов большого количества исследований по одной теме).
- Попробуйте полевые эксперименты : Проведите исследование вне лаборатории в естественной обстановке.
- Используйте критерии включения и исключения : Это гарантирует, что вы четко определили популяцию, которую изучаете в своем исследовании.
Факторы, угрожающие внешней действительности
Внешняя валидность находится под угрозой, когда исследование не принимает во внимание взаимодействия переменных в реальном мире.
- Эффекты до и после тестирования : Когда предварительное или послетестовое тестирование каким-либо образом связано с эффектом, наблюдаемым в исследовании, так что причинно-следственная связь исчезает без этих дополнительных тестов
- Характеристики выборки : когда какая-либо особенность конкретной выборки была ответственна за эффект (или частично ответственна), что привело к ограниченной обобщаемости результатов
- Ошибка отбора : Также считается угрозой внутренней валидности, систематическая ошибка выбора описывает различия между группами в исследовании, которое может относиться к независимой переменной (опять же, что-то вроде мотивации или желания принять участие в исследовании, конкретные демографические данные людей с большей вероятностью примут участие в онлайн-опросе).
- Ситуационные факторы : Время дня, местоположение, шум, характеристики исследователя и количество используемых мер могут повлиять на обобщаемость результатов.
Внутренняя и внешняя валидность
Внутренняя и внешняя значимость — две стороны одной медали. Вы можете провести исследование с хорошей внутренней достоверностью, но в целом оно может не иметь отношения к реальному миру. С другой стороны, вы можете провести полевое исследование, которое очень актуально для реального мира, но не даст достоверных результатов с точки зрения знания того, какие переменные привели к результатам, которые вы видите.
Сходства
В чем сходство между внутренней и внешней валидностью? Оба эти фактора следует учитывать при разработке исследования, и оба имеют значение с точки зрения того, имеют ли результаты исследования значение. Оба они не являются концепциями «либо / или», и поэтому вы всегда будете решать, в какой степени ваше исследование работает с точки зрения обоих типов достоверности.
Каждая из этих концепций обычно описывается в исследовательской статье, которая публикуется в научном журнале.Это сделано для того, чтобы другие исследователи могли оценить исследование и принять решение о том, являются ли результаты полезными и достоверными.
Отличия
Существенное различие между внутренней и внешней валидностью состоит в том, что внутренняя валидность относится к структуре исследования и его переменным, в то время как внешняя валидность связана с универсальностью результатов. Между ними есть и другие различия.
Внутренняя валидностьВыводы гарантированы
Управляет посторонними переменными
Исключает альтернативные объяснения
Ориентация на точность и сильные методы исследования
Выводы можно обобщить
Результаты применимы к практическим ситуациям
Результаты применимы ко всему миру
Результаты можно перевести в другой контекст
Внутренняя достоверность фокусируется на демонстрации разницы, обусловленной только независимой переменной, тогда как результаты внешней достоверности могут быть переведены на мир в целом.
Примеры действия
Примером исследования с хорошей внутренней валидностью может быть гипотеза исследователя о том, что использование определенного приложения внимательности снизит негативное настроение. Чтобы проверить эту гипотезу, исследователь случайным образом распределяет выборку участников в одну из двух групп: тех, кто будет использовать приложение в течение определенного периода, и тех, кто занимается контрольной задачей.
Исследователь следит за тем, чтобы не было систематической предвзятости в распределении участников по группам, а также не позволяет своим научным сотрудникам видеть группы, в которых учащиеся находятся во время экспериментов.
Используется строгий протокол исследования, в котором излагаются процедуры исследования. Возможные искажающие переменные измеряются вместе с настроением, например, социально-экономический статус участников, пол, возраст и другие факторы. Если участники выбывают из исследования, их характеристики изучаются, чтобы убедиться в отсутствии систематической ошибки в отношении того, кто остается в исследовании.
Пример исследования с хорошей внешней валидностью может быть в приведенном выше примере, исследователь также удостоверился, что исследование имело внешнюю валидность, заставив участников использовать приложение дома, а не в лаборатории.Исследователь четко определяет интересующую нас совокупность и выбирает репрезентативную выборку, и он / она воспроизводит исследование для различных технологических устройств.
Слово от Verywell
Настройка эксперимента так, чтобы он имел прочную внутреннюю и внешнюю валидность, предполагает с самого начала помнить о факторах, которые могут повлиять на каждый аспект вашего исследования.
Лучше потратить дополнительное время на разработку структурно обоснованного исследования, имеющего далеко идущие последствия, а не торопиться с этапом проектирования только для того, чтобы позже обнаружить проблемы.Только когда и внутренняя, и внешняя валидность высоки, можно сделать убедительные выводы о ваших результатах.
Внешняя действительность | Типы, угрозы и примеры
Внешняя валидность — это степень, в которой вы можете обобщить результаты исследования на другие ситуации, людей, условия и меры. Другими словами, можете ли вы применить результаты своего исследования в более широком контексте?
Целью научных исследований является получение обобщаемых знаний о реальном мире.Без высокой внешней достоверности вы не можете применить результаты лабораторных исследований к другим людям или к реальному миру.
В качественных исследованиях внешняя валидность называется переносимостью.
Виды внешней действительности
Существует два основных типа внешней валидности: популяционная валидность и экологическая валидность.
Население Срок действияПопуляционная валидность относится к тому, можете ли вы разумно обобщить результаты своей выборки на большую группу людей (совокупность).
Валидность популяции зависит от выбора популяции и от того, в какой степени исследуемая выборка отражает эту популяцию. Для удобства часто используются маловероятные методы выборки. При таком типе выборки возможность обобщения результатов ограничивается популяциями, имеющими схожие характеристики с выборкой.
Пример: низкая популяционная достоверность. Вы хотите проверить гипотезу о том, что люди склонны считать себя умнее других с точки зрения академических способностей.Ваша целевая аудитория — это 10 000 студентов бакалавриата вашего университета.Вы набираете более 200 участников. Это научные и инженерные специальности; большинство из них — американцы мужского пола в возрасте 18–20 лет с высоким социально-экономическим положением. В лабораторных условиях вы проводите тест по математике и естественным наукам, а затем просите их оценить, насколько хорошо, по их мнению, справились. Вы обнаруживаете, что средний участник считает, что он умнее 66% своих сверстников.
Можете ли вы сделать вывод, что большинство людей считают себя лучше других в математике и естественных науках?
Здесь ваша выборка не репрезентативна для всей совокупности студентов вашего университета.Результаты можно разумно обобщить только на группы населения, которые имеют общие характеристики с участниками, например мужчин с высшим образованием и специальностей STEM.
Для большей достоверности для населения ваша выборка должна включать людей с разными характеристиками (например, женщин и студентов из разных специальностей, стран и социально-экономического положения).
Подобные образцы из западных, образованных, промышленно развитых, богатых и демократических (СТРАННЫХ) стран используются примерно в 96% психологических исследований, хотя они представляют только 12% населения мира.Поскольку они являются выбросами с точки зрения визуального восприятия, моральных рассуждений и категоризации (среди многих других тем), WEIRD-выборки ограничивают широкую популяционную валидность в социальных науках.
Экологическая ценностьЭкологическая валидность означает, можете ли вы разумно обобщить результаты исследования на другие ситуации и условия «реального мира».
Пример: низкая экологическая значимость Вы хотите проверить гипотезу о том, что время реакции вождения замедляется, когда люди обращают внимание на разговоры других.В лабораторных условиях вы настраиваете простую компьютерную задачу для измерения времени реакции. Участникам предлагается представить, как они едут по ипподрому, и дважды щелкать мышью всякий раз, когда они видят на экране оранжевую кошку. В течение одного раунда участники слушают подкаст. В другом раунде им ничего не нужно слушать. Оценив результаты, вы обнаружите, что время реакции при прослушивании подкаста намного меньше.
Можете ли вы сделать вывод, что время реакции вождения замедляется, когда люди слушают, что говорят другие?
В приведенном выше примере трудно обобщить результаты для реальных условий вождения.Компьютерная задача с использованием мыши не похожа на реальные условия вождения с рулевым колесом. Кроме того, статичное изображение оранжевого кота может не отражать обычных реальных препятствий во время вождения.
Для повышения экологической достоверности в лабораторных условиях вы можете использовать иммерсивный симулятор вождения с рулевым колесом и ножной педалью вместо компьютера и мыши. Это увеличивает психологический реализм, более точно отражая опыт вождения в реальном мире.
В качестве альтернативы, для большей экологической значимости, вы можете провести эксперимент с использованием реальных курсов вождения.
Компромисс между внешней и внутренней достоверностью
Внутренняя валидность — это степень, до которой вы можете быть уверены, что причинно-следственная связь, установленная в вашем эксперименте, не может быть объяснена другими факторами.
Существует неизбежный компромисс между внешней и внутренней достоверностью; чем более применимо ваше исследование к более широкому контексту, тем меньше вы сможете контролировать посторонние факторы в своем исследовании.
Пример внутренней и внешней достоверности В исследовании времени реакции вождения вы можете контролировать условия эксперимента и гарантировать отсутствие посторонних факторов, которые могли бы объяснить результат.Поскольку эксперимент имеет высокую внутреннюю достоверность, вы можете с уверенностью заключить, что прослушивание подкаста вызывает более медленную реакцию.Перенос эксперимента в реальный курс вождения значительно увеличивает внешнюю валидность за счет внутренней валидности. Это потому, что вы рискуете ввести посторонние и мешающие факторы (например, погодные условия или условия видимости), которые повлияют на результат.
Что может сделать корректура для вашей статьи?
РедакторыScribbr не только исправляют грамматические и орфографические ошибки, но и укрепляют ваше письмо, убеждаясь в том, что в вашей статье нет нечетких слов, лишних слов и неуклюжих фраз.
См. Пример редактирования
Угрозы внешней действительности и способы борьбы с ними
Угрозы внешней валидности важно распознавать и противодействовать при разработке надежного исследования.
Пример исследования Исследователь хочет проверить гипотезу о том, что люди с клиническим диагнозом психических расстройств могут извлечь пользу из ежедневной практики внимательности всего за два месяца.Они набирают людей, у которых депрессия диагностирована не менее года, в возрасте от 20 до 29 лет и которые живут здесь.Участникам предлагается предварительное и послетестовое тестирование, позволяющее определить, как часто они испытывали беспокойство за последнюю неделю. Во время исследования всем участникам проводят индивидуальную тренировку осознанности и просят практиковать осознанность ежедневно в течение 15 минут утром.
Поскольку уровень тревожности снизился между пре- и послетестами, исследователь пришел к выводу, что внимательность может принести пользу всем клиническим группам населения.
Угроза | Значение | Пример |
---|---|---|
Смещение выборки | Выборка не репрезентативна для населения. | В выборку включены только люди с депрессией. У них есть характеристики (например, негативное мышление), которые могут сильно отличать их от других клинических групп, например людей с расстройствами личности или шизофренией. |
История | Несвязанное событие влияет на результаты. | Прямо перед предварительным тестом в соседнем штате происходит стихийное бедствие. В результате показатели тревожности перед тестированием выше, чем они могли бы быть в противном случае. |
Эффект экспериментатора | Характеристики или поведение экспериментатора (ов) непреднамеренно влияют на результаты. | Тренер сессий внимательности непреднамеренно подчеркнул важность этого исследования для финансирования исследовательского отдела. В результате участники прилагают все усилия, чтобы снизить уровень тревожности во время исследования. |
Эффект Хоторна | Тенденция участников изменять свое поведение просто потому, что они знают, что их изучают. | Участники активно избегают ситуаций, вызывающих тревогу, на период исследования, потому что они осознают свое участие в исследовании. |
Эффект проверки | Проведение предварительного или послетестового тестирования влияет на результаты. | Поскольку участники знакомятся с форматом предварительного тестирования и вопросами, они меньше тревожатся во время послетеста и вспоминают меньше беспокойства. |
Способность-обращение | Взаимодействие между характеристиками группы и отдельными переменными вместе влияет на зависимую переменную. | Взаимодействие между определенными характеристиками участников с депрессией (например, негативным образцом мышления) и упражнениями на внимательность (например, сосредоточение внимания на настоящем) улучшают уровень тревожности. Полученные данные не повторяются на людях с расстройствами личности или шизофренией. |
Эффект ситуации | Факторы, такие как обстановка, время суток, местоположение, характеристики исследователей и т. Д.ограничивают обобщаемость результатов. | Исследование повторено с одним изменением; участники практикуют внимательность ночью, а не утром. На этот раз результаты не показывают никаких улучшений. |
Как противостоять угрозам внешней действительности
Существует несколько способов противодействия угрозам внешней действительности:
- Репликации противостоит почти всем угрозам, улучшая возможность обобщения для других настроек, групп и условий.
- Полевые эксперименты встречные испытания и эффекты ситуации с использованием естественных контекстов.
- Вероятностная выборка учитывает систематическую ошибку отбора, гарантируя, что все в совокупности имеют равные шансы быть отобранными для выборки для исследования.
- Повторная калибровка или повторная обработка также учитывают систематическую ошибку выбора, используя алгоритмы для корректировки взвешивания факторов (например, возраста) в исследуемых выборках.
Часто задаваемые вопросы о внешнем действии
Можете ли вы применить результаты исследования к своим пациентам?
J Bras Pneumol.2018 май-июнь; 44 (3): 183.
Сесилия Мария Патино
1 . Методы эпидемиологических, клинических и операционных исследований — программа MECOR, Американское торакальное общество / Asociación Latinoamericana del Tórax, Монтевидео, Уругвай.
2 . Отделение профилактической медицины Медицинской школы Кека Университета Южной Калифорнии, Лос-Анджелес, Калифорния, США.
Джулиана Карвалью Феррейра
1 . Методы эпидемиологических, клинических и операционных исследований — программа MECOR, Американское торакальное общество / Asociación Latinoamericana del Tórax, Монтевидео, Уругвай.
3 . Divisão de Pneumologia, Instituto do Coração, Hospital das Clínicas, Faculdade de Medicina, Universidade de São Paulo, Сан-Паулу (SP) Бразилия.
1 . Методы эпидемиологических, клинических и операционных исследований — программа MECOR, Американское торакальное общество / Asociación Latinoamericana del Tórax, Монтевидео, Уругвай.
2 . Отделение профилактической медицины Медицинской школы Кека Университета Южной Калифорнии, Лос-Анджелес, Калифорния, США.
3 . Divisão de Pneumologia, Instituto do Coração, Hospital das Clínicas, Faculdade de Medicina, Universidade de São Paulo, Сан-Паулу (SP) Бразилия.
Copyright © 2018 Sociedade Brasileira de Pneumologia e TisiologiaЭто статья в открытом доступе, распространяемая в соответствии с лицензией Creative Commons Attribution License
. Эта статья цитируется другими статьями в PMC.КЛИНИЧЕСКИЙ СЦЕНАРИЙ
В многоцентровом исследовании, проведенном во Франции, исследователи провели рандомизированное контролируемое исследование, чтобы проверить влияние склонности по сравнению свентиляция в положении лежа на спине на смертность среди пациентов с ранним тяжелым ОРДС. Они показали, что длительная вентиляция в положении лежа на животе снижает 28-дневную смертность [отношение рисков (HR) = 0,39; 95% ДИ: 0,25-0,63]. 1
ДЕЙСТВИТЕЛЬНОСТЬ ИССЛЕДОВАНИЯ
Под достоверностью исследования понимается то, насколько хорошо результаты участников исследования представляют истинные результаты среди схожих людей вне исследования. Эта концепция валидности применима ко всем типам клинических исследований, включая исследования распространенности, ассоциаций, вмешательств и диагнозов.Валидность исследования включает две области: внутреннюю и внешнюю валидность.
Внутренняя валидность определяется как степень, в которой наблюдаемые результаты соответствуют истине в исследуемой нами популяции и, следовательно, не являются результатом методологических ошибок. В нашем примере, если авторы могут подтвердить, что исследование имеет внутреннюю валидность, они могут сделать вывод, что положение лежа снижает смертность среди пациентов с тяжелым ОРДС. Внутренней валидности исследования могут угрожать многие факторы, в том числе ошибки в измерениях или выборе участников исследования, и исследователи должны подумать об этих ошибках и избегать их.
После того, как внутренняя валидность исследования установлена, исследователь может приступить к вынесению суждения о его внешней валидности, задав вопрос, применимы ли результаты исследования к аналогичным пациентам в других условиях или нет (). В этом примере мы хотели бы оценить, применимы ли результаты клинического исследования к пациентам с ОРДС в других отделениях интенсивной терапии. Если у пациентов есть ранний тяжелый ОРДС, вероятно, да, но результаты исследования могут не применяться к пациентам с легким ОРДС . Внешняя валидность относится к степени, в которой результаты исследования могут быть обобщены для пациентов в нашей повседневной практике, особенно для популяции, которую, как считается, представляет выборка.
Внутренняя и внешняя действительность.
Отсутствие внутренней достоверности означает, что результаты исследования отклоняются от истины, и, следовательно, мы не можем делать какие-либо выводы; следовательно, если результаты исследования недействительны внутри, внешняя валидность не имеет значения. 2 Отсутствие внешней достоверности означает, что результаты исследования могут не применяться к пациентам, которые отличаются от исследуемой популяции, и, следовательно, могут привести к низкому принятию лечения, испытанного в исследовании, другими клиницистами.
ПОВЫШЕНИЕ ДЕЙСТВИТЕЛЬНОСТИ ИССЛЕДОВАТЕЛЬСКИХ ИССЛЕДОВАНИЙ
Для повышения внутренней достоверности исследователи должны обеспечить тщательное планирование исследования и адекватный контроль качества и стратегии реализации, включая адекватные стратегии набора, сбор данных, анализ данных и размер выборки. Внешняя валидность может быть увеличена за счет использования широких критериев включения, которые приводят к тому, что исследуемая популяция более похожа на реальных пациентов, и, в случае клинических испытаний, путем выбора вмешательств, которые можно применить. 2
СПРАВОЧНАЯ ИНФОРМАЦИЯ
1. Guérin C, Reignier J, Richard JC, Beuret P, Gacouin A, Boulain T. Позиционирование на животе при тяжелом остром респираторном дистресс-синдроме. N Engl J Med. 2013. 368 (23): 2159–2168. DOI: 10.1056 / NEJMoa1214103. [PubMed] [CrossRef] [Google Scholar] 2. Акобенг АК. Оценка достоверности клинических испытаний. J Pediatr Gastroenterol Nutr. 2008. 47 (3): 277–282. DOI: 10.1097 / MPG.0b013e31816c749f. [PubMed] [CrossRef] [Google Scholar]Важность внешней достоверности
Am J Public Health.2008 Январь; 98 (1): 9–10.
Аллан Стеклер
Аллан Стеклер работает в Департаменте здравоохранения и санитарного просвещения Школы общественного здравоохранения Университета Северной Каролины, Чапел-Хилл. Кеннет Р. Маклерой работает в Департаменте общественного здравоохранения Школы сельского здравоохранения Техасского университета A&M, Колледж-Стейшн.
Кеннет Р. Маклерой
Аллан Стеклер работает с Департаментом здравоохранения и санитарного просвещения Школы общественного здравоохранения Университета Северной Каролины, Чапел-Хилл.Кеннет Р. Маклерой работает в Департаменте общественного здравоохранения Школы сельского здравоохранения Техасского университета A&M, Колледж-Стейшн.
Аллан Стеклер работает в отделе здравоохранения и санитарного просвещения Школы общественного здравоохранения Университета Северной Каролины, Чапел-Хилл. Кеннет Р. Маклерой работает в Департаменте общественного здравоохранения Школы сельского здравоохранения Техасского университета A&M, Колледж-Стейшн.
Запросы на оттиски следует направлять Аллану Стеклеру, DrPH, Школа общественного здравоохранения, Университет Северной Каролины, Чапел-Хилл, NC 27599-8400 (электронная почта: ude.cnu.liame@relkcets).Принято 20 сентября 2007 г.
Авторское право © Американский журнал общественного здравоохранения, 2008 г. Эта статья цитируется в других статьях в PMC.Как результаты исследований переводятся в практику общественного здравоохранения? Какова ответственность исследователей, финансирующих агентств и журналов за содействие использованию результатов исследований в программах или политике общественного здравоохранения? Мы обращаемся к отдельным аспектам этих вопросов и объявляем о новом акценте Journal на внешней действительности соответствующих рукописей.
ВАЖНОСТЬ ВНЕШНЕЙ ДЕЙСТВИТЕЛЬНОСТИ
Более 40 лет назад Кэмпбелл и Стэнли опубликовали свою основополагающую работу по экспериментальным и квазиэкспериментальным планам исследований, в которой они подняли вопросы об угрозах внутренней валидности (следует ли интерпретировать наблюдаемую ковариацию как причинно-следственная связь), которые существуют, когда исследователи не могут случайным образом назначить участников для лечения.1 В этом томе и в последующей работе они также подняли вопросы о других типах достоверности, включая2 , 3:
Достоверность статистического вывода— обоснованы ли выводы о статистических выводах о ковариации между переменными.
Конструктивная валидность — адекватно ли операционные переменные представляют теоретические конструкции.
Внешняя достоверность — можно ли обобщить причинно-следственные связи на различные меры, людей, условия и время.
Часто утверждалось, что внутренняя валидность является приоритетом для исследований.4 Однако в прикладной дисциплине, цель которой включает работу по улучшению здоровья населения, также важно, чтобы подчеркивалась внешняя валидность и усилен.5 — 7 Например, важно знать не только то, что программа эффективна, но и то, что она может быть эффективной в других условиях и с другими группами населения.
Во влиятельной статье 1985 года «Испытания эффективности и результативности (и другие фазы исследований) в разработке программ укрепления здоровья» Флэй предлагает модель, которая подчеркивает внутреннюю и внешнюю валидность на разных этапах исследовательского процесса и которая приведет к к переводу исследований в практику.8 Двумя основными уровнями исследований были «испытания эффективности» и «испытания эффективности». Испытания эффективности должны были быть строго контролируемыми исследованиями, которые отвечали на вопрос, будет ли предлагаемое вмешательство иметь желаемый эффект при идеальных обстоятельствах. Испытания эффективности должны были следовать за испытаниями эффективности и должны были быть исследованиями, в которых предложенное вмешательство проводилось в менее контролируемых и более реальных ситуациях. Аргумент состоял в том, что конкретное вмешательство общественного здравоохранения должно быть успешным в обоих типах испытаний, прежде чем оно будет готово для распространения среди практикующих специалистов общественного здравоохранения.
Испытания эффективности должны были иметь высокую внутреннюю валидность, а испытания эффективности — высокую внешнюю валидность. Испытания эффективности, скорее всего, были контролируемыми экспериментами, такими как рандомизированные контрольные испытания вмешательств общественного здравоохранения, которые обладают высокой внутренней валидностью, но часто имеют низкую внешнюю валидность9 (т. Е. Группы, условия или контексты, в которых результаты будет применяться). В социальных исследованиях аксиомой является то, что существует обратная связь между внутренней и внешней валидностью.Ключом к внутренней валидности является хорошее измерение и дизайн исследования, а для вывода необходима репрезентативная выборка.9 Тем не менее, может быть полезно провести различие между выводом, полученным на основе плана выборки, и нашей способностью к обобщениям, которая в большей степени зависит от суждений.
Исторически сложилось так, что исследователи имели тенденцию сосредотачиваться на максимизации внутренней валидности, считая, что важнее знать, работает ли данное вмешательство общественного здравоохранения в строго контролируемых условиях, чем знать, сработает ли оно среди различных групп населения и организаций. , или настройки.Точно так же финансирующие организации и журналы, как правило, больше озабочены научной строгостью интервенционных исследований, чем обобщаемостью результатов. Следствием такого акцента на внутренней валидности стал недостаток внимания и информации о внешней валидности, что привело к тому, что мы не смогли воплотить исследования в практике общественного здравоохранения.
Например, в области профилактики рака и борьбы с ним существует документально подтвержденная значительная задержка между открытием и осуществлением эффективных вмешательств.Признание этого отставания было отмечено как минимум 30 лет, с тех пор, как первые рабочие группы по борьбе с раком, созванные Национальным институтом рака, выпустили отчеты в 1970-х годах. Совсем недавно Балас и Борен обнаружили, что требуется около 17 лет, чтобы превратить 14% оригинальных исследований в пользу ухода за пациентами.10 Аналогичным образом, Национальный исследовательский совет пришел к выводу, что даже когда были разработаны эффективные меры вмешательства, часто есть пробелы. между научными знаниями и клинической практикой.11 Кроме того, меньшинства и общины с недостаточным уровнем обеспеченности услугами обычно получают доступ к эффективным вмешательствам медленнее, чем другие группы населения.12
Таким образом, идея о том, что исследования будут прогрессировать от испытаний эффективности к испытаниям эффективности и к широкому распространению, не стала реальностью по ряду причин, не в последнюю очередь из-за времени и затрат, связанных с этим поэтапным продвижением исследований к практике. .6 В результате несостоятельности этой модели практикующие специалисты часто не могут определить, применимы ли выводы данного исследования к их местным условиям, укомплектованию персоналом или ресурсам населения.6 Обзоры показывают, что отчеты о внешней достоверности предоставляются гораздо реже, чем обычно. отчетность по другим методическим вопросам.13 Однако есть несколько причин, по которым отсутствие информации о внешней валидности является важным фактором неспособности воплотить исследования в практику общественного здравоохранения14. Лица, принимающие политические и административные решения, не могут определить обобщаемость или широту применимости результатов исследований. . Наконец, систематические обзоры и метаанализы ограничены в выводах, которые можно сделать, когда данные о внешней достоверности не сообщаются.
THE
JOURNAL ПОДДЕРЖИВАЕТ БОЛЬШОЙ УКАЗАТЕЛЬ ВНЕШНЕЙ ДЕЙСТВИТЕЛЬНОСТИХотя журнал Journal уже давно признал важность внешней достоверности статей, которые он публикует, сравнительно недавние отчеты CONSORT и TREND, а также недавний акцент на Модель RE-AIM укрепила признание редакторами журнала Journal и редакционной коллегией необходимости формально подчеркивать внешнюю достоверность и собирать информацию о соответствующих рукописях, которая улучшает как вывод, так и потенциальную обобщаемость.6 , 15 — 18
Недавно два члена редакционной коллегии и редакторы журнала Journal представляли журнал Journal на встрече с 12 другими ведущими медицинскими журналами и представителями Национальных институтов здоровья и центров. по контролю и профилактике заболеваний, а также Фонд Роберта Вуда Джонсона. Целью встречи было поощрение и усиление отчетности о выводах о внешней достоверности. Одним из результатов встречи стало то, что участники согласились с тем, что повышение качества отчетности о внешней достоверности в журнальных статьях требует более высокого приоритета, чем это получалось в публикациях по исследованиям общественного здравоохранения на сегодняшний день.
Участники встречи определили несколько характеристик внешней достоверности, о которых следует сообщить. Как и в случае с другими шкалами оценки качества и руководящими принципами, не каждая статья должна соответствовать всем критериям; скорее, авторы должны сообщить об этих проблемах, где это уместно, или заявить об отсутствии информации. Участники собрания определили четыре категории информации о внешней достоверности:
Процедуры набора и отбора участников исследования, уровни участия и репрезентативный характер на уровне отдельных лиц, персонала вмешательства и условий предоставления услуг.
Уровень и последовательность реализации компонентов программы, настроек, персонала и времени.
Влияние на различные результаты, особенно те, которые важны для населения, практикующих врачей и лиц, принимающих решения (например, качество жизни, стоимость программ и неблагоприятные последствия) 19. уровни в пункте 1, долгосрочное влияние на результаты в пункте 3 и устойчивость, модификация или прекращение программы.
Хотя мы не собираемся увеличивать нагрузку на авторов, публикующихся в журнале Journal , мы считаем, что многие из публикуемых нами статей выиграют от включения информации о внешней действительности. Что наиболее важно, мы считаем, что эта информация принесет значительную пользу в области общественного здравоохранения и практики общественного здравоохранения.
Ссылки
1. Кэмпбелл Д.Т., Стэнли Дж. Экспериментальные и квазиэкспериментальные проекты. Чикаго, Иллинойс: Рэнд МакНалли; 1966 г.
2. Кук Т.Д., Кэмпбелл Д.Т. Планирование и проведение квази-экспериментов и настоящих экспериментов в полевых условиях. В: Dunnette MD, ed. Справочник по производственной и организационной психологии . Скоки, штат Иллинойс: Рэнд МакНалли; 1976: 115–136.
3. Кук Т.Д., Кэмпбелл Д.Т. Квази-экспериментирование. Чикаго, Иллинойс: Рэнд МакНалли; 1979.
4. Колдер Б. Дж., Филлипс Л. В., Тайбаут А. М.. Понятие внешней действительности. J Consum Res. 1983; 10 (1): 112–114. [Google Scholar] 6. Глазго RE, Лихтенштейн E, Маркус AC.Почему мы не видим большего распространения исследований по укреплению здоровья на практике? Переосмысление перехода от эффективности к эффективности. Am J Public Health. 2003. 93: 1261–1267. [Бесплатная статья PMC] [PubMed] [Google Scholar] 7. Виктора К.Г., Хабихт Дж., Брайс Дж. Общественное здравоохранение, основанное на фактических данных: выход за рамки рандомизированных испытаний. Am J Public Health. 2004. 94: 400–405. [Бесплатная статья PMC] [PubMed] [Google Scholar] 8. Flay BR. Испытания эффективности и результативности (и другие фазы исследований) при разработке программ укрепления здоровья.Предыдущая Мед. 1986; 15: 451–474. [PubMed] [Google Scholar]9. Бернард HR. Методы социальных исследований . Thousands Oaks, Калифорния: Sage Publications; 2000.
10. Балас Э.А., Борен С.А. Управление клиническими знаниями для улучшения здравоохранения. В: Bemmel J, McCray AT, ред. Ежегодник медицинской информатики . Штутгарт, Германия: Schattauer Publishing; 2000: 65–70. [PubMed]11. Ryff CD и Singer BH, ред .; Комитет по будущим направлениям поведенческих и социальных исследований при Национальных институтах здравоохранения .Новые горизонты в здравоохранении: комплексный подход . Вашингтон, округ Колумбия: Национальная академия прессы; 2001.
12. Молодой У.В., Маркс С.М., Колер С.А., Хсу А.Ю. Распространение клинических результатов: мастэктомия в сравнении с лампэктомией и лучевой терапией. Med Care. 1996; 34: 1003–1017. [PubMed] [Google Scholar] 13. Glasgow RE, Klesges LM, Dzewaltowski DA, Bull SS, Estabrooks P. Будущее исследований в области изменения поведения в отношении здоровья: что необходимо для улучшения перевода исследований в практику укрепления здоровья? Ann Behav Med.2004; 27: 3–12. [PubMed] [Google Scholar] 14. Green LW, Глазго RE. Оценка актуальности, обобщения и применимости исследования: вопросы внешней достоверности и методологии перевода. Eval Health Prof. 2006; 29: 126–153. [PubMed] [Google Scholar] 15. Тернер Р.Дж., Гарднер Э.А., Хиггинс А.С. Эпидемиологические данные для планирования центров психического здоровья: 1. Методы полевых исследований в социальной психиатрии: проблема потерянного населения. Am J Public Health. 1970; 60: 1040–1051. [Бесплатная статья PMC] [PubMed] [Google Scholar] 17.Мохер Д., Шульц К.Ф., Альтман Д.Г. Заявление CONSORT: пересмотренные рекомендации по повышению качества отчетов рандомизированных исследований в параллельных группах. Ланцет. 2001; 357: 1191–1194. [PubMed] [Google Scholar] 18. Des Jarlais DC, Lyles C, Crepaz N; группа ТРЕНД. Улучшение отчетности о нерандомизированных оценках поведенческих вмешательств и вмешательств в области общественного здравоохранения: заявление TREND. Am J Public Health. 2001; 94: 361–366. [Бесплатная статья PMC] [PubMed] [Google Scholar] 19. Тунис С.Р., Страйер ДБ, Кланси СМ. Практические клинические испытания: повышение значения клинических исследований для принятия решений в области клинической практики и здравоохранения.JAMA 2003; 290: 1624–1632. [PubMed] [Google Scholar]Определение и примеры внешней действительности
Определения статистики> Внешняя достоверность
Определение внешней действительности
Внешняя достоверность помогает ответить на вопрос: можно ли применить исследование к «реальному миру»? Если ваше исследование применимо к другим экспериментам, условиям, людям и временам, то внешняя валидность высока. Если исследование не может быть воспроизведено в других ситуациях, внешняя валидность низкая.Важно знать, что ваше исследование эффективно (внутренняя валидность) и эффективно в других ситуациях.
Исторически исследователи сосредотачивались на внутренней валидности. Научная строгость рандомизированных контролируемых экспериментов часто считалась более важной, чем обобщение результатов. В последнее время исследователи стремились к исследованиям, которые можно было бы обобщить за пределами лаборатории. Однако это не так просто, как кажется. Внешняя достоверность — один из самых сложных для достижения типов достоверности. Одна из причин этого заключается в том, что шаги по повышению внешней достоверности часто приводят к снижению внутренней достоверности. Другая причина — множество скрытых и сбивающих с толку переменных, которые могут повлиять на результат вашего эксперимента.
Население и экологическая ценность
Популяционная валидность и экологическая валидность — это типы внешней валидности.
- Популяционная валидность отвечает на вопрос: насколько хорошо исследование выборки может быть обобщено на популяцию в целом?
- Экологическая достоверность отвечает на вопрос: можно ли обобщить результаты вашего исследования в различных условиях?
Угрозы внешней действительности
Скрытые переменные и факторы в эксперименте могут испортить ваши результаты, сделав их не поддающимися обобщению.
Угрозы внешней достоверности подрывают вашу уверенность в том, что результаты вашего исследования применимы к другим ситуациям. Они объясняют, как вы могли ошибаться, делая обобщения. Например, ваш вывод может быть неверным, изменения в зависимой переменной могут быть вызваны не изменениями в независимой переменной, а изменение зависимой переменной может быть вызвано другими причинами. Например, посторонние переменные могут конкурировать с независимой переменной, чтобы объяснить результат исследования.Некоторые конкретные примеры угроз внешней действительности:
- Ваша выборка выбрана случайным образом? В противном случае это может привести к смещению выборки.
- Вы включили предварительный тест? В некоторых экспериментах предварительные испытания могут повлиять на результат. Предварительный тест может дать участникам понять, как они должны отвечать или вести себя.
- Сдают ли ваши участники несколько версий одного и того же теста? В таком случае эффект практики может повлиять на ваши результаты. Например, на шкалу интеллекта Векслера для детей сильно влияет эффект практики.
- Состоит ли ваша выборка из однородной совокупности, как и все люди с низкой успеваемостью или все отличники? В таком случае ваши результаты, вероятно, не будут распространяться на «среднего» человека.
- Испорчены ли результаты вашего исследования эффектом Хоторна? Участники вашего исследования могут вести себя по-другому, потому что они знают, что участвуют в экспериментальном исследовании.
Нужна помощь с домашним заданием или контрольным вопросом? С помощью Chegg Study вы можете получить пошаговые ответы на свои вопросы от эксперта в данной области.Ваши первые 30 минут с репетитором Chegg бесплатны!
Комментарии? Нужно опубликовать исправление? Пожалуйста, оставьте комментарий на нашей странице в Facebook .
Внешнее действие | Основы исследований в области образования, Дель Сигл
Примечание к EPSY 5601 Студенты: Достаточно понимания разницы между популяционной и экологической достоверностью. Для этого курса не обязательно владеть подкатегориями каждой из них.
Внешняя валидность
(обобщаемость)
–кому могут быть применены результаты исследования–
Существует два типа валидности исследования: внутренняя (более применима к экспериментальным исследованиям) и внешняя.В этом разделе рассматривается внешняя действительность.
Внешняя валидность включает в себя степень, в которой результаты исследования могут быть обобщены (применены) за пределами выборки. Другими словами, можете ли вы применить то, что вы обнаружили в своем исследовании, к другим людям (популяционная достоверность) или условиям (экологическая достоверность). Исследование пятиклассников в сельской школе, которое показало, что один метод обучения правописанию превосходит другой, может быть неприменим к третьеклассникам (населению) в городской школе (экологической).
Угрозы внешней действительности
Популяция Валидность Степень, в которой результаты исследования могут быть обобщены из конкретной исследуемой выборки на большую группу субъектов
- степень, в которой можно сделать обобщение от исследуемой выборки к определенной совокупности —
Если выборка взята из доступной совокупности, а не из целевой совокупности, обобщение результатов исследования от доступной совокупности к целевой совокупности рискованно.
2. Степень, в которой персонологические переменные взаимодействуют с эффектами лечения —
Если исследование является экспериментом, возможно, что у учащихся разных классов могут быть получены разные результаты (персонологическая переменная).
Ecological Validity Степень, в которой результаты эксперимента могут быть обобщены из набора условий окружающей среды, созданных исследователем, на другие условия окружающей среды (настройки и условия).
- Явное описание экспериментального лечения (недостаточно описанное для повторения другими)
Если исследователь не может адекватно описать, как он или она проводил исследование, трудно определить, применимы ли результаты к другим условиям. - Помехи при многократной обработке (эффект катализатора)
Если исследователь применял бы несколько обработок, трудно определить, насколько хорошо каждая из обработок будет работать индивидуально.Возможно, эффективна только комбинация методов лечения. - Эффект Хоторна (внимание вызывает различия)
Субъекты действуют по-разному, потому что они знают, что их изучают. «… Внешняя валидность эксперимента находится под угрозой, потому что результаты могут не распространяться на ситуацию, в которой исследователи или другие лица, участвовавшие в исследовании, не присутствуют» (Gall, Borg, & Gall, 1996, p. 475) - Новизна и разрушительный эффект (все, что угодно, имеет значение)
Лечение может работать, потому что оно ново, и субъекты реагируют на уникальность, а не на фактическое лечение.Может также произойти и обратное: лечение может не сработать, потому что оно уникально, но если дать испытуемым время приспособиться к нему, оно могло сработать. - Эффект экспериментатора (работает только с этим экспериментатором)
Лечение могло сработать из-за человека, который его реализовал. У другого человека лечение может вообще не сработать. - Предварительная сенсибилизация (предварительная проверка готовит основу)
Лечение может сработать только в том случае, если будет проведен предварительный тест.Поскольку они прошли предварительный тест, субъекты могут быть более чувствительны к лечению. Если бы они не прошли предварительный тест, лечение не помогло бы. - Посттестовая сенсибилизация (посттест помогает лечению «встать на свои места»)
Посттест может стать полезным опытом. «Например, посттест может привести к тому, что определенные идеи, представленные во время лечения,« встанут на свои места »» (стр. 477). Если бы испытуемые не прошли посттест, лечение не сработало бы. - Взаимодействие истории и эффективности лечения t (… всему есть время…)
Не только исследователи должны с осторожностью относиться к обобщению на другую популяцию, следует проявлять осторожность при обобщении на другой период времени.Со временем условия, в которых работает лечение, меняются. - Измерение зависимой переменной (возможно, работает только с тестами M / C)
Лечение может быть очевидным только при определенных типах измерений. Метод обучения может дать лучшие результаты, когда его эффективность проверяется с помощью теста на сочинение, но не показывает различий, когда эффективность измеряется с помощью теста с несколькими вариантами ответов. - Взаимодействие времени измерения и лечебного эффекта (для начала лечения требуется время)
Может случиться так, что лечебный эффект проявляется только через несколько недель после окончания лечения.В этой ситуации посттест в конце лечения не окажет никакого влияния, но посттест через месяц может показать влияние.
Брахт, Г. Х., и Гласс, Г. В. (1968). Внешняя достоверность экспериментов. Американский журнал исследований в области образования, 5, 437-474.
Галл, М. Д., Борг, В. Р., и Галл, Дж. П. (1996). Педагогические исследования: Введение. Уайт-Плейнс, Нью-Йорк: Лонгман.
Дель Зигле, доктор философии
Педагогическая школа Neag — Университет Коннектикута
[email protected]
www.delsiegle.com
Внешняя достоверность — обзор
4.3 Экспериментальный локализм и экономическая онтология
Дайер и Кагель [1996] исследовали феномен проклятия победителя в контексте строительной индустрии Северной Америки. Они определяют ряд механизмов, которые эффективно защищают участников торгов в этой отрасли от «проклятия» завышенных ставок. Одно из них — правило, позволяющее отзывать выигравшие заявки в случае «арифметических ошибок» при подаче оферты.На практике понятие арифметической ошибки интерпретируется настолько широко, что почти любое предложение может быть отозвано без штрафных санкций, если участник торгов того пожелает. Это правило обеспечивает защиту как подрядчиков, так и их клиентов, поскольку сильно ошибочная оценка может поставить под угрозу строительную фирму и сам проект. Никто не хочет работать с недовольной фирмой, которая осознает тот факт, что они потеряют деньги по контракту.
Дайер и Кагель отмечают, что традиционные эксперименты с проклятием победителя не воспроизводят такие правила отзыва заявок.Следовательно, их результаты не могут быть напрямую обобщены на строительную отрасль. Это типичный случай, когда только детальное изучение институциональных правил и практик конкретного рынка позволяет оценить внешнюю обоснованность. Экспериментальный результат, конечно, все еще имеет некоторую ценность для попытки понять, что происходит на этом конкретном рынке, но только как контрастный случай. В принципе, можно разработать новый эксперимент, который включает институциональные механизмы, которые якобы нейтрализуют последствия проклятия победителя.До такого рода расследования нельзя сделать никаких выводов о применимости экспериментов победителя с проклятиями к строительной отрасли.
Этот пункт имеет большое философское значение. В этом разделе мы подробно рассмотрим и исследуем его последствия в двух направлениях: во-первых, я более подробно рассмотрю использование свидетельств в аргументах внешней достоверности. Во-вторых, я исследую, что экспериментальная экономика может научить нас онтологии экономики и социальных наук в целом.
Как показано в статье Дайера и Кагеля, выводы о внешней достоверности требуют сочетания полевых и экспериментальных данных. Это время от времени признавалось основателями этой дисциплины (например, [Smith, 1989, p. 152]), но до недавнего времени очень мало говорилось о конкретных способах объединения двух источников доказательств, чтобы их можно было объединить. Наиболее эффективный. Между прочим, этот вопрос ни в коем случае не является исключительной проблемой экспериментальной экономики. Это обсуждалось также в контексте экспериментальной медицины [La Follette and Shanks, 1994; Thagard, 1999], биохимия [Strand et al., 1996] и молекулярной биологии [Weber, 2004; Сталь, 2007]. Структура выводов внешней достоверности может быть сформулирована как случай причинно-аналоговых рассуждений . Аналогичный аспект вывода можно восстановить следующим образом:
- (a)
Целевая система отображает явление Y .
- (б)
Экспериментальная система показывает явление Y .
- (c)
В лаборатории явление вызвано фактором X .
- (d)
Целевое явление, следовательно, также вызвано X .
Здесь можно вызвать очевидное возражение: число аналогий, которые можно провести между любыми двумя объектами или системами, потенциально бесконечно. Итак, какие аналогии в этом бесконечном множестве «сильны» или имеют большее эпистемическое значение? Аналогии, подобные тем, что указаны в пунктах (а) — (г), поучительны только в том случае, если мы уверены, что другие (фоновые) условия являются «правильными».Рассмотрим случай внутренней достоверности: корреляция между двумя переменными является слишком слабым основанием для вывода о существовании причинной связи между ними. Мы также должны быть уверены, что никакие изменения фона (в K и ) не искажают вывод. Точно так же тот факт, что X вызывает Y в A , не гарантирует, что X вызывает Y в B . Мы должны убедиться, что никакой другой причинный фактор не искажает вывод.Вторым важным моментом является то, что аналогии dis также имеют решающее значение. Как и в случае с проклятием победителя, нужно всегда проверять, не существует ли существенных причинных различий, которые могут помешать выводам от лаборатории к цели. Короче говоря, лаборатория и целевая система должны быть схожи во всех причинно-следственных отношениях . Если мы подозреваем, что существует причинно-следственная разница, мы должны проверить ее экспериментально [Guala, 2005a, Ch. 9].
Дэниэл Стил [2007, гл.8] подверг критике аналогичный подход за то, что он слишком консервативен: выводы о внешней достоверности могут быть сделаны даже тогда, когда у нас нет ресурсов или возможности проверить все причинно значимые несоответствия между лабораторной системой и ее целью. Причины оставляют следы, которые передаются через причинные механизмы. Согласно методу «сравнительного отслеживания процессов», достаточно сравнить работу экспериментальной и целевой системы, проверив наличие отметок на некоторых ответственных этапах механизмов.Более того, по словам Steel, идеальной идентичности между системами также не требуется. Наши базовые знания о причинных механизмах иногда позволяют сделать вывод о направлении причинной связи, даже если мы знаем, что существуют некоторые различия между лабораторией и реальным миром.
Методы аналогии и отслеживания процессов представляют собой отчетливо эмпирические подходы к проблеме внешней достоверности и представляют собой резкие улучшения по сравнению с предыдущими обсуждениями. Внешняя значимость слишком часто рассматривается с помощью метафизических аргументов о природе экономической и социальной реальности, которые, к сожалению, мало полезны.Например, утверждалось, что экспериментирование невозможно, потому что в экономике нет универсальных законов [Economics Focus, 1999]. Но, насколько нам известно, универсальных законов в биологии вполне может и не быть, и тем не менее эксперименты с пользой применялись в течение десятилетий в этой дисциплине. Точно так же некоторые постулируют необходимость законов тенденции для экспериментов [Siakantaris, 2000]. Следуя Джону Стюарту Миллю [1836], закон тенденции обычно понимается как «сверхпричинный» закон следующего вида: « A → B » является законом тенденции, если не только A обладает способностью выполнение B при «правильном» стечении обстоятельств, но также, если имеет тенденцию сделать это при неправильных условиях.Или, говоря несколько иначе, если A вносит вклад в в создание экземпляра B, , даже когда действуют другие «мешающие» или «противодействующие» факторы [Hausman, 1992].
Конечно, такого рода законы можно проверить в лаборатории. Беспокойство заключается в том, что если (многочисленные) факторы, которые остаются фиксированными в фоновом режиме во время эксперимента (факторы, которые часто даже не моделируются теоретически, а скорее отнесены к положению ceteris paribus ), не сочетаются аддитивно, а взаимодействуют с основными экспериментальных переменных, то экспериментальный результат не будет действителен за пределами узкой области его реализации.Мы все еще можем открывать причинные законы, действительные в узкой области, но если они не являются законами тенденций, устойчивыми к изменениям граничных условий, это знание будет иметь довольно ограниченное применение.
Онтология тенденций, таким образом, кажется желательным для обобщаемости экспериментальных результатов, а не необходимым требованием для успеха самого экспериментального метода. На самом деле, по мнению Анны Александровой [2006], наиболее успешные на сегодняшний день приложения экспериментальной экономики вообще не предполагают наличия тенденций.Экономисты-прикладники начинают с пессимистического предположения, что каузальные свойства, моделируемые в экономической теории, могут быть довольно хрупкими, а затем повторно проверяют их устойчивость к изменениям граничных и фоновых условий (см. Также [Guala, 2005a, Ch. 8], где приведены некоторые примеры. ).
В общем, существование законов тенденций — это постнаучная проблема, которую нужно решать с помощью эмпирических данных, а не донаучная проблема, которую нужно решать с помощью метафизических спекуляций.