Валидность — Блог Викиум
Илья Павлов
Автор Викиум
Валидность — важнейший аспект экспериментальной психологии. Это свидетельство того, что, применяя определённую методику, специалист измерил именно то, что планировал.
Валидной считается методика, результаты которой соответствуют задачам, поставленным перед исследованием. Например, методика, разработанная для того, чтобы определить темперамент человека, должна измерять именно его, а не иные психические свойства.
Принципиальную важность валидности невозможно переоценить. Ведь именно от неё зависит достоверность проводимых тестов. Совершенный эксперимент невозможен, если методика не обладает идеальной валидностью.
Как проверить валидность?
Существует три способа, позволяющих определить, насколько методика валидна:
- Содержательная сторона
Проверка выявляет, насколько методика соответствует действительности, в которой реализуется изучаемое свойство.
- Конструктная валидность
Если методика валидна, она будет проверять научно обоснованные конструкты. Здесь же можно пойти по двум направлениям. Конвергентная валидность требует сопоставления нескольких методик, проверяющих идентичные показатели. Если между результатами будет наблюдаться корреляция, методику можно считать валидной.
При дискриминантном подходе проверяют, диагностирует ли методика только заданные характеристики и не затрагивает ли те, с которыми нет зависимости у исходных параметров.
- Критериальная проверка
Здесь используются статистические методы. Чтобы протестировать валидность, проверяют, соответствуют ли результаты испытания заранее заданным критериям.
Рассматривая критериальную валидность, также говорят о прогностической составляющей.
Такие методики применяют, когда хотят предсказать поведение. Если прогноз, сделанный с помощью методики, со временем оправдывается, экспериментальный комплекс получает статус прогностически валидного.Надёжность и валидность
Критерии надёжности рассматриваются с формальной точки зрения, тогда как содержательная сторона не учитывается.
Валидность, наоборот, обращает внимание на содержательные результаты теста. Оценивается их соответствие существующим феноменам психологии.
Надёжная методика не тождественна валидной. Например, тест, оценивающий инициативность, может продемонстрировать высокие показатели надёжности и ретестовости элементов. Однако фактически результаты будут свидетельствовать о значительной силе воли, но с точки зрения содержания инициативности не подтвердят.
Таким образом, надёжность теста является высокой, а валидность — низкой.
Внутренняя валидность и пример её нарушения
Внутренняя валидность — одна из разновидностей данного феномена. Чтобы понять её принцип, стоит рассмотреть пример, который отразит её нарушение.
Допустим, лаборатория хочет протестировать лекарство, способствующее росту. Для этого экспериментаторы отбирают несколько подростков тринадцати лет, измеряют параметры роста и дают детям лекарство.
Спустя два года снова производятся замеры, которые отражают увеличение показателей. Однако на основании изменившихся данных нельзя сделать вывод о том, что причиной перемен оказалось именно лекарство.
Нарушение внутренней валидности заключается в неучтенных факторах, которые влияют на результат исследования. В данном случае речь идёт о естественных процессах взросления. Корректный эксперимент должен был предусмотреть и их.
Методика определения определения поведения людей в различных ситуациях тоже может быть валидной или нет. Курс Викиум «Профайлинг» научит «читать людей» по невербальным признакам, выявлять скрытые намерения собеседника и прогнозировать действия оппонента.
Определение валидности в психологии простыми словами
Валидизация – это проверка валидности. Понятие валидности широко используется в психологии, статистике, логике.
Валидность в психологии – это один из основных критериев, который позволяет определить достоверность тестов и методик. Другими словами, уровень валидности показывает, насколько верно выбран или разработан вид исследования для измерения исследуемого качества: чем больше валидность, тем точнее методика, эксперимент или тест.
В этой статье:
Надёжность и валидностьОсновные критерии валидностиВнешние критерии и валидностьОсновные виды валидностиОсновные способы валидизацииПсихологический тест и валидностьВажность валидизации для методики в психологии
Надёжность и валидность
Фото Girl with red hat on Unsplash
Валидность важный показатель достоверности полученных результатов. Безупречный эксперимент должен обладать безупречной валидностью и надёжностью. Надёжность, как и валидность, определяет качество и пригодность разработанной методики к применению на практике.
Показатель валидности – это уверенность экспериментатора в том, что он, с помощью заданной методики, произвёл измерение именно необходимой характеристики или параметра. Например, тест для определения темперамента, должен измерять темперамент, а не другое качество личности человека.
Основные критерии валидности
Выделяются четыре основных критерия, которые могут повлиять на уровень показателя валидности:
- критерий исполнителя, который характеризует квалификацию и опыт исследователя;
- субъективность, то есть отношение испытуемого к предмету исследования, и это может отразиться на конечном результате методики;
- физиологический: физическое, психологическое и эмоциональное состояние испытуемого на момент проведения методики;
- критерий случайности, который иметь место быть в определении вероятности совершения любого события.
Внешние критерии и валидность
Чтобы минимизировать влияние внешних критериев на качество производимого теста или методики, а, соответственно, и на показатель валидности, к ним применяются следующие требования:
- соответствие тому направлению, в котором производится заданное исследование;
- все участники должны находиться в схожих условиях и соответствовать заданным параметрам;
- предмет исследования должен быть постоянным и надёжным: не подвергаться резким перепадам или изменениям.
Основные виды валидности
В психологии различается несколько видов валидности:
- внутренняя валидность – показатель того, насколько направленное экспериментальное воздействие или влияние послужило причиной к данным изменениям в проводимом эксперименте.
Что такое валидность в психологии?
Высокий показатель внутренней валидности характеризует надлежащее качество исследования. На показатель внутренней валидности непосредственно влияют неконтролируемые ситуативные факторы: чем больше влияние этих факторов, тем ниже показатель внутренней валидности;
- внешняя валидность – показатель, обобщающий вывод популяции или иных независимых переменных.
Внешняя валидность обеспечивает успешность применения результатов исследования в реальную жизнь;
- эмпирическая валидность определяется как соответствие между коррекцией баллов по тесту и показателями внешнего параметра, который избирается в качестве критерия валидности.
К определению экспериментальной валидности, как правило, прибегают из-за противоречия между показателями внешней и внутренней валидизацией, так как увеличение одной, непременно влияет на показатели другой. В связи с этим, проводиться эмпирическая проверка методики;
- конструктная валидность – это теоретический конструкт, который включается в процессе поиска факторов, объясняющих поведение испытуемого при проведении теста или методики.
Примером психологического конструкта может служить интеллект, существование которого признаётся и принимается во внимание для объяснения несхожести поведения людей;
- ретроспективная валидность используется при получении данных в предсказательных методиках.
При определении этого типа валидности используются критерии, которые отображают события, свойства состояния в прошлом времени. Таким образом могут вычисляться характеристики того, насколько эффективнее стали результаты заданных процессов в настоящем времени по сравнению с прошлым;
- экологическая валидность применяется для характеристики того, насколько выбранный организм является подготовленным к проявлению различных форм поведения в возможных средах обитания или контекстах.
Экологическая валидность считается подтверждённой результатами полевых исследований.
Основные способы валидизации
Основными способами валидизации являются:
- неформализованные: процедуры теоретического поэтапного анализа, приемы визуального рассмотрения анкетных данных;
- формализованные: технологии математической статистики, коррекционный, дисперсный, факторный, регрессионный и структурный анализы.
Психологический тест и валидность
Психологический тест – задание, сформулированное на основе определённых стандартов, результатом которого является получение данных о психофизиологических показателях состояния человека и свойств его личности, навыков, знаний и способностей.
Валидность определяет качество теста, то есть степень соответствия исследуемого свойства психики или поведения к тесту, при помощи которого они определяются. Качественные тесты имеют показатель валидности восемьдесят процентов. Важно учитывать состав испытуемого материала, его характеристики: от этого тест может быть достоверным или патологически невалидным.
Валидность теста очень важна потому, что она определяет собственно тест как измерительный инструмент и даёт возможность считать его пригодным для применения в обычной практике.
Важность валидизации для методики в психологии
Валидность методики определяется направлением, которое изучается в результате её применения: соответствием того, что изучается, тому для изучения чего она предназначена. Например, если изучается качество личности человека, которое не может быть оценено человеком, то методика не может быть валидной.
Методика как сложный психологический инструмент должна удовлетворять показателям валидности. В противном случае, она не может применяться для изучения психологических конструктов.
Валидность — IResearchNet
Валидность Определение
Валидность относится к правильности выводов, сделанных на основе результатов какого-либо измерения. То есть, когда мы что-то измеряем, нам нужно спросить, точно ли и полностью ли измерения, которые мы произвели, отражают то, что мы намеревались измерить. Например, выводы об индивидуальных различиях в росте людей, основанные на наблюдаемых показателях, полученных при использовании (обычной) рулетки или линейки, весьма достоверны. При правильном использовании применение рулетки будет генерировать наблюдаемые измерения (например, дюймы, миллиметры, футы), которые точно соответствуют фактическим различиям в высоте.
Распространенные заблуждения
Часто можно услышать, как люди ссылаются на «валидность теста», что может создать впечатление, что валидность является свойством измерительного устройства. Однако это неверно. Валидность не является свойством какого-либо оценочного устройства; скорее, это свойство выводов, которые вы — тестовый пользователь — делаете. Например, рассмотрим еще раз рулетку. У нас может возникнуть соблазн сказать, что «рулетка имеет право на существование». Однако если бы мы делали выводы о различиях в интеллекте на основе того же набора измерений, а не различий в росте, эти выводы, вероятно, были бы в высшей степени неверными. Ничего не изменилось в рулетке или наборе измерений, полученных в результате ее применения. Что изменилось, так это вывод о том, что измеряется.
Хотя этот пример может показаться абсурдным (вероятно, никто не стал бы использовать рулетку для измерения интеллекта), он демонстрирует, что достоверность — это свойство не измерительного прибора, а сделанного вывода. Фраза «тест имеет валидность», хотя и неуместная с технической точки зрения, часто используется, потому что существует общее предположение о том, какие выводы следует (и не следует) делать на основе использования хорошо известного измерительного устройства. Например, эксперты по тестированию могут сказать: «Wonderlic имеет хорошую валидность». На первый взгляд это может показаться совершенно неточным; однако следует понимать, что это утверждение на самом деле означает (или, по крайней мере, должно означать): «Выводы относительно индивидуальных различий в общих умственных способностях и выводы относительно вероятности будущих результатов, таких как производительность труда, как правило, уместны, если полагаться на наблюдаемые результаты». баллы, полученные в результате надлежащего использования Wonderlic». То, что мы иногда используем стенографию для сокращения такого длинного утверждения, не должно означать, что валидность является свойством теста. Скорее, его следует интерпретировать как предположение о наличии надежных и поддающихся проверке данных, подтверждающих предполагаемый набор выводов, сделанных на основе использования данного измерительного устройства.
Второе распространенное заблуждение состоит в том, что существуют разные типы достоверности. Вместо этого валидность лучше всего рассматривать как единую концепцию, определяющую, насколько полно и точно мера измеряет то, для чего она предназначена. Однако ни один метод или стратегия не могут предоставить все доказательства, необходимые для точных или уверенных выводов. Таким образом, существует несколько стратегий получения таких доказательств; часто эти стратегии — или, точнее, данные, полученные с помощью этих стратегий, — называют типами валидности. более или менее полезны, чем другие типы. Валидность — это единая, единая идея: она касается степени, в которой различия, которые мы наблюдаем в измерениях, могут быть использованы для получения точных и надежных выводов о каком-то ненаблюдаемом явлении.
Типичные подходы к получению доказательств достоверности
Промышленные и организационные (I/O) психологи часто обеспокоены тем, можно ли с уверенностью полагаться на данное измерительное устройство для принятия точных решений о найме и продвижении по службе. Для этого психологи I/O пытаются сопоставить меру некоторых необходимых для работы знаний, навыков или способностей (выявленных в результате анализа работы) с мерой некоторого выявленного требования или критерия работы. Однако этот процесс требует множества различных выводов, которые, в свою очередь, требуют существенных доказательств для их поддержки. Например, необходимо убедиться, что предикторы и критерии точно и полностью отражают рабочие требования и требования, которые они должны отражать. Также необходимо получить доказательства того, что эти два показателя систематически связаны и что эта связь не является результатом какого-то постороннего фактора, который был непреднамеренно оценен. Чтобы получить доказательства, необходимые для поддержки такого большого набора выводов, психологи I/O обычно используют три общих подхода: (а) содержательная валидность, (б) валидность, связанная с критериями, и (в) конструктная валидность.
Выводы о достоверности содержимого
Термин достоверность содержимого обычно относится к выводам относительно степени, в которой содержимое на измерительном устройстве адекватно представляет совокупность возможного содержимого, обозначающего целевую конструкцию или домен производительности. Существует множество методов или стратегий, которые полезны для получения доказательств в поддержку выводов о содержательной достоверности; однако, чтобы установить релевантность любого доказательства, сначала необходимо четко определить область эффективности или интересующую конструкцию и определить конкретные цели использования инструмента оценки (т. е. разработать спецификации тестирования). Эти два действия ограничивают вселенную релевантного контента и ограничивают набор выводов, которые надеются подтвердить.
Выводы о достоверности, связанной с критериями
Обоснованность, связанная с критериями, относится к степени, в которой наблюдаемые оценки могут быть использованы для полезных выводов (т. е. точных прогнозов) о будущем поведении или результатах. Как правило, доказательство валидности, связанной с критерием, исходит из корреляций между мерой предиктора и мерой критерия. Конечно, для поддержки полезных выводов о валидности, связанной с критериями, необходимо сначала идентифицировать теоретически значимые конструкции критериев (т. убедиться, что существуют меры критериальных конструкций, для которых имеются убедительные доказательства содержательной валидности.
Выводы о достоверности конструкций
Попытка установить доказательства выводов о достоверности конструкций равносильна проверке теории. Конструктивная валидность включает в себя широкий набор выводов относительно природы психологического конструкта и его места в более широкой связи конструктов. В некотором смысле все выводы о валидности являются частью конструктной валидности. Например, сильная поддержка выводов о достоверности содержимого может быть использована для поддержки утверждений, касающихся конструкции, которая измеряется оценочным устройством. Доказательства валидности, связанные с критериями, также полезны; содержательная мера данного конструкта должна быть связана с (содержательно валидными мерами) других конструкций поблизости в номологической сети и не должна быть связана с (содержательно валидными мерами) конструкций, которые далеко удалены от номологической сети. Часто этот тип доказательств называют конвергентной и дискриминантной валидностью соответственно. Именно в этом смысле конструктная валидность аналогична проверке теории. Определение конструкта и его отношения к другим конструктам на самом деле представляет собой мини-теорию, которая выдвигает конкретные гипотезы относительно результатов процесса измерения. Если большинство или все эти гипотезы подтвердятся, мы можем быть уверены в полезности оценочного устройства для получения наблюдаемых оценок, которые, в свою очередь, можно использовать для получения ограниченного набора точных выводов.
Ссылки:
- Биннинг, Дж. Ф., и Барретт, Г. В. (1989). Обоснованность кадровых решений: концептуальный анализ выводной и доказательной баз. Журнал прикладной психологии, 74, 478-494.
- Крокер, Л., и Альгина, Дж. (1986). Введение в классическую и современную теорию тестов. Нью-Йорк: Холт, Райнхарт и Уинстон.
- Кронбах, Л.Дж., и Мил, ЧП (1955). Построить валидность в психологических тестах. Психологический бюллетень, 52, 281-302.
- Кейн, М. Т. (1992). Основанный на аргументах подход к валидности. Психологический бюллетень, 112, 527-535.
4.2 Надежность и валидность измерения – Методы исследования в психологии
Цели обучения
- Дать определение надежности, включая различные типы и способы их оценки.
- Определите достоверность, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые будут иметь отношение к оценке надежности и обоснованности конкретной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагает, что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.
В качестве неформального примера представьте, что вы уже месяц сидите на диете. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы оно указывало на то, что вы набрали 10 фунтов, вы бы правильно заключили, что оно сломано, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.
НадежностьНадежность относится к согласованности показателя. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).
Надежность при повторном тестированииКогда исследователи измеряют конструкцию, которую они считают неизменной во времени, полученные ими баллы также должны быть постоянными во времени. Надежность при повторном тестировании – это степень, в которой это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторных испытаний требует одновременного использования показателя для группы людей, повторного использования его для той же группы людей позднее, а затем изучения корреляции между двумя наборами данных баллов. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления коэффициента корреляции. На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент корреляции для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рис. 4.2. Корреляция тест-повторное тестирование между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с разницей быть последовательным во времени, как в случае с интеллектом, самооценкой и личностными параметрами Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.
Внутренняя согласованностьДругим видом надежности является внутренняя согласованность , которая представляет собой согласованность ответов людей по элементам измерения, состоящего из нескольких элементов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. По шкале самооценки Розенберга люди, согласные с тем, что они достойные люди, должны быть склонны соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов заключается в рассмотрении корреляции с разделением пополам . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на рис. 4.3 показана корреляция пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных составляет +,88. Половинная корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 4.3 Разделенная пополам корреляция между баллами нескольких студентов колледжа по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга
Возможно, это наиболее распространенный показатель внутренней согласованности, используемый исследователями психология — это статистика, называемая α Кронбаха (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.
Надежность между оценщикамиМногие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. Межэкспертная надежность – это степень, в которой разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник на самом деле обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
ВалидностьВалидность – это степень, в которой оценки меры представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторном тестировании, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Лицевая валидностьЛицевая валидность – это степень, в которой метод измерения выглядит «на лицо» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность в лучшем случае является очень слабым доказательством того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие утверждения не имеют никакого очевидного отношения к конструкту, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает и не вызывает у меня тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли шаблон ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Валидность содержанияВалидность содержания — это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Валидность критерияВалидность критерия — это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как критерии ), с которыми, как ожидается, они должны быть коррелированы. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством штрафов за превышение скорости, которые они получили, и даже количеством сломанных костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0068 одновременное действие ; однако, когда критерий измеряется в какой-то момент в будущем (после измерения конструкции), он называется прогностической достоверностью (поскольку баллы по показателю «предсказывают» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими установленными показателями тех же конструктов. Это известно как конвергентная действительность .
Оценка конвергентной валидности требует сбора данных с использованием показателя. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и вовлечены в него (Cacioppo & Petty, 1982) [1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) [2] .
Дискриминантная валидностьДискриминантная валидность , с другой стороны, представляет собой степень, в которой оценки меры , а не коррелируют с мерами переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также представили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
Ключевые выводы
- Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
- Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
- Обоснованность — это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они, как ожидается, будут коррелировать, и не коррелируют с переменными, которые концептуально различны.