Валидация в психологии — определение термина, уровни валидности
Валидация это способ принимать свои чувства или чувства окружающих. Валидация – не значит согласие или одобрение. Валидация – это признание и принятие мыслей, эмоций, чувств и поступков как понятных. Марша Лайнехан описывает 6 уровней валидации.
1 уровень: Быть в настоящем. Есть столько способов находиться «здесь и сейчас»: держать вашего близкого человека за руку, когда он проходит через болезненную медицинскую процедуру, слушать вашего ребенка со всем вашим вниманием и не отвлекаясь ни на что, когда он рассказывает он своем первом дне в школе, приехать домой к подруге в полночь, когда она плачет из-за того, что ее друг солгал о ней кому-то.
Быть в настоящем значит давать все свое внимание человеку, которого вы слушаете.
2 уровень: Стремиться точно понять и сформулировать происходящее. На этом уровне вы пробуете обобщенно назвать чувства, которые испытывает ваш собеседник или вы. Важно постараться избежать критикующих интонаций и показать, что ваша настоящая цель – правильно понять опыт другого человека. Иногда этот тип валидации помогает разобраться в своих мыслях и отделить эмоции от суждений. «По сути, я чувствую себя разозленным и мне больно» — пример валидации своих собственных чувств. «Похоже, что ты разочарован в себе из-за того, что не перезвонил ему» — пример аккуратной рефлексии в ответ на чей-то рассказ.
3 уровень: Чтение мыслей! Это умение строить предположения о чувствах и мыслях других людей. У всех людей разный уровень способности различать свои чувства. Иногда не получается понять, что именно человек чувствует, потому что в детстве ему не разрешали испытывать те эмоции, которые у него возникали или же его воспитали с чувством страха перед своими эмоциями.
Люди могут скрывать свои чувства, потому что они запомнили, что окружающие негативно реагируют на такие проявления.
Это подавление чувств может привести к тому, что даже сам человек не будет понимать, что именно он чувствует, что в свою очередь плохо влияет на способность управлять своими эмоциями.Помните, что вы можете ошибочно распознать переживания своего собеседника, умение принимать поправки к вашим репликам – часть навыка валидации.
4 уровень: Понимание поведения человека в контексте его личной истории и физического состояния. Ваш опыт и биология вашего тела влияют на ваши эмоциональные реакции. Если ваш лучшая подруга была покусана собакой пару месяцев назад, она маловероятно получит удовольствие, играя с вашей немецкой овчаркой. Валидация на этом уровне будет звучать так: «Учитывая то, что случилось с тобой недавно, я полностью понимаю, что тебе не хочется находится рядом с моей собакой.»
Самовалидация – понимание ваших собственных реакций в контексте вашего прошлого опыта.
5 уровень: Признание эмоций нормальными в данной ситуации и слова о том, что такие чувства испытал бы и другой человек, попади он в такую ситуацию. «Конечно ты нервничаешь. Первое публичное выступление страшно для любого человека, это нормально.»
6 уровень: Полная искренность. На этом уровне вы проявляете понимание к собеседнику на очень глубоком уровне, например, если у вас был похожий опыт. Чувство общности переживаний приносит большое облегчение в сложных ситуациях. Нередко такой опыт возникает в результате встречи терапевтической группы (групповая терапия).
Переведено с английского, с сокращениями, специально для ЦИРПП, источник:
https://www.psychologytoday.com/blog/pieces-mind/201204/understanding-validation-way-communicate-acceptance
* — обязательные поляОтправляя заявку, Вы соглашаетесь с условиями
политики конфиденциальности
Читайте также
Что лечит психиатр
Психиатр ― это врач, который выявляет и лечит психические заболевания. Специалист работает …
Читать далее »
О расстройствах пищевого поведения на телеканале ОТР
В чем причины расстройств пищевого поведения? Как их лечить? Какова роль родных и близких …
Читать далее »
Программа «Здоровье» в гостях у ЦИРПП
Что такое расстройство пищевого поведения? Какое поведение ребенка должно насторожить …
Читать далее »
Самоповреждающее поведение (селфхарм)
Селфхарм — форма аутоагрессии, которая выражается в умышленном или подсознательном стремлении …
Читать далее »
На телеканале ОТР об анорексии
Главный врач Центра изучения расстройств пищевого поведения, врач-психиатр, психотерапевт …
Читать далее »
Интервью главного врача порталу anorexia. pro
Главврач московского Центра изучения расстройств пищевого поведения Максим Сологуб рассказывает, …
Читать далее »
Валидность конструктная | Psylist.net
Словари ↓
А Б В Г Д Е Ж З И К Л М Н О П Р С Т У Ф Х Ц Ч Ш Э Ю Я
Валидность конструктная — один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста. В качестве конструкта могут выступать практический или вербальный интеллект, эмоциональная неустойчивость, интроверсия, понимание речи, переключаемость внимания и т. д. Иначе говоря, В. к. определяет область теоретической структуры психологических явлений, измеряемых тестом.
Поскольку проявления таких конструктов, как, напр., интеллект в деятельности человека многообразны и неоднозначны с т. з. их выделения, процедура установления В. к. по сравнению с валидностью критериальной или валидностью содержательной сложна.
При объяснении связи полученных тестовых результатов с теоретическим конструктом необходимо постепенное накопление разнообразной информации о динамике развития измеряемого свойства, а также о его взаимодействии с другими психическими явлениями.
Среди конкретных методов характеристики В. к. в первую очередь необходимо назвать сопоставление исследуемого на предмет В. к. теста с другими методиками, конструктное содержание которых известно. Наличие корреляции между новым и аналогичным по конструкту тестом указывает на то, что разрабатываемый тест «измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика. Такая процедура валидизации напоминает определение критериальной валидности в том смысле, что эталонный тест, валидность которого определена, выступает в качестве независимого критерия.
Следует, однако, заметить, что, в отличие от критериальной валидизации, при анализе В. к. не требуется высокой степени связи результатов двух тестов. Если окажется, что новый и эталонный тесты практически идентичны по содержанию и результатам и разрабатываемая методика не обладает преимуществами краткости или легкости применения, это означает лишь дублирование теста, оправданное только с т. з. создания параллельной формы теста. Смысл процедуры В. к. состоит в установлении одновременно как сходства, так и различия психологических феноменов, измеряемых новым тестом по сравнению с известным.
При анализе В. к. методики обычно формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. При этом В. к. характеризуется не только связями проверяемого теста с близкородственными показателями, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно. Эти подходы определяются как конвергентная (проверка степени близости прямой или обратной связи) и дискриминантная (установление отсутствия связи) валидизации. Подтверждение совокупности теоретически ожидаемых связей составляет важный круг сведений В. к. В англоязычной психодиагностике такое операциональное определение В. к. обозначается как «предполагаемая валидность» (assumed validity).
Прямое отношение к характеристике В. к. имеет факторный анализ, позволяющий строго статистически проанализировать структуру связей показателей исследуемого теста с другими известными и латентными факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленное™ в результатах, т. е. определить факторный состав и факторные нагрузки результата теста. Исключительная важность такой процедуры является основанием для выделения ее в особый вид В. к. — факторную валидность.
Важным аспектом В. к. является внутренняя согласованность, отражающая то, насколько определенные пункты (задания, вопросы), составляющие материал теста, подчинены основному направлению теста как целого, ориентированы на изучение одних и тех же конструктов. Анализ внутренней согласованности осуществляется путем коррелирования ответов на каждое задание с общим результатом теста. Следует отметить, что критерий внутренней согласованности указывает лишь на меру связи всего содержания теста с измеряемым конструктом, давая лишь косвенную информацию о природе измеряемого свойства.
При определении В. к. важное место принадлежит изучению динамики измеряемого конструкта. При этом мы можем опираться на гипотезы о его возрастном развитии, влиянии тренировок, обучения, освоения профессии и т. д. Одним из таких подходов является применение критерия возрастной дифференциации (см. Валидность по возрастной дифференциации), что предусматривает согласование результатов теста с ожидаемыми изменениями, которые претерпевает изучаемое психическое свойство в возрастной динамике при переходе на новый этап развития. Этот метод В. к. особенно важен для валидизации тестов интеллекта, достижений в обучении.
В комплекс сведений о В. к. методики входят также данные, относящиеся к сфере критериальной и содержательной валидности. Так, критерии, используемые при валидизации, несут информацию, позволяющую раскрыть область поведения, качества, представленные в тесте в виде конструкта. Для характеристики В. к. необходимы связь с практическими формами деятельности, достоверность прогноза реального поведения.
В качестве примера, иллюстрирующего необходимость глубокого анализа теоретического конструкта, лежащего в основе конкретной методики, для правильного применения теста и интерпретации его результатов, можно привести сопоставление двух популярных опросников личностных «Проявления тревожности» шкалы (MAS) и варианта Айзенка личностных опросников EPI. Корреляционные исследования показывают, что шкала «тревожности» MAS положительно коррелирует со шкалой «нейротизма» и отрицательно — со шкалой «экстраверсии» EPI. С т. з. концепции Айзенка, эти данные можно рассматривать как свидетельство низкой валидности шкалы MAS: «тревожность» коррелирует не только с релевантным фактором «нейротизм», но и с иррелевантным фактором «интроверсия». С этой т. з. MAS оказывается просто нечувствительным к особой разновидности «нейротизма» — нейротизму (тревожности) экстравертов: из перечня пунктов MAS исключены высказывания, в которых могла бы проявиться тревожность экстраверта. Однако с теоретических позиций К. Спенса и Дж. Тейлор, эта ситуация вполне закономерна, желательна и никак не является артефактом — следствием дефекта данного диагностического средства. Согласно К. Спенсу, пытавшемуся переносить на человеческое поведение теорию научения Халла, MAS измеряет общий уровень драйва — неспециализированного побуждения, которое как раз достигает максимума при сочетании нейротизма (специфическая активация, по Айзенку) и интроверсии (неспецифическая активация) (Практикум по психодиагностике, 1984). Таким образом, названия тестов не всегда однозначно выражают понятия об измеряемом свойстве. В данном примере особенно подчеркивается роль психологической теории, лежащей в основе методики для раскрытия содержания показателей, получаемых с ее помощью.
Похожие материалы в разделе Словари:
- Гипноз
- Алогия
- Теория двойного кодирования
- Опросники одномерные
- Монотонная работа
- Метод едва заметной разницы
- Метод семантического дифференциала
- Садомазохизм
- Асатиани метод репродуктивных переживаний
- Циклография
Валидность — IResearchNet
Валидность Определение
Валидность относится к правильности выводов, сделанных на основе результатов какого-либо измерения. То есть, когда мы что-то измеряем, нам нужно спросить, точно ли и полностью ли измерения, которые мы произвели, отражают то, что мы намеревались измерить. Например, выводы об индивидуальных различиях в росте людей, основанные на наблюдаемых показателях, полученных при использовании (обычной) рулетки или линейки, весьма достоверны. При правильном использовании применение рулетки будет генерировать наблюдаемые измерения (например, дюймы, миллиметры, футы), которые точно соответствуют фактическим различиям в высоте.
Распространенные заблуждения
Часто можно услышать, как люди ссылаются на «валидность теста», что может создать впечатление, что валидность является свойством измерительного устройства. Однако это неверно. Валидность не является свойством какого-либо оценочного устройства; скорее, это свойство выводов, которые вы — тестовый пользователь — делаете. Например, рассмотрим еще раз рулетку. У нас может возникнуть соблазн сказать, что «рулетка имеет право на существование». Однако если бы мы делали выводы о различиях в интеллекте на основе того же набора измерений, а не различий в росте, эти выводы, вероятно, были бы в высшей степени неверными. Ничего не изменилось в рулетке или наборе измерений, полученных в результате ее применения. Что изменилось, так это вывод о том, что измеряется.
Хотя этот пример может показаться абсурдным (вероятно, никто не стал бы использовать рулетку для измерения интеллекта), он демонстрирует, что достоверность — это свойство не измерительного прибора, а сделанного вывода. Фраза «тест имеет валидность», хотя и неуместная с технической точки зрения, часто используется, потому что существует общее предположение о том, какие выводы следует (и не следует) делать на основе использования хорошо известного измерительного устройства. Например, эксперты по тестированию могут сказать: «Wonderlic имеет хорошую валидность». На первый взгляд это может показаться совершенно неточным; однако следует понимать, что это утверждение на самом деле означает (или, по крайней мере, должно означать): «Выводы относительно индивидуальных различий в общих умственных способностях и выводы относительно вероятности будущих результатов, таких как производительность труда, как правило, уместны, если полагаться на наблюдаемые результаты». баллы, полученные в результате надлежащего использования Wonderlic». То, что мы иногда используем стенографию для сокращения такого длинного утверждения, не должно означать, что валидность является свойством теста. Скорее, его следует интерпретировать как предположение о наличии надежных и поддающихся проверке данных, подтверждающих предполагаемый набор выводов, сделанных на основе использования данного измерительного устройства.
Второе распространенное заблуждение состоит в том, что существуют разные типы достоверности. Вместо этого валидность лучше всего рассматривать как единую концепцию, определяющую, насколько полно и точно мера измеряет то, для чего она предназначена. Однако ни один метод или стратегия не могут предоставить все доказательства, необходимые для точных или уверенных выводов. Таким образом, существует несколько стратегий получения таких доказательств; часто эти стратегии — или, точнее, данные, полученные с помощью этих стратегий, — называют типами валидности. более или менее полезны, чем другие типы. Валидность — это единая, единая идея: она касается степени, в которой различия, которые мы наблюдаем в измерениях, могут быть использованы для получения точных и надежных выводов о каком-то ненаблюдаемом явлении.
Типичные подходы к получению доказательств достоверности
Промышленные и организационные (I/O) психологи часто обеспокоены тем, можно ли с уверенностью полагаться на данное измерительное устройство для принятия точных решений о найме и продвижении по службе. Для этого психологи I/O пытаются сопоставить меру некоторых необходимых для работы знаний, навыков или способностей (выявленных в результате анализа работы) с мерой некоторого выявленного требования или критерия работы. Однако этот процесс требует множества различных выводов, которые, в свою очередь, требуют существенных доказательств для их поддержки. Например, необходимо убедиться, что предикторы и критерии точно и полностью отражают рабочие требования и требования, которые они должны отражать. Также необходимо получить доказательства того, что эти два показателя систематически связаны и что эта связь не является результатом какого-то постороннего фактора, который был непреднамеренно оценен. Чтобы получить доказательства, необходимые для поддержки такого большого набора выводов, психологи I/O обычно используют три общих подхода: (а) содержательная валидность, (б) валидность, связанная с критериями, и (в) конструктная валидность.
Выводы о достоверности содержимого
Термин достоверность содержимого обычно относится к выводам относительно степени, в которой содержимое на измерительном устройстве адекватно представляет совокупность возможного содержимого, обозначающего целевую конструкцию или домен производительности. Существует множество методов или стратегий, которые полезны для получения доказательств в поддержку выводов о содержательной достоверности; однако, чтобы установить релевантность любого доказательства, сначала необходимо четко определить область эффективности или интересующую конструкцию и определить конкретные цели использования инструмента оценки (т. е. разработать спецификации тестирования). Эти два действия ограничивают вселенную релевантного контента и ограничивают набор выводов, которые надеются подтвердить.
Выводы о достоверности, связанной с критериями
Обоснованность, связанная с критериями, относится к степени, в которой наблюдаемые оценки могут быть использованы для полезных выводов (т. е. точных прогнозов) о будущем поведении или результатах. Как правило, доказательство валидности, связанной с критерием, исходит из корреляций между мерой предиктора и мерами критерия. Конечно, для поддержки полезных выводов о валидности, связанной с критериями, необходимо сначала идентифицировать теоретически значимые конструкции критериев (т. убедиться, что существуют меры критериальных конструкций, для которых имеются убедительные доказательства содержательной валидности.
Выводы о достоверности конструкций
Попытка установить доказательства выводов о достоверности конструкций равносильна проверке теории. Конструктивная валидность включает в себя широкий набор выводов относительно природы психологического конструкта и его места в более широкой связи конструктов. В некотором смысле все выводы о валидности являются частью конструктной валидности. Например, сильная поддержка выводов о достоверности содержимого может быть использована для поддержки утверждений, касающихся конструкции, которая измеряется оценочным устройством. Доказательства валидности, связанные с критериями, также полезны; содержательная мера данного конструкта должна быть связана с (содержательно валидными мерами) других конструкций поблизости в номологической сети и не должна быть связана с (содержательно валидными мерами) конструкций, которые далеко удалены от номологической сети. Часто этот тип доказательств называют конвергентной и дискриминантной валидностью соответственно. Именно в этом смысле конструктная валидность аналогична проверке теории. Определение конструкта и его отношения к другим конструктам на самом деле представляет собой мини-теорию, которая выдвигает конкретные гипотезы относительно результатов процесса измерения. Если большинство или все эти гипотезы подтвердятся, мы можем быть уверены в полезности оценочного устройства для получения наблюдаемых оценок, которые, в свою очередь, можно использовать для получения ограниченного набора точных выводов.
Ссылки:
- Биннинг, Дж. Ф., и Барретт, Г. В. (1989). Обоснованность кадровых решений: концептуальный анализ выводной и доказательной баз. Журнал прикладной психологии, 74, 478-494.
- Крокер, Л., и Альгина, Дж. (1986). Введение в классическую и современную теорию тестов. Нью-Йорк: Холт, Райнхарт и Уинстон.
- Кронбах, Л.Дж., и Мил, ЧП (1955). Построить валидность в психологических тестах. Психологический бюллетень, 52, 281-302.
- Кейн, М. Т. (1992). Основанный на аргументах подход к валидности. Психологический бюллетень, 112, 527-535.
4.2 Надежность и валидность измерения – Методы исследования в психологии
Цели обучения
- Дать определение надежности, включая различные типы и способы их оценки.
- Определите достоверность, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и обоснованности конкретной меры.
Опять же, измерение включает в себя присвоение баллов отдельным лицам, чтобы они отражали некоторые характеристики людей. Но откуда исследователи узнают, что баллы на самом деле отражают характеристику, особенно когда речь идет о таком конструкте, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование с использованием меры, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это чрезвычайно важный момент. Психологи не просто предполагает, что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают. Если их исследование не показывает, что мера работает, они перестают ее использовать.
В качестве неформального примера представьте, что вы уже месяц сидите на диете. Ваша одежда кажется более свободной, и несколько друзей спрашивали, похудели ли вы. Если бы в этот момент ваши весы в ванной показывали, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжали бы пользоваться весами. Но если бы он указывал на то, что вы набрали 10 фунтов, вы бы правильно заключили, что он сломан, и либо починили бы его, либо избавились от него. При оценке метода измерения психологи учитывают два основных аспекта: надежность и валидность.
НадежностьНадежность относится к постоянству показателя. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (межэкспертная надежность).
Надежность при повторном тестированииКогда исследователи измеряют конструкцию, которую они считают неизменной во времени, полученные ими баллы также должны быть постоянными во времени. Надежность при повторном тестировании – это степень, в которой это действительно так. Например, обычно считается, что интеллект неизменен во времени. Человек, который очень умен сегодня, будет очень умным на следующей неделе. Это означает, что любая хорошая мера интеллекта должна дать этому человеку примерно такие же оценки на следующей неделе, как и сегодня. Ясно, что мера, которая дает крайне противоречивые оценки во времени, не может быть очень хорошей мерой конструкции, которая должна быть последовательной.
Оценка надежности повторных испытаний требует использования меры для группы людей в одно время, ее повторного использования для той же группы людей позднее, а затем изучения корреляции между двумя наборами. баллов. Обычно это делается путем графического отображения данных на диаграмме рассеяния и вычисления коэффициента корреляции. На рис. 4.2 показана корреляция между двумя наборами оценок нескольких студентов университета по шкале самооценки Розенберга, проведенных два раза с интервалом в неделю. Коэффициент корреляции для этих данных равен +,9.5. В целом считается, что корреляция между тестом и повторным тестом +,80 или выше указывает на хорошую надежность.
Рис. 4.2. Корреляция тест-повторное тестирование между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученных два раза в неделю с разницей быть последовательным во времени, как в случае с интеллектом, самооценкой и личностными параметрами Большой пятерки. Но другие конструкции не считаются стабильными во времени. Например, сама природа настроения такова, что оно меняется. Таким образом, мера настроения, которая показала низкую корреляцию между тестами и повторными тестами в течение месяца, не должна вызывать беспокойства.
Внутренняя согласованностьДругим видом надежности является внутренняя согласованность , которая представляет собой согласованность ответов людей по пунктам измерения, состоящего из нескольких пунктов. В целом предполагается, что все пункты таких показателей отражают одну и ту же базовую конструкцию, поэтому баллы людей по этим пунктам должны коррелировать друг с другом. Согласно шкале самооценки Розенберга, люди, согласные с тем, что они достойные люди, должны, как правило, соглашаться с тем, что они обладают рядом хороших качеств. Если ответы людей на разные элементы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же лежащую в основе конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самоотчетов. Например, люди могут сделать серию ставок в смоделированной игре в рулетку, чтобы измерить уровень своего стремления к риску. Этот показатель будет внутренне непротиворечивым в той мере, в какой ставки отдельных участников были неизменно высокими или низкими в ходе испытаний.
Как и надежность повторных испытаний, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов заключается в рассмотрении корреляции с разделением пополам . Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четными и нечетными номерами. Затем для каждого набора элементов вычисляется оценка, и проверяется взаимосвязь между двумя наборами оценок. Например, на рис. 4.3 показана корреляция пополам между баллами нескольких студентов университетов по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга. Коэффициент корреляции для этих данных составляет +,88. Половинная корреляция +,80 или выше обычно считается хорошей внутренней согласованностью.
Рис. 4.3 Корреляция с разделением пополам между баллами нескольких студентов колледжа по четным пунктам и их баллами по нечетным пунктам шкалы самооценки Розенберга
Возможно, это наиболее распространенный показатель внутренней согласованности, используемый исследователями в психология — это статистика, называемая α Кронбаха (греческая буква альфа). Концептуально α является средним значением всех возможных корреляций разделения пополам для набора элементов. Например, существует 252 способа разделить набор из 10 предметов на два набора по пять. α Кронбаха будет средним из 252 разделенных пополам корреляций. Обратите внимание, что это не то, как на самом деле вычисляется α, но это правильный способ интерпретации значения этой статистики. Опять же, значение +,80 или выше обычно считается показателем хорошей внутренней согласованности.
Надежность между оценщикамиМногие поведенческие показатели требуют значительных суждений со стороны наблюдателя или оценщика. Межэкспертная надежность – это степень, в которой разные наблюдатели последовательны в своих суждениях. Например, если вы заинтересованы в измерении социальных навыков студентов университета, вы можете сделать видеозаписи их общения с другим студентом, которого они встречают впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той мере, в какой каждый участник на самом деле обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом. Межэкспертная надежность также могла быть измерена в исследовании Бандуры с куклой Бобо. В этом случае оценки наблюдателями того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь высокую положительную корреляцию. Надежность между экспертами часто оценивается с использованием коэффициента Кронбаха, когда суждения количественные, или аналогичного статистического показателя, называемого коэновским κ (греческая буква каппа), когда они категоричны.
ВалидностьВалидность – это степень, в которой оценки меры представляют переменную, для которой они предназначены. Но как исследователи делают это суждение? Мы уже рассмотрели один фактор, который они учитывают, — надежность. Когда мера имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки представляют то, что они должны представлять. Однако это должно быть нечто большее, потому что мера может быть чрезвычайно надежной, но не иметь никакой достоверности. В качестве абсурдного примера представьте себе человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам людей. Хотя эта мера будет иметь чрезвычайно хорошую надежность при повторных испытаниях, она будет абсолютно недействительной. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них выше самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды доказательств — в дополнение к надежности — которые следует принимать во внимание при оценке достоверности меры. Здесь мы рассматриваем три основных вида: валидность лица, валидность содержания и валидность критерия.
Лицевая валидностьЛицевая валидность – это степень, в которой метод измерения выглядит «на лицо» для измерения интересующей конструкции. Большинство людей ожидает, что анкета самооценки будет включать вопросы о том, считают ли они себя достойным человеком и считают ли они себя хорошими качествами. Таким образом, анкета, включающая такие пункты, будет иметь хорошую внешнюю валидность. С другой стороны, метод измерения самооценки по длине пальца, по-видимому, не имеет ничего общего с самооценкой и, следовательно, имеет низкую кажущуюся валидность. Хотя кажущаяся валидность может быть оценена количественно — например, когда большая выборка людей оценивает меру с точки зрения того, измеряет ли она то, для чего предназначена, — ее обычно оценивают неформально.
Лицевая валидность в лучшем случае является очень слабым доказательством того, что метод измерения измеряет то, что он должен измерять. Одна из причин заключается в том, что он основан на интуитивных представлениях людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепризнанные меры в психологии работают достаточно хорошо, несмотря на то, что им не хватает внешней достоверности. Миннесотский многофазный личностный опросник-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, причем многие утверждения не имеют никакого очевидного отношения к конструкту, который они измеряют. . Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает и не вызывает у меня тошноты» измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а то, соответствует ли шаблон ответов участников на ряд вопросов ответам людей, склонных подавлять свою агрессию.
Валидность содержанияВалидность содержания — это степень, в которой мера «покрывает» интересующую конструкцию. Например, если исследователь концептуально определяет тестовую тревожность как активацию симпатической нервной системы (ведущую к нервным переживаниям) и негативные мысли, то его мера тестовой тревожности должна включать пункты, касающиеся как нервных переживаний, так и негативных мыслей. Или учтите, что отношения обычно определяются как включающие мысли, чувства и действия по отношению к чему-либо. Согласно этому концептуальному определению, человек позитивно относится к физическим упражнениям в той мере, в какой он или она позитивно мыслит об упражнениях, чувствует себя хорошо во время упражнений и действительно занимается ими. Таким образом, чтобы иметь хорошую содержательную валидность, мера отношения людей к физическим упражнениям должна отражать все три аспекта. Как и внешняя валидность, содержательная валидность обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Валидность критерияВалидность критерия — это степень, в которой оценки людей по какому-либо показателю коррелируют с другими переменными (известными как критерии ), с которыми, как ожидается, они должны быть коррелированы. Например, результаты людей по новому показателю тестовой тревожности должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что баллы людей на самом деле отрицательно коррелируют с их успеваемостью на экзамене, то это было бы доказательством того, что эти баллы действительно отражают тревожность людей перед экзаменами. Но если бы было обнаружено, что люди получают одинаковые результаты на экзамене независимо от их оценки тревожности во время теста, это поставило бы под сомнение достоверность измерения.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их будет много. Например, можно было бы ожидать, что показатели тревожности при тестировании будут отрицательно коррелировать с успеваемостью на экзамене и оценками за курс и положительно коррелировать с общей тревожностью и кровяным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру физического риска. Баллы людей по этому показателю должны коррелировать с их участием в «экстремальных» видах деятельности, таких как катание на сноуборде и скалолазание, количеством штрафов за превышение скорости, которые они получили, и даже количеством сломанных костей, которые они получили за эти годы. Когда критерий измеряется одновременно с конструктом, валидность критерия оценивается как 9.0068 одновременное действие ; однако, когда критерий измеряется в какой-то момент в будущем (после измерения конструкции), он называется прогностической достоверностью (поскольку баллы по показателю «предсказывают» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые показатели тестовой тревожности или принятия физического риска будут положительно коррелировать с существующими установленными показателями тех же конструктов. Это известно как конвергентная действительность .
Оценка конвергентной валидности требует сбора данных с использованием меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самооценки потребности в познании, чтобы измерить, насколько люди ценят мышление и вовлечены в него (Cacioppo & Petty, 1982) [1] . В серии исследований они показали, что баллы людей положительно коррелируют с их баллами по стандартизированному тесту успеваемости и что их баллы отрицательно коррелируют с их баллами по показателю догматизма (что представляет собой тенденцию к послушанию). За годы, прошедшие с момента ее создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и Маккаслин, 2009 г.) [2] .
Дискриминантная валидностьДискриминантная валидность , с другой стороны, представляет собой степень, в которой оценки меры , а не коррелируют с мерами переменных, которые концептуально различны. Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, то есть то, насколько хорошо или плохо человек себя чувствует в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новая мера самооценки была сильно коррелирована с мерой настроения, можно было бы утверждать, что новая мера на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
Создавая Шкалу потребности в познании, Качиоппо и Петти также представили доказательства дискриминантной валидности, показав, что баллы людей не коррелируют с некоторыми другими переменными. Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части или целостно с точки зрения «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их тенденцией реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличный конструкт.
Ключевые выводы
- Исследователи-психологи не просто предполагают, что их измерения работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что они работают, они перестают их использовать.
- Существует два различных критерия, по которым исследователи оценивают свои измерения: надежность и достоверность. Надежность — это согласованность во времени (надежность при повторном тестировании), между элементами (внутренняя согласованность) и между исследователями (надежность между разными группами). Валидность — это степень, в которой оценки действительно представляют переменную, для которой они предназначены.
- Обоснованность — это суждение, основанное на различных видах доказательств. Соответствующее свидетельство включает в себя надежность показателя, охватывает ли он интересующий конструкт и коррелируют ли полученные с его помощью оценки с другими переменными, с которыми они должны коррелировать, и не коррелируют с переменными, которые концептуально различны.