Валидность теста в психологии это: Валидность психологических тестов, или Всегда ли можно доверять тестам?

Содержание

Валидность психологических тестов, или Всегда ли можно доверять тестам?

Многие из нас в этой жизни хотя бы несколько раз проходили тесты по психологии. Кто-то это делал из любопытства, случайно наткнувшись в Интернете на «заманушку» вроде «узнайте свой тип личности». Кто-то серьезно подошел к вопросу профориентации и заранее решил объективно оценить свои склонности к выбранной профессии или же подумать о профессии, исходя из выявленных способностей.

А кому-то предложили пройти тестирование на приеме у психолога или психотерапевта, к которому пришлось обратиться, чтобы подправить здоровье или найти выход из затруднительной жизненной ситуации. В итоге отношение к тестам по психологии у всех разное, от глубокого интереса и желания проходить больше тестов, хороших и разных, до резкого неприятия и обобщений наподобие «это все ерунда».

Где же правда и есть ли какой-то толк от психологических тестов в реальности? Правда, как всегда, где-то посередине, а ответ на вопрос «Есть ли какой-то толк?» нужно искать в таком понятии, как «валидность психологических тестов».

Вы и сами всегда сумеете докопаться до истины, если пройдете нашу программу «Когнитивистика». А понимать людей на невербальном уровне безо всякого тестирования вы научитесь на программе «Профайлинг». Прохождение программ может занять пару месяцев, а пока мы предлагаем вам поговорить про надежность и валидность психологических тестов и их пригодность для определения различных психологических характеристик человека.

Валидность психологического теста: что это такое?

Для начала уточним, что означает понятие «валидность психологического теста», и попытаемся объяснить это простыми словами. Итак, валидностью психологического теста называется способность теста определять и измерять те показатели, для определения и измерения которых данный тест разработан.

Условно говоря, тестом на определение типов личности не стоит пытаться определить степень эмоционального выгорания человека. Аналогично тому, как тестами по английскому языку не стоит пытаться определить уровень знаний по математике, или тестами по математике за 11-й класс не нужно определять уровень знаний программы за 9 классов.

Помимо этого, есть еще один важный момент. Тесты по психологии имеют разное назначение. Мы начали с того, что разным людям приходится сталкиваться с психологическими тестами при разных обстоятельствах. Кем-то движет любопытство и желание узнать, условно говоря, «кто я такой». А кому-то жизненно важно докопаться до причин своего неблагополучного психологического состояния и найти пути выхода из него.

Понятно, что для удовлетворения любопытства и диагностики психологического состояния нужны не только разные тесты, но и разная направленность тестирования, разная степень детализации вопросов и, само собой, разная степень точности измерений. Психологический тест – это практически всегда измерение. Кто проходил, тот знает, что результат обычно представляют в баллах, очках, процентах. Проще говоря, в неких исчисляемых единицах.

Разумеется, при любом измерении возможны неточности или погрешности. Если вы просто любопытствуете, являетесь ли вы сангвиником или, скорее, флегматиком, разные тесты могут дать разный результат, а истина, как всегда, может оказаться где-то посередине. Это нормально, потому что людей, у которых были бы выражены исключительно черты сангвиника или флегматика и совсем не было бы качеств, присущих, к примеру, меланхоликам, не так много.

Да и сам факт, что ваше любопытство не будет удовлетворено в полной мере и заставит вас либо искать другие тесты, либо забросить затею с тестированием, вряд ли может иметь какие-то далеко идущие последствия для душевного здоровья.

А вот если психотерапевту приходится иметь дело с пограничным расстройством и нужно понять, требуется ли пациенту медикаментозное лечение или можно ограничиться психотерапевтическими сеансами, здесь точность измерений различных параметров при тестировании обретает принципиально важное значение.

Более глубоко вникнуть в тему и содержание понятия валидности психологических тестов позволяют узкоспециальные научные издания [И. Кондаков, 2007]. А также публикации в специализированных журналах по психологи [Х. Гессман, Е. Шеронов, 2013]. А мы продолжим тему и поговорим о типах валидности психологических тестов.

Типы валидности психологических тестов

Итак, мы уже разобрались, что валидность включает в себя множество разных аспектов. Теперь посмотрим, какие бывают типы валидности и что они означают.

Основные типы валидности:

Практическая валидность – возможность достижения с помощью тестирования конкретной цели (поставить диагноз, сделать прогноз, выдать рекомендации).
Прогностическая валидность как разновидность практической – возможность прогнозировать род той или иной деятельности в исполнении испытуемого.
Совпадающая валидность как разновидность практической – диагностика наличия у человека некоего качества или характеристики в текущий момент времени.
Оценочная валидность – корреляция между результатами теста и мнением экспертов.
Валидность генерализации, она же репрезентативность – на какие категории людей или ситуаций можно распространить результаты исследования.
Валидность критерия – складывается из понятия «совместная валидность» и «предиктивная валидность».
Совместная валидность – существует ли связь между результатом теста и прочими проявлениями свойства.
Предиктивная валидность – насколько итог теста позволяет прогнозировать развитие исследуемого качества.
Относительная валидность – соответствие результатам аналогичных тестов, предназначенным для измерения аналогичных показателей.
Эмпирическая валидность – соответствие выбранной методики тестирования опыту и знаниям человека.
Дискриминантная валидность – разновидность эмпирической, подразумевающая статистическую независимость тестовых показателей, направленных на измерение несвязанных характеристик.

Если почему-либо все вышеизложенное кажется сложным, заметим, что это не совсем так. Мы уже начали говорить, к примеру, об эмпирической валидности, только более простыми словами. В частности, когда сказали, что нельзя измерять уровень знаний за 9 класс тестами за программу средней школы. Тест за программу 11 классов не будет соответствовать опыту и знаниям школьника, полученным за 9 лет учебы.

Можно объяснить простыми словами и понятие оценочной валидности или степени корреляции между показателями, полученными испытуемым, и оценками экспертов. Так, если во время ЕГЭ школьник получает баллы намного выше или намного ниже, чем текущие и итоговые оценки в школе, выставляемые учителями (экспертами), есть все основания заподозрить, что тест не является валидным.

Это совсем общий пример, потому что в наших реалиях в этой ситуации можно заподозрить еще и коррупционную составляющую, когда высокие оценки ставят за деньги и потихоньку «гнобят» тех, чьи родители не могут оплатить вожделенные баллы. Итоги ЕГЭ пока что купить сложнее, поэтому такие вещи как раз и всплывают во время независимого тестирования. Но принцип, думается, понятен.

Точно так можно объяснить попроще понятие дискриминантной валидности. Например, корреляция между результатами теста на скорость чтения и теста на уровень мотивации будет крайне низкой, потому что способность к скорочтению мало связана с мотивацией, разве что с частным случаем мотивации научиться быстро читать. А вот если путем тестирования выявить ценностные ориентиры человека, тогда до выявления факторов, усиливающих мотивацию человека к каким-либо действиям, останется один шаг.

Для тех, кому и эти объяснения кажутся скучными и запутанными, поясним суть понятия «валидность психологического теста» совсем простым примером. Когда-то давно, в эпоху до изобретения мини-камер видеонаблюдения и GPS-трекеров, была популярной шутка про эксперимент ученых, исследовавших жизнь бродячих собак. Ученые закрепили на голове у собак видеокамеру и выяснили, что 90% всего времени собаки пытаются избавиться от камеры у себя на голове, а 10% времени убегают от ученых, которые их ловят, чтобы поменять разрядившийся аккумулятор.

Разумеется, в естественных условиях «рабочий день» бродячей собаки выглядит совсем иначе, потому что в естественных условиях у нее нет на голове мешающей камеры. Поэтому релевантность полученных в результате такого эксперимента данных стремится к нулю, а дело тут в неправильно выбранном методе исследования. Это, еще раз уточним, шутка, однако она весьма наглядно демонстрирует важность правильного выбора метода оценки тех или иных характеристик. Иначе валидность психологического теста будет низкой.

Желающим узнать больше о разных типах валидности можем рекомендовать научное исследование Validity of psychological assessment: Validation of inferences from persons’ responses and performances («Валидность психологической оценки: проверка выводов, сделанных на основе ответов и действий людей») [S. Messick, 1995].

Заметим, что исследования типологии валидности психологических тестов ведутся уже много десятилетий. Одной из первых серьезных работ в данном направлении стала статья Convergent and discriminant validation by the multitrait-multimethod matrix («Конвергентная и дискриминантная проверка по матрице мультипризнаков-мультиметодов») [D. Campbell, D. Fiske, 1959].

Это для тех, кто хочет знать больше, а мы далее обсудим, какие факторы влияют на валидность психологического теста. Если речь идет про валидность и надежность психологического теста, контрольная работа, план научной статьи, содержание публикации всегда включают в себя пункт, касающийся факторов, влияющих на валидность теста.

Факторы, влияющие на валидность психологического теста

Как вы уже поняли, составление психологических тестов, способных измерить требуемую характеристику, задача не такая уж простая. Достаточно посмотреть «Справочное руководство по конструированию тестов» объемом почти в 300 страниц, чтобы увидеть, сколько важных факторов нужно учесть при этом [П. Клайн, 1994]. Если кратко, формирование теста с высокой валидностью должно пройти несколько этапов и соответствовать

ряду критериев:

Четкое указание категории лиц, на которых рассчитан тест.
Внятный список характеристик, качеств, знаний, прочих параметров, которые призван определить тест.
Наличие внешней экспертизы на предмет полноты и обоснованности определяемых параметров.
Задания и вопросы, адекватные поставленной задаче.
Внешняя экспертиза составленных заданий и вопросов на предмет соответствия поставленной задаче.

Только после этого можно приступать к формированию окончательного варианта теста. Тогда есть все шансы поднять валидность психологического теста настолько, чтобы можно было полностью доверять полученным результатам.

Еще важнее при составлении теста не допустить грубых ошибок, сразу снижающих валидность теста. Какие же факторы нужно учесть, чтобы достичь максимальной валидности теста? Для начала следует помнить, что испытуемый – живой человек со своими взглядами, убеждениями и предрассудками, почти всегда склонный к конформному социально ожидаемому поведению и стремящийся получить групповое подкрепление своему мнению. И браться за составление теста, исходя из понимания данных факторов.

Топ-7 факторов, ухудшающих валидность психологического теста:

Стремление давать социально ожидаемые ответы и желание представить себя в лучшем свете, поэтому вопросы следует составлять так, чтобы социально ожидаемый ответ не был очевиден.
Конформность и стремление соглашаться, выбирая положительный ответ, поэтому вопросы следует формулировать и чередовать так, чтобы сплошные «да» не могли нивелировать результат исследования.
Преднамеренно отрицательный ответ, если это позволяет выделиться, получить награду, оказаться в центре внимания, поэтому вопросы не должны провоцировать протестные ответы.
Культурное смещение, когда одно и то же качество, термин, понятие могут иметь разное наполнение для разных культур и религий. Это важно иметь в виду, если тест планируется использовать в мультикультурной и полиэтничной среде.
Гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами.
Тестовое смещение, когда тест, пригодный для абсолютного большинства людей, может оказаться не пригодным для оценки людей, ведущих принципиально иной образ жизни (например, жителей глухих горных аулов или регионов Крайнего Севера).

Смещение в предпосылках, когда составитель теста экстраполирует свои взгляды и оценки на всех, кто будет проходить тест, и считает, что они будут давать ответы, исходя из тех же взглядов и оценок.

Многие факторы взаимосвязаны между собой. Например, гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами, может спровоцировать смещение в предпосылках, когда тест составляет мужчина и думает, что женщины будут воспринимать составленные им вопросы точно так же, как и мужчины.

И, наконец, еще один аспект, который хотелось бы обсудить в контексте темы валидности психологических тестов. Очень часто в специальной литературе можно увидеть, что такие понятия, как валидность и надежность психологического теста употребляются вместе. Что такое «надежность психологического теста» и как она связана с валидностью? Давайте разбираться.

Валидность и надежность психологического теста: как они соотносятся?

Для начала уточним, что такое надежность психологического теста. Под надежностью теста подразумевается стабильность и воспроизводимость результатов, полученных в результате применения теста в аналогичных обстоятельствах.

Например, если психологический тест применяется для групп, одинаковых по возрастному, гендерному и социальному составу, результат должен быть примерно одинаковым с отклонением в пределах статистической погрешности. Для групп, отличающихся по гендерным и возрастным признакам, культурно-образовательному уровню результаты могут отличаться, и это нормально.

Надежность психологического теста может считаться достаточно высокой, если измерения дают относительно стабильные результаты для одного и того же человека при повторном тестировании. Или же результат, отличный от первоначального с учетом корреляционного коэффициента, если наличествуют факторы, способные объективно повлиять на исследуемые характеристики.

Так, например, отслеживают прогресс в ходе психотерапевтических процедур, потому что психокоррекция – дело небыстрое, однако при правильно подобранной методике прогресс всегда заметен. Надежный тест позволяет с высокой степенью достоверности установить, насколько верно подобрано лечение и/или комплекс психотерапевтических процедур.

Правда, у повторной или ретестовой проверки имеются некоторые издержки. Например, у человека может меняться настроение или самочувствие, а под их влиянием в разное время вероятны разные ответы на одни и те же вопросы. Кроме того, испытуемый может запомнить «правильные» или социально ожидаемые ответы на те или иные вопросы теста, и при повторном тестировании стараться «подстроиться» под них и представить себя в лучшем свете. Поэтому некоторые отклонения, связанные собственно с процессом тестирования, всегда возможны.

Итак, как же соотносятся валидность и надежность психологического теста? В идеале, тест должен быть и надежным, и валидным. В реальности это не всегда так. Мы уже приводили самый простой шутливый пример с исследованием поведения бродячих собак. Тест не валидный, однако, при этом обладает высокой степенью воспроизводимости. Практически каждый пес, которому на голову крепят посторонний предмет, пытается от него избавиться. Так что если бы требовалось составить валидный тест на исследование реакции на посторонний предмет на голове животного, можно считать, что такой тест уже готов.

Так или иначе, валидность и надежность психологического теста – это связанные понятия. Валидность подразумевает однозначность получаемых результатов и достоверность измерения того или иного психологического свойства, качества, характеристики. Надежность – это, если можно так выразиться, «устойчивость процедуры относительно объекта исследования». Надежность, как мы уже разобрались, не всегда предполагает валидность, однако валидность предполагает надежность.

Это самое главное, что следует знать о соотношении надежности и валидности. Всем, кто хочет разобраться в теме более глубоко, можем порекомендовать статью Reliability & Validity in Psychology: Definitions & Differences («Надежность и валидность в психологии: определения и различия») [D. Cloud, 2021].

Также весьма интересен в этом плане материал Psychometric Properties of a Test: Reliability, Validity and Norming («Психометрические свойства теста: надежность, валидность и нормирование») [N. Muralidharan, 2018]. Мы же в который раз на страницах нашего блога напоминаем, что никакой результат даже самого надежного и полностью валидного теста не может быть приговором и тем более основанием для постановки диагноза.

Если вас что-то беспокоит в вашем душевном или физическом состоянии, лучшим вариантом будет консультация высококвалифицированного психолога. Хорошим шагом на пути к самосовершенствованию и улучшению собственных психологических характеристик станут наши программы «Самопознание», «Когнитивистика» и «Профайлинг», набор на которые продолжается в настоящее время.

Мы желаем вам спокойствия и душевного равновесия во всех ваших жизненных обстоятельствах. И просим ответить на вопрос по теме статьи:

Ключевые слова:1Когнитивистика, 1Профайлинг

Понятие «валидность тестов»

Краткая характеристика валидности тестов

Валидность результата теста является соответствием измеряемому признаку.

Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.

Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.

Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.

Характерные особенности эмпирической валидности

Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.

Определение прагматической валидизации

Считает, что валидность теста дает прогноз:

личностных свойств человека;
влияния на поведение индивида.

Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:

принципах квазиэксперимент;
выделение контрастных групп.

Замечание 1

Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:

с низким уровнем успеваемости;
с высоким уровнем успеваемости.

Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.

Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.

Данный ход в вылидной прагматике определяют ретроспективным.

Понятие проспективной, конструктивной и истинной валидности теста

Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.

Замечание 2

Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.

Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.

Истинная валидность тестирования определяется формулой:

где r_yy – соотношение с «истинным критерием», r_хх – эмпирическое соотношение с критерием, α_с – надежность критерия, найденная по формуле Кронбаха.

Решение задач от 1 дня / от 150 р. Курсовая работа от 5 дней / от 1800 р. Реферат от 1 дня / от 700 р.

Автор: Анна Коврова

Преподаватель факультета психологии кафедры общей психологии. Кандидат психологических наук

Валидность психолого-педагогических тестов | Рафаэль Вальдесе Соуза Бастос

Как убедиться, что ваши измерения психологических характеристик достоверны

Фото Celpax на Unsplash

В физике у нас часто есть инструмент, который существует физически и измеряет физические свойства. Например, инструмент, измеряющий длину, использует это свойство (то есть длину) для измерения длины другого объекта. Поэтому нет необходимости доказывать, что это свойство конгруэнтно такому же свойству измеряемого объекта.

Однако в некоторых случаях это не так однозначно. Например, если мы измеряем скорость с помощью эффекта Доплера, где инструментом является приближение/расстояние спектральных линий галактических огней. В этом случае у нас возникает проблема валидности инструмента, потому что нам нужно знать, правда ли, что расстояние между спектральными линиями связано со скоростью. Для этого надо доказать эмпирически. Валидность распространена в областях знаний, в которых используются косвенные меры. То же самое, что происходит с эффектом Доплера, очень распространено в психосоциальных науках (например, в психологии, образовании), особенно если мы используем концепцию латентной черты (например, счастья, беспокойства, влечения).

С психологической точки зрения мы можем думать о скрытой черте (или конструкции) как о характеристике, которая находится у нас в голове. Эти характеристики, такие как чья-то личность, не могут быть оценены прямыми средствами. Вместо этого мы измеряем поведение человека и делаем вывод, что оно исходит из одного и того же места (т. е. характеристики нашего мозга).

Конечно, у нас есть много способов измерить латентные черты, самый распространенный способ — анкеты/опросы, где люди отвечают, например, по шкале от 1 (полностью согласен) до 5 (полностью не согласен). Допустим, мы собираемся измерить самоэффективность на рабочем месте. Мы разрабатываем элементы на основе определения самоэффективности, а дальше что? Как мы можем узнать, что означают результаты наших тестов? Является ли самоэффективность единым фактором или ее можно разделить на несколько аспектов? Это роль поиска достоверности, чтобы правильно измерить то, что мы хотим.

1900–1950: гегемония достоверности содержания

В то время в моде были теории личности. Большинство теорий (таких как психоаналитическая, гештальт и феноменология) в целом имели мало эмпирических рассуждений. В этом контексте тесты личностных черт считались действительными, поскольку содержание тестов соответствовало содержанию черт, определенных теоретически.

1950–1970: Преобладание валидности критерия

Бихевиоризм оказал большое влияние на психологию и, конечно же, на психометрию. Тесты были сделаны как образец поведения, который должен был предсказать другое поведение или будущее поведение. Эти тесты были валидны, если они точно предсказывали поведение в будущем (или в другом случае), становясь новым путем валидности (называемым валидностью критерия). Неважно, почему тест предсказал поведение, лишь бы они его предсказывали, и этого было достаточно для его достоверности. Как мы можем себе представить, это был побег от размышлений о теории, чтобы сосредоточиться на статистике. Вместо создания теста для измерения латентного признака элементы были выбраны из набора элементов, которые выглядело как , они ссылались на то, что хотели измерить, используя, в основном, статистический анализ для решения своих проблем.

1970 — Сегодня: рост конструктной валидности

После статьи Кронбаха и Миля 1955 г. о тринитарной модели валидности (содержание, критерий и конструкт) произошло изменение в способе мышления о валидности. Теория вернулась в игру из-за таких факторов, как:

Желание разработать теорию личности и интеллекта на эмпирических основаниях, используя факторный анализ.
Исследования когнитивных процессов.
Исследования информационных процессов.
Неудовлетворенность результатами тестирования Использование в учебных и рабочих ситуациях.
Влияние теории отклика предметов.

Основное внимание в отношении валидности психологических инструментов уделялось конструктной валидности. Итак, содержание и валидность критерия — это просто аспекты валидности конструкции.

Классическое определение валидности: «когда тест измеряет то, что предполагается измерять, что тест измеряет и насколько хорошо он измеряет». Однако классическое определение делает тесты похожими на действительные или недействительные. Чтобы изменить эту дихотомическую парадигму, действующее определение валидности — это «степень, в которой теория и фактические данные подтверждают интерпретацию результатов тестов. Таким образом, для каждого контекста/цели использования тестов и для каждой предполагаемой интерпретации необходимо, чтобы результаты тестов имели доказательства достоверности». Теперь мы можем сказать, что каждая мера имеет свою собственную степень достоверности.

Доказательства, основанные на содержании

Собирать данные о представлении элементов теста, выясняя, являются ли они образцами предметной области, которую они хотят измерить. Набор пунктов оценивается по его объему с учетом оценки предлагаемого построения. Как правило, это делается на основе оценки специалистов, где они оценивают важность элементов с учетом их связи с оцениваемыми аспектами. Можно использовать некоторые статистические тесты, такие как процент согласия и коэффициент Каппа.

Пример: В представленной статье Bastos et al. (2021) создали меру самоощущения предрассудков и дискриминации для различных социальных групп. Авторы использовали следующую процедуру для поиска достоверности на основе содержания:

Обзор литературы о существующих мерах предрассудков и дискриминации.
Предубеждение о себе определяется как представление о том, что человек является жертвой негативного отношения к себе, основанного на его социальной группе; и самовоспринимаемая дискриминация как представление о том, что человек является жертвой негативного и неоправданного поведения по отношению к себе на основании своей социальной группы.
На основе этих определений и предыдущих измерений авторы разработали новые элементы для других социальных групп.
После создания предметов они отправляли их экспертам (то есть психологам и специалистам по психометрии), чтобы они могли их оценить.
На основании доли согласия авторы выбрали девять пунктов для последующего анализа.

Доказательства, основанные на процессах реагирования

Собирать данные о психических процессах, связанных с выполнением заданных задач. Обычно речь идет об индивидуальном процессе реакции, и исследователи спрашивают оцениваемого человека о когнитивном пути, использованном для достижения данного результата. В качестве примера мы можем видеть, что Noble et al. (2014) искали такую достоверность в своем исследовании. Они обнаружили, что у изучающих английский язык (ELL) были более низкие результаты в тестах с высокими ставками по сравнению с не изучающими английский язык. На основе интервью они обнаружили, что

Взаимодействие учащихся ELL со специфическими лингвистическими особенностями тестовых заданий часто приводило к альтернативным интерпретациям заданий, что приводило к неправильным ответам.

Доказательства на основе внутренней структуры

Сбор данных о структуре корреляции элементов, оценивающих один и тот же конструкт. Статистические тесты, которые часто используются, — это исследовательский факторный анализ (EFA), подтверждающий факторный анализ (CFA), исследовательское моделирование структурных уравнений.

В качестве примера можно использовать Selau et al. (2020) бумага. Авторы хотели измерить умственную отсталость детей в возрасте от 7 до 15 лет. Они исследовали внутреннюю структуру шкалы с помощью EFA и CFA следующей структуры:

Изображение автора.

Где элементы делятся на социальные, концептуальные и практические факторы, которые объясняются фактором более высокого порядка, называемым адаптивной функцией.

Данные, основанные на их связи с внешними переменными

Соберите данные о характере корреляции между результатами теста и другими переменными, измеряющими ту же или разные конструкции. Обычно для получения такой валидности исследователи используют корреляцию результатов теста с другими переменными. Этот тип валидности может быть:

Свидетельство способности инструмента прогнозировать оцениваемую конструкцию.
Когда у нас есть тесты, которые измеряют одно и то же конструируют , мы ожидаем, что они тесно связаны.
Когда у нас есть тесты, измеряющие связанных конструкции , мы ожидаем, что они умеренно связаны.
Когда у нас есть тесты, измеряющие различных конструкции , мы ожидаем, что они не связаны между собой.

Беймер и др. (2021) разработали шкалу восприятия стоимости студентами колледжей. Они соотнесли элементы шкалы с представлениями и ценностями учащихся. Они ожидали (и обнаружили), что «затраты» отрицательно коррелируют с «ожиданиями» и «стоимостью» (вы можете увидеть определение каждой переменной в их статье).

Доказательства, основанные на последствиях тестирования

Изучить преднамеренные или непреднамеренные социальные последствия использования теста, чтобы проверить, дает ли его использование желаемый эффект в зависимости от причины, по которой он был создан. Тесты имеют этот тип валидности, если они используются по той же причине, для которой они были созданы. Хотя вы не можете предсказать, что люди будут делать с разработанным вами инструментом, необходимо обсудить обязанности авторов инструмента.

В качестве примера мы можем подумать о показателях IQ. Его целью является измерение интеллекта людей. Однако мы можем видеть, что иногда в истории IQ использовался для оправдания расизма.

Мы видим, что существует много шагов, чтобы гарантировать, что наша мера психологических черт имеет степень достоверности. Следуя этим процедурам, мы с большей уверенностью можем делать выводы о связи между психологическими чертами и другими переменными. На практике люди часто ищут только три типа достоверности: содержание, внутреннюю структуру и отношения с другими переменными. Я думаю, что есть две причины, почему это происходит:

Сложность поиска достоверности на основе процесса реагирования и последствий тестирования. Чтобы найти достоверность на основе процесса ответа, исследователи должны вкладывать больше времени и денег, опрашивая достаточное количество участников. Искать достоверность, основанную на последствиях тестирования, сложно. От авторов требуется думать и предсказывать его использование в ближайшем и отдаленном будущем, а некоторые последствия могут быть (почти) невозможными предсказать.
Авторы не считают своей работой поиск этих двух типов достоверности, потому что они оба: а) не считают своей обязанностью то, что люди делают со своей работой; б) считают, что их мера великолепна и не имеет недостатков, что может быть правдой, но есть много вещей, которые нужно рассмотреть, прежде чем сделать такой вывод, и эта вещь гарантирует, что некоторые другие предубеждения не влияют на результаты.

В заключение я ожидаю, что теперь вы немного больше убеждены в том, что психологические и педагогические исследования имеют свою степень достоверности, основанную на эмпирических и теоретических основаниях. Я ожидаю, что за всем было легко следить, спасибо, что читали до сих пор.

Не стесняйтесь обращаться ко мне по телефону

Gmail: rafavsbastos@gmail. com
Веб-сайт для консультаций и партнерства: rafavsbastos.wixsite.com/website
LinkedIn: linkedin.com/in/rafael-valdece-sousa-bastos/

М. Н. Баптиста и А. Э. де Вильмор-Амарал, Compêndio de avaliação psicológica, 2019, Editora Vozes.

L. Pasquali, Psicometria: teoria dos testes na psicologia e na educação, 2017, Editora Vozes Limitada.

Р. В. С. Бастос, Ф. К. Новаес, Дж. К. Нативидаде, Шкала самовосприятия предрассудков и дискриминации: свидетельство достоверности и других психометрических свойств, 2021 г., Рукопись представлена на рецензирование.

Проверка достоверности — можно ли доверять измерению?

Валидность теста — это показатель того, сколько смысла можно придать набору результатов теста. В психологическом и педагогическом тестировании, где важность и точность тестов имеют первостепенное значение, валидность тестов имеет решающее значение.

Откройте для себя еще 21 статью по этой теме

Не пропустите эти статьи по теме:

Валидность и надежность
Типы валидности
Определение надежности
Валидность содержания
0030

Тестовая валидность включает ряд различных типов валидности, включая валидность критерия, валидность содержания и конструктивную валидность. Если исследовательский проект получает высокие баллы в этих областях, то общая валидность теста высока.

Критерий достоверности

Критерий достоверности определяет, соответствует ли тест определенному набору способностей.

Параллельная валидность измеряет тест по сравнению с эталонным тестом, а высокая корреляция указывает на то, что тест имеет сильную валидность критерия.
Прогностическая валидность — это мера того, насколько хорошо тест предсказывает способности, например, измерение того, приводит ли хороший средний балл в старшей школе к хорошим результатам в университете.

Валидность содержания

Валидность содержания определяет, насколько хорошо тест сравнивается с реальным миром. Например, школьный тест способностей должен отражать то, чему на самом деле учат в классе.

Конструктивная валидность

Конструктивная валидность является мерой того, насколько хорошо тест соответствует своим утверждениям. Тест, предназначенный для измерения депрессии, должен измерять только этот конкретный конструкт, а не тесно связанные идеалы, такие как тревога или стресс.

Традиция и проверка достоверности

Этот трехсторонний подход был стандартом в течение многих лет, но современные критики начинают сомневаться в правильности этого подхода.

Во многих случаях исследователи не подразделяют валидность теста и рассматривают ее как единую конструкцию, для подтверждения которой требуется накопление доказательств.

Мессик в 1975 году предположил, что доказательство валидности теста бесполезно, особенно когда невозможно доказать, что тест измеряет конкретную конструкцию. Конструкции настолько абстрактны, что их невозможно определить, поэтому доказательство валидности теста традиционными средствами в конечном счете ошибочно.

Мессик считал, что исследователь должен собрать достаточно доказательств для защиты своей работы, и предложил шесть аспектов, которые позволили бы это сделать. Он утверждал, что это свидетельство не может обосновать валидность теста, а только валидность теста в конкретной ситуации. Он заявил, что эта защита валидности теста должна быть непрерывным процессом и что любой тест необходимо постоянно проверять и подвергать сомнению.

Наконец, он был первым психометрическим исследователем, который предположил, что социальные и этические последствия теста являются неотъемлемой частью процесса, что представляет собой огромный сдвиг парадигмы по сравнению с общепринятой практикой. Учитывая, что образовательные тесты могут оказывать долгосрочное влияние на человека, это очень важный вывод, независимо от вашего взгляда на конкурирующие теории, лежащие в основе валидности тестов.

У этого нового подхода есть основания; В течение многих лет тесты IQ считались практически безошибочными.

Однако они использовались в ситуациях, сильно отличающихся от первоначального намерения, и они не являются хорошим показателем интеллекта, а только способности решать проблемы и логики.

Методы Мессика определенно предсказывают эти проблемы более удовлетворительно, чем традиционный подход.

Какую меру валидности теста следует использовать?

Ученые, как правило, очень сопротивляются изменениям, и огромное количество педагогов и социологов придерживаются традиционных методов.