Валидность психологических тестов, или Всегда ли можно доверять тестам?
Многие из нас в этой жизни хотя бы несколько раз проходили тесты по психологии. Кто-то это делал из любопытства, случайно наткнувшись в Интернете на «заманушку» вроде «узнайте свой тип личности». Кто-то серьезно подошел к вопросу профориентации и заранее решил объективно оценить свои склонности к выбранной профессии или же подумать о профессии, исходя из выявленных способностей.
А кому-то предложили пройти тестирование на приеме у психолога или психотерапевта, к которому пришлось обратиться, чтобы подправить здоровье или найти выход из затруднительной жизненной ситуации. В итоге отношение к тестам по психологии у всех разное, от глубокого интереса и желания проходить больше тестов, хороших и разных, до резкого неприятия и обобщений наподобие «это все ерунда».
Где же правда и есть ли какой-то толк от психологических тестов в реальности? Правда, как всегда, где-то посередине, а ответ на вопрос «Есть ли какой-то толк?» нужно искать в таком понятии, как «валидность психологических тестов».
Вы и сами всегда сумеете докопаться до истины, если пройдете нашу программу «Когнитивистика». А понимать людей на невербальном уровне безо всякого тестирования вы научитесь на программе «Профайлинг». Прохождение программ может занять пару месяцев, а пока мы предлагаем вам поговорить про надежность и валидность психологических тестов и их пригодность для определения различных психологических характеристик человека.
Валидность психологического теста: что это такое?
Для начала уточним, что означает понятие «валидность психологического теста», и попытаемся объяснить это простыми словами. Итак, валидностью психологического теста называется способность теста определять и измерять те показатели, для определения и измерения которых данный тест разработан.
Условно говоря, тестом на определение типов личности не стоит пытаться определить степень эмоционального выгорания человека. Аналогично тому, как тестами по английскому языку не стоит пытаться определить уровень знаний по математике, или тестами по математике за 11-й класс не нужно определять уровень знаний программы за 9 классов.
Помимо этого, есть еще один важный момент. Тесты по психологии имеют разное назначение. Мы начали с того, что разным людям приходится сталкиваться с психологическими тестами при разных обстоятельствах. Кем-то движет любопытство и желание узнать, условно говоря, «кто я такой». А кому-то жизненно важно докопаться до причин своего неблагополучного психологического состояния и найти пути выхода из него.
Понятно, что для удовлетворения любопытства и диагностики психологического состояния нужны не только разные тесты, но и разная направленность тестирования, разная степень детализации вопросов и, само собой, разная степень точности измерений. Психологический тест – это практически всегда измерение. Кто проходил, тот знает, что результат обычно представляют в баллах, очках, процентах. Проще говоря, в неких исчисляемых единицах.
Разумеется, при любом измерении возможны неточности или погрешности. Если вы просто любопытствуете, являетесь ли вы сангвиником или, скорее, флегматиком, разные тесты могут дать разный результат, а истина, как всегда, может оказаться где-то посередине. Это нормально, потому что людей, у которых были бы выражены исключительно черты сангвиника или флегматика и совсем не было бы качеств, присущих, к примеру, меланхоликам, не так много.
Да и сам факт, что ваше любопытство не будет удовлетворено в полной мере и заставит вас либо искать другие тесты, либо забросить затею с тестированием, вряд ли может иметь какие-то далеко идущие последствия для душевного здоровья.
А вот если психотерапевту приходится иметь дело с пограничным расстройством и нужно понять, требуется ли пациенту медикаментозное лечение или можно ограничиться психотерапевтическими сеансами, здесь точность измерений различных параметров при тестировании обретает принципиально важное значение.
Более глубоко вникнуть в тему и содержание понятия валидности психологических тестов позволяют узкоспециальные научные издания [И. Кондаков, 2007]. А также публикации в специализированных журналах по психологи [Х. Гессман, Е. Шеронов, 2013]. А мы продолжим тему и поговорим о типах валидности психологических тестов.
Типы валидности психологических тестов
Итак, мы уже разобрались, что валидность включает в себя множество разных аспектов. Теперь посмотрим, какие бывают типы валидности и что они означают.
Основные типы валидности:
- Практическая валидность – возможность достижения с помощью тестирования конкретной цели (поставить диагноз, сделать прогноз, выдать рекомендации).
- Прогностическая валидность как разновидность практической – возможность прогнозировать род той или иной деятельности в исполнении испытуемого.
- Совпадающая валидность как разновидность практической – диагностика наличия у человека некоего качества или характеристики в текущий момент времени.
- Оценочная валидность – корреляция между результатами теста и мнением экспертов.
- Валидность генерализации, она же репрезентативность – на какие категории людей или ситуаций можно распространить результаты исследования.
- Валидность критерия – складывается из понятия «совместная валидность» и «предиктивная валидность».
- Совместная валидность – существует ли связь между результатом теста и прочими проявлениями свойства.
- Предиктивная валидность – насколько итог теста позволяет прогнозировать развитие исследуемого качества.
- Относительная валидность – соответствие результатам аналогичных тестов, предназначенным для измерения аналогичных показателей.
- Эмпирическая валидность – соответствие выбранной методики тестирования опыту и знаниям человека.
- Дискриминантная валидность – разновидность эмпирической, подразумевающая статистическую независимость тестовых показателей, направленных на измерение несвязанных характеристик.
Если почему-либо все вышеизложенное кажется сложным, заметим, что это не совсем так. Мы уже начали говорить, к примеру, об эмпирической валидности, только более простыми словами. В частности, когда сказали, что нельзя измерять уровень знаний за 9 класс тестами за программу средней школы. Тест за программу 11 классов не будет соответствовать опыту и знаниям школьника, полученным за 9 лет учебы.
Можно объяснить простыми словами и понятие оценочной валидности или степени корреляции между показателями, полученными испытуемым, и оценками экспертов. Так, если во время ЕГЭ школьник получает баллы намного выше или намного ниже, чем текущие и итоговые оценки в школе, выставляемые учителями (экспертами), есть все основания заподозрить, что тест не является валидным.
Это совсем общий пример, потому что в наших реалиях в этой ситуации можно заподозрить еще и коррупционную составляющую, когда высокие оценки ставят за деньги и потихоньку «гнобят» тех, чьи родители не могут оплатить вожделенные баллы. Итоги ЕГЭ пока что купить сложнее, поэтому такие вещи как раз и всплывают во время независимого тестирования. Но принцип, думается, понятен.
Точно так можно объяснить попроще понятие дискриминантной валидности. Например, корреляция между результатами теста на скорость чтения и теста на уровень мотивации будет крайне низкой, потому что способность к скорочтению мало связана с мотивацией, разве что с частным случаем мотивации научиться быстро читать. А вот если путем тестирования выявить ценностные ориентиры человека, тогда до выявления факторов, усиливающих мотивацию человека к каким-либо действиям, останется один шаг.
Для тех, кому и эти объяснения кажутся скучными и запутанными, поясним суть понятия «валидность психологического теста» совсем простым примером. Когда-то давно, в эпоху до изобретения мини-камер видеонаблюдения и GPS-трекеров, была популярной шутка про эксперимент ученых, исследовавших жизнь бродячих собак. Ученые закрепили на голове у собак видеокамеру и выяснили, что 90% всего времени собаки пытаются избавиться от камеры у себя на голове, а 10% времени убегают от ученых, которые их ловят, чтобы поменять разрядившийся аккумулятор.
Разумеется, в естественных условиях «рабочий день» бродячей собаки выглядит совсем иначе, потому что в естественных условиях у нее нет на голове мешающей камеры. Поэтому релевантность полученных в результате такого эксперимента данных стремится к нулю, а дело тут в неправильно выбранном методе исследования. Это, еще раз уточним, шутка, однако она весьма наглядно демонстрирует важность правильного выбора метода оценки тех или иных характеристик. Иначе валидность психологического теста будет низкой.
Желающим узнать больше о разных типах валидности можем рекомендовать научное исследование Validity of psychological assessment: Validation of inferences from persons’ responses and performances («Валидность психологической оценки: проверка выводов, сделанных на основе ответов и действий людей») [S. Messick, 1995].
Заметим, что исследования типологии валидности психологических тестов ведутся уже много десятилетий. Одной из первых серьезных работ в данном направлении стала статья Convergent and discriminant validation by the multitrait-multimethod matrix («Конвергентная и дискриминантная проверка по матрице мультипризнаков-мультиметодов») [D. Campbell, D. Fiske, 1959].
Это для тех, кто хочет знать больше, а мы далее обсудим, какие факторы влияют на валидность психологического теста. Если речь идет про валидность и надежность психологического теста, контрольная работа, план научной статьи, содержание публикации всегда включают в себя пункт, касающийся факторов, влияющих на валидность теста.
Факторы, влияющие на валидность психологического теста
Как вы уже поняли, составление психологических тестов, способных измерить требуемую характеристику, задача не такая уж простая. Достаточно посмотреть «Справочное руководство по конструированию тестов» объемом почти в 300 страниц, чтобы увидеть, сколько важных факторов нужно учесть при этом [П. Клайн, 1994]. Если кратко, формирование теста с высокой валидностью должно пройти несколько этапов и соответствовать ряду критериев:
- Четкое указание категории лиц, на которых рассчитан тест.
- Внятный список характеристик, качеств, знаний, прочих параметров, которые призван определить тест.
- Наличие внешней экспертизы на предмет полноты и обоснованности определяемых параметров.
- Задания и вопросы, адекватные поставленной задаче.
- Внешняя экспертиза составленных заданий и вопросов на предмет соответствия поставленной задаче.
Только после этого можно приступать к формированию окончательного варианта теста. Тогда есть все шансы поднять валидность психологического теста настолько, чтобы можно было полностью доверять полученным результатам.
Еще важнее при составлении теста не допустить грубых ошибок, сразу снижающих валидность теста. Какие же факторы нужно учесть, чтобы достичь максимальной валидности теста? Для начала следует помнить, что испытуемый – живой человек со своими взглядами, убеждениями и предрассудками, почти всегда склонный к конформному социально ожидаемому поведению и стремящийся получить групповое подкрепление своему мнению. И браться за составление теста, исходя из понимания данных факторов.
Топ-7 факторов, ухудшающих валидность психологического теста:
- Стремление давать социально ожидаемые ответы и желание представить себя в лучшем свете, поэтому вопросы следует составлять так, чтобы социально ожидаемый ответ не был очевиден.
- Конформность и стремление соглашаться, выбирая положительный ответ, поэтому вопросы следует формулировать и чередовать так, чтобы сплошные «да» не могли нивелировать результат исследования.
- Преднамеренно отрицательный ответ, если это позволяет выделиться, получить награду, оказаться в центре внимания, поэтому вопросы не должны провоцировать протестные ответы.
- Культурное смещение, когда одно и то же качество, термин, понятие могут иметь разное наполнение для разных культур и религий. Это важно иметь в виду, если тест планируется использовать в мультикультурной и полиэтничной среде.
- Гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами.
- Тестовое смещение, когда тест, пригодный для абсолютного большинства людей, может оказаться не пригодным для оценки людей, ведущих принципиально иной образ жизни (например, жителей глухих горных аулов или регионов Крайнего Севера).
- Смещение в предпосылках, когда составитель теста экстраполирует свои взгляды и оценки на всех, кто будет проходить тест, и считает, что они будут давать ответы, исходя из тех же взглядов и оценок.
Многие факторы взаимосвязаны между собой. Например, гендерное смещение, когда одно и то же явление по-разному воспринимается и оценивается мужчинами и женщинами, может спровоцировать смещение в предпосылках, когда тест составляет мужчина и думает, что женщины будут воспринимать составленные им вопросы точно так же, как и мужчины.
И, наконец, еще один аспект, который хотелось бы обсудить в контексте темы валидности психологических тестов. Очень часто в специальной литературе можно увидеть, что такие понятия, как валидность и надежность психологического теста употребляются вместе. Что такое «надежность психологического теста» и как она связана с валидностью? Давайте разбираться.
Валидность и надежность психологического теста: как они соотносятся?
Для начала уточним, что такое надежность психологического теста. Под надежностью теста подразумевается стабильность и воспроизводимость результатов, полученных в результате применения теста в аналогичных обстоятельствах.
Например, если психологический тест применяется для групп, одинаковых по возрастному, гендерному и социальному составу, результат должен быть примерно одинаковым с отклонением в пределах статистической погрешности. Для групп, отличающихся по гендерным и возрастным признакам, культурно-образовательному уровню результаты могут отличаться, и это нормально.
Надежность психологического теста может считаться достаточно высокой, если измерения дают относительно стабильные результаты для одного и того же человека при повторном тестировании. Или же результат, отличный от первоначального с учетом корреляционного коэффициента, если наличествуют факторы, способные объективно повлиять на исследуемые характеристики.
Так, например, отслеживают прогресс в ходе психотерапевтических процедур, потому что психокоррекция – дело небыстрое, однако при правильно подобранной методике прогресс всегда заметен. Надежный тест позволяет с высокой степенью достоверности установить, насколько верно подобрано лечение и/или комплекс психотерапевтических процедур.
Правда, у повторной или ретестовой проверки имеются некоторые издержки. Например, у человека может меняться настроение или самочувствие, а под их влиянием в разное время вероятны разные ответы на одни и те же вопросы. Кроме того, испытуемый может запомнить «правильные» или социально ожидаемые ответы на те или иные вопросы теста, и при повторном тестировании стараться «подстроиться» под них и представить себя в лучшем свете. Поэтому некоторые отклонения, связанные собственно с процессом тестирования, всегда возможны.
Итак, как же соотносятся валидность и надежность психологического теста? В идеале, тест должен быть и надежным, и валидным. В реальности это не всегда так. Мы уже приводили самый простой шутливый пример с исследованием поведения бродячих собак. Тест не валидный, однако, при этом обладает высокой степенью воспроизводимости. Практически каждый пес, которому на голову крепят посторонний предмет, пытается от него избавиться. Так что если бы требовалось составить валидный тест на исследование реакции на посторонний предмет на голове животного, можно считать, что такой тест уже готов.
Так или иначе, валидность и надежность психологического теста – это связанные понятия. Валидность подразумевает однозначность получаемых результатов и достоверность измерения того или иного психологического свойства, качества, характеристики. Надежность – это, если можно так выразиться, «устойчивость процедуры относительно объекта исследования». Надежность, как мы уже разобрались, не всегда предполагает валидность, однако валидность предполагает надежность.
Это самое главное, что следует знать о соотношении надежности и валидности. Всем, кто хочет разобраться в теме более глубоко, можем порекомендовать статью Reliability & Validity in Psychology: Definitions & Differences («Надежность и валидность в психологии: определения и различия») [D. Cloud, 2021].
Также весьма интересен в этом плане материал Psychometric Properties of a Test: Reliability, Validity and Norming («Психометрические свойства теста: надежность, валидность и нормирование») [N. Muralidharan, 2018]. Мы же в который раз на страницах нашего блога напоминаем, что никакой результат даже самого надежного и полностью валидного теста не может быть приговором и тем более основанием для постановки диагноза.
Если вас что-то беспокоит в вашем душевном или физическом состоянии, лучшим вариантом будет консультация высококвалифицированного психолога. Хорошим шагом на пути к самосовершенствованию и улучшению собственных психологических характеристик станут наши программы «Самопознание», «Когнитивистика» и «Профайлинг», набор на которые продолжается в настоящее время.
Мы желаем вам спокойствия и душевного равновесия во всех ваших жизненных обстоятельствах. И просим ответить на вопрос по теме статьи:
Ключевые слова:1Когнитивистика, 1Профайлинг
Валидность теста
15.06.2020
Существует достаточно много разных способов доказательства валидности теста. О них и пойдет речь далее.
Тест называется валидным, если он измеряет то, для измерения чего предназначен.
Очевидная валидность — описывает представление о тесте, сложившееся у испытуемого. Тест должен восприниматься обследуемым как серьезный инструмент познания его личности, чем-то схожий с вызывающим уважение и в какой-то мере трепет медицинским диагностическим инструментарием. Очевидная валидность приобретает особое значение в современных условиях, когда представление о тестах в общественном сознании формируется многочисленными публикациями в популярных газетах и журналах того, что можно назвать квазитестами, с помощью которых читателю предлагается определить все, что угодно: от интеллекта до совместимости с будущим супругом.
Конкурентная валидность оценивается по корреляции разработанного теста с другими, валидность которых относительно измеряемого параметра установлена. П. Клайн отмечает, что данные о конкурентной валидности полезны тогда, когда есть неудовлетворительно работающие тесты для измерения некоторых переменных, а новые создаются для того, чтобы улучшить качество измерения. В самом деле, если уже существует эффективный тест, то для чего нужен такой же новый?
Прогностическая валидность устанавливается с помощью корреляции между показателями теста и некоторым критерием, характеризующим измеряемое свойство, но в более позднее время. Например, прогностическая валидность какого-либо теста интеллекта может быть показана корреляцией его показателей, полученных у испытуемого в возрасте 10 лет, с академической успеваемостью в период окончания средней школы. Л. Кронбах считает прогностическую валидность наиболее убедительным доказательством того, что тест измеряет именно то, для чего он был предназначен. Основная проблема, с которой сталкивается исследователь, пытающийся установить прогностическую валидность своего теста, состоит в выборе внешнего критерия. В особенной степени чаще всего это касается измерения личностных переменных, где подбор внешнего критерия — чрезвычайно сложная задача, решение которой требует немалой изобретательности. Несколько проще обстоит дело при определении внешнего критерия для когнитивных тестов, однако и в этом случае исследователю приходится «закрывать глаза» на многие проблемы. Так, академическая успеваемость традиционно используется в качестве внешнего критерия при валидизации тестов интеллекта, но в то же время хорошо известно, что успехи в обучении далеко не единственное свидетельство высокого интеллекта.
Инкрементная валидность имеет ограниченное значение и относится к случаю, когда один тест из батареи тестов может иметь низкую корреляцию с критерием, но не перекрываться другими тестами из этой батареи. В этом случае данный тест обладает инкрементной валидностью. Это может быть полезно при проведении профотбора с помощью психологических тестов.
Дифференциальная валидность может быть проиллюстрирована на примере тестов интересов. Тесты интересов обычно коррелируют с академической успеваемостью, но по-разному для разных дисциплин. Значение дифференциальной валидности, так же как и инкрементной, ограничено.
Содержательная валидность определяется через подтверждение того, что задания теста отражают все аспекты изучаемой области поведения. Обычно она определяется у тестов достижений (смысл измеряемого параметра полностью ясен!), которые, как уже указывалось, тестами собственно психологическими не являются. На практике для определения содержательной валидности подбираются эксперты, которые указывают, какая область (области) поведения наиболее важна, например, для музыкальных способностей, а затем, исходя из этого, генерируются задания теста, которые вновь оценивают эксперты.
Конструктная валидность теста демонстрируется полным, насколько это возможно, описанием переменной, для измерения которой предназначается тест. По сути дела, конструктная валидность включает в себя все подходы к определению валидности, которые были перечислены выше. Кронбах и Мил (Cronbach & Meehl, 1955), которые ввели в психодиагностику понятие конструктной валидности, пытались решить проблему отбора критериев при валидизации теста. Они подчеркивали, что во многих случаях ни один отдельно взятый критерий не может служить для валидизации отдельного теста. Можно считать, что решение вопроса о конструктной валидности теста представляет собой поиск ответа на два вопроса:
- существует ли реально некоторое свойство;
- надежно ли измеряет данный тест индивидуальные различия по этому свойству.
Вполне понятно, что с конструктной валидностью связана проблема объективности в интерпретации результатов по изучению конструктной валидности, однако эта проблема общепсихологическая и выходит за рамки валидности.
Из вышесказанного следует, что не существует какого-либо единичного показателя, с помощью которого устанавливается валидность психологического теста. В отличие от показателей надежности и дискриминативности, нельзя осуществить точные статистические расчеты, подтверждающие валидность методики. Тем не менее разработчик должен представить весомые доказательства в пользу валидности теста, что потребует от него психологических знаний и интуиции.
Ключевые слова: Тесты
Источник: Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил
Материалы по теме |
---|
Тестирование при приеме на работу Щекин Г.В., Организация и психология управления персоналом |
Определение надежности теста Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил |
Мотивация успеха и боязнь неудачи (Опросник А. А. Реана) Реан А.А., Психология изучения личности |
Стандартизация теста Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил |
Методология тестирования Добреньков В.И., Методы социологического исследования |
Проективные методики или «объективные тесты»? Бурлачук Л. Ф. Психодиагностика: Учебник для вузов. — СПб.: Питер, 2006. — 351 с: ил |
Классификация тестов в управлении персоналом Добреньков В.И., Методы социологического исследования |
Шкала в психологии. Виды шкал и их характеристика Экспериментальная психология: Курс лекций. Авторы-составители О.В. Боголюбова, Е.В. Дьяченко… |
Что такое валидность и ее определение, история, типы?
надежность_ и валидность CareerShodh
rongability_and_vality 2 от CareerShodh
Содержание
- 1 Значение валидности
- 2 Определение валидности
- 3 История валидности или развивающих 3.2 2-й этап развития действительности
- 3.3 3-й Текущий этап развития действительности
- 7. 1 1. Процедура 1. Содержание Валидность или описание Процедуры проверки
8 development Валидность содержания
- 8.1 1. Прогностическая валидность, связанная с свидетельством валидности —
- 8.2 2. Параллельное свидетельство валидности, связанное с валидностью
- 11.1 Внутренняя валидность
- 11.2 2. Внешняя валидность
Валидность относится к вопросу: « Измеряет ли тест то, что он должен измерять»?
Слово «действительный» происходит от латинского «validus», что означает сильный. Валидность – это точность теста или эксперимента.
- Концепция валидности, данная Келли ( 1927) и определяющая валидность как «тест действителен, если он измеряет то, что, по его утверждению, измеряет».
- Логически валидность есть свойство аргумента, основанного на факте: «истинность предпосылок гарантирует истинность вывода».
- Тестовая валидность относится к значению и полезности результатов теста.
- Валидность оценки – это степень, в которой она измеряет то, что она должна измерять.
- Более конкретно, валидность относится к степени приемлемости определенного вывода или интерпретации, основанной на тесте.
- Валидность теста означает, что измеряет тест и насколько хорошо он работает?
- Экс – Сознание.
- Актуальная концепция ?
- Аспекты концепции ?
«Валидность — это степень, в которой фактические данные и теория поддерживают интерпретацию результатов теста, связанную с использованием теста».
«Показатель валидности показывает степень, в которой тест измеряет то, что измеряется, по сравнению с принятым критерием» — Фриман
История валидности или развитие концепций валидности 1 st стадия развития валидности –- Первые тесты использовались для оценки того, чему научился человек. Сейчас конечно конец.
- Пример. Экзамены в конце семестра.
- Для теста достижений – сравнение его содержания с
- Домен содержимого, предназначенный для оценки.
- Все еще актуально/ применимо.
- Переход к предсказанию.
- Как люди поведут себя в данной ситуации — сейчас и в будущем?
- Здесь под валидностью теста понимается коэффициент корреляции между результатами теста и прямыми и независимыми измерениями этого критерия
- Полезно при отборе и трудоустройстве — образование, работа, лечение и т. д.
- – 2 основные тенденции
- Укрепить теоретическую ориентацию.
- Тесная связь между психологической теорией и проверкой посредством эмпирической и экспериментальной проверки гипотез
- Эти тенденции признали значение конструкции.
Конструкция –
- Широкая категория
- Получено из общего признака, присущего непосредственно наблюдаемому поведению.
- Теоретические объекты, непосредственно не наблюдаемые
Приводит к введению конструктной валидности как фундаментальной и всеобъемлющей валидности
Коэффициент валидности- Это отношение между тестом и критерием обычно выражается в виде корреляции.
- Этот коэффициент говорит о том, в какой степени тест действителен для утверждения критерия.
- Коэффициенты достоверности в диапазоне от 0,30 до 0,40 обычно считаются высокими.
- Коэффициент достоверности статистически значим или не значим не имеет значения.
- Вопросы, вызывающие озабоченность при интерпретации коэффициентов достоверности.
- Ищите изменения в причинах отношений.
- Логика проверки критерия предполагает, что причины взаимосвязи между тестом и критерием все еще будут существовать во время использования теста.
- Что означает критерий? Исследования валидности, связанные с критериями, вообще ничего не значат, если критерий не является валидным и надежным.
Типы валидности по Careershodh
Валидность тестаВалидность теста — это показатель того, насколько много смысла можно придать набору результатов теста.
Типы тестовой достоверностиСуществуют три типа доказательств:
(1) Достоверность конструкции -Конструкция, связанная0247 -Связанный с критерионом
(3) Достоверность содержания -Связанный с контентом
СОЕДИНЕНИЯ СОЗДАНИЯ (не чистый тип долидности) Лица.Фактическая достоверность — это просто видимость того, что мера имеет силу.
Элементы, утверждения или вопросы должны быть разумно связаны с предполагаемой целью теста.
Лицевая достоверность будет использоваться для тестов способностей и тестов достижений.
Например, любой школьный/колледжский тест будет иметь эту юридическую силу.
Например – Если шкала для измерения тревожности
Пункты, утверждения или вопросы для проверки достоверности теста на тревожность будут –
- «Мой желудок расстраивается, когда я думаю о сдаче анализов»
- «Мое сердце начинает бешено колотиться всякий раз, когда я думаю о результатах».
- Если они ответят «да» на оба вопроса, можем ли мы заключить, что человек встревожен?
- Нет! – Валидность требует доказательств для обоснования выводов.
- Лицевая валидность вовсе не является валидностью, потому что она не предлагает доказательств в поддержку выводов, сделанных на основе результатов тестов.
- Лицевая валидность — это когда тест измеряет определенный критерий; это не гарантирует, что тест действительно измеряет явления в этом факторе.
- Но очень важно быть честным лицом; для теста, который «выглядит» как действительный.
- Такая внешность может помочь мотивировать тестируемых, демонстрируя актуальность.
- Он оценивает, насколько мера представляет каждый отдельный элемент конструкции или указанной концепции.
- Это систематическая проверка содержимого теста для определения того, охватывает ли он репрезентативную выборку всех измерений/областей, подлежащих измерению.
- Эта процедура оценивания используется при разработке тестов для измерения того, насколько хорошо человек овладел навыком.
- Домены, разделы, типы и т. д. должны быть полностью описаны заранее.
- Содержание должно быть определено широко, чтобы включать основные цели — применение принципов, интерпретацию данных, фактическое знание и т. д.
- Валидность зависит от реакции человека на тест в рассматриваемой области поведения, а не от внешнего вида содержимого элемента.
- Выбор подходящих пунктов/утверждений/вопросов
- Систематическая проверка программ курсов, учебник
- Консультации профильных экспертов (МСП)
- Спецификация теста – области содержания, цели/процесс обучения, важные аспекты отдельных тем, количество пунктов
- Обсуждение проверки содержания должно быть в руководстве по тестированию.
- Эмпирическая процедура определения валидности содержимого должна охватывать общие баллы и баллы по элементам.
- Дополнительная процедура для установления достоверности содержания должна выполнять анализ типов ошибок.
- При установлении валидности содержания следует учитывать адекватность представления концептуальной области, для охвата которой предназначен тест.
- Традиционно доказательство валидности содержания вызывало наибольшую озабоченность при образовательном тестировании.
- Уникальная особенность достоверности содержания заключается в том, что она является логической, а не статистической. Как лицо достоверности.
- Для установления достоверности содержания требуется хорошая логика, интуитивные навыки и настойчивость.
Две новые концепции в развитии достоверности содержания-
1. Недопредставленность конструкцииНедопредставленность конструкции описывает неспособность зафиксировать важные компоненты конструкции.
Например, если тест математических знаний включает алгебру, но не геометрию, валидность теста будет поставлена под угрозу из-за недопредставленности конструкции.
2. Нерелевантное для конструкции отклонение- Нерелевантная для конструкции дисперсия возникает, когда на баллы влияют факторы, не относящиеся к конструкции.
- Например, на тест интеллекта может повлиять понимание прочитанного, тревога при тестировании или болезнь.
Применение проверки достоверности содержания –
- Проверка достоверности содержания может подходить для образовательного теста, теста достижений, отбора сотрудников и классификации оценки сотрудников.
- Content Validity не подходит для проверки способностей и личности.
Limitations of Content Validity –
For example, many students do poorly on tests because of anxiety or reading problems
- Criterion validity свидетельство говорит нам, насколько хорошо тест соответствует конкретному критерию.
- Критерий — это стандарт, с которым сравнивается тест.
- Например, с помощью теста можно предсказать, у каких помолвленных пар будет успешный брак, а какие разведутся.
Критерии будут -маритальный успех
Тип валидности критерия
1. ПРЕДИЦИАЛЬНА доказательство валидности критерия, известное как свидетельство прогностической валидности.SAT/GRE , включая его количественные и вербальные подтесты, является переменной-предиктором, а средний балл колледжа (GPA) является критерием.
Тесты на пригодность , которые принимают работодатели, компании являются еще одним примером прогностической достоверности.
Целью теста является прогнозирование вероятности успешного выполнения критерия, т. е. достижения высокого среднего балла в колледже.
2. Одновременное доказательство действительности, связанное с валидностьюПараллельная валидность имеет место, когда показатели критерия получены одновременно с результатами теста.
При сравнении меры с другой мерой того же типа они будут связаны.
Показывает, насколько точно результаты теста оценивают текущее состояние человека по данному критерию.
Параллельная валидность исходит из оценки одновременной связи между тестом и критерием, например, между тестом на неспособность к обучению и успеваемостью в школе.
Одновременное подтверждение достоверности применяется, когда тест и критерий могут быть измерены одновременно.
Например, в тесте на депрессию тест должен иметь параллельную валидность, если он измеряет текущие уровни депрессии, испытываемые человеком, прошедшим тест.
Применение параллельной валидности
Большинство психологических тестов используют эту валидность.
Параллельное действие в основном используется в промышленный сектор .
3. Конструктивная валидностьКонструктивная валидность определяет, насколько тест или эксперимент соответствует заявленным.
Тест, созданный для измерения депрессии, он должен измерять только этот конкретный конструкт, а не тесно связанные идеалы, такие как стресс или тревога.
Конструктивная валидность означает, что тест демонстрирует связь между оценками и предсказанием теоретического признака, понятия, атрибута и т. д.
К середине 1950-х исследователи пришли к выводу, что не существует четких критериев для большинства социальных и психологических характеристик, которые они хотели измерить.
Например, меры интеллекта, любви, любопытства или психического здоровья.
Все эти тесты должны иметь конструктную валидность.
Не было критерия интеллекта, потому что это гипотетическая конструкция .
Конструкция определяется как нечто, построенное умственный синтез.
Интеллект как конструкт не существует как отдельная вещь, которую мы можем потрогать или ощутить, поэтому его нельзя использовать в качестве объективного критерия.
Валидность конструкции может быть установлена с помощью ряда действий, в которых исследователь одновременно определяет некоторую конструкцию и разрабатывает инструменты для ее измерения.
- Т. Кэмпбелл и Фиске (1959) представили важный набор логических соображений для установления доказательств конструктной валидности. Они различали два типа доказательств, необходимых для осмысленного теста: конвергентные и дивергентные/дискриминантные. 1. Конвергентная валидность
- Мы показываем, что тест измеряет те же вещи, что и другие тесты, используемые для той же цели.
- Мы демонстрируем определенные взаимосвязи, которых можно ожидать, если тест действительно выполняет свою работу.
Внутренняя достоверность
- Валидность популяции — другие люди
- Историческая достоверность – с течением времени
- Экологическая валидность – степень применимости результатов исследования к реальным жизненным обстоятельствам за пределами исследовательских наборов
- Конструктивная валидность : Измеряет ли тест концепцию, для измерения которой он предназначен?
- Валидность содержания : Является ли тест полностью репрезентативным для того, что он призван измерить?
- Лицевая достоверность : Соответствует ли содержание теста его целям?
- Валидность критерия : Точно ли результаты измеряют конкретный результат, для измерения которого они предназначены?
- Конструктивная валидность
- Контентная валидность
- Лицевая валидность
- Критериальная валидность
- Часто задаваемые вопросы о типах валидности
- В чем сходство содержания и внешней достоверности?
Лицевая валидность и валидность содержания похожи в том, что они оба оценивают, насколько подходит содержание теста. Разница в том, что лицевая достоверность субъективна и оценивает содержание на поверхностном уровне.
Когда тест имеет сильную внешнюю валидность, любой согласится с тем, что вопросы теста кажутся измеряющими то, для чего они предназначены.
Например, глядя на тест по математике для 4-го класса, состоящий из задач, в которых учащиеся должны складывать и умножать, большинство людей согласятся, что он имеет сильную юридическую достоверность (т. е. он выглядит как тест по математике).
С другой стороны, достоверность содержания оценивает, насколько хорошо тест представляет все аспекты темы. Оценка валидности содержания более систематична и опирается на экспертную оценку. каждого вопроса, анализируя, охватывает ли каждый из них те аспекты, для которых был разработан тест.
Тест по математике для 4-го класса имел бы высокую достоверность содержания , если бы он охватывал все навыки, преподаваемые в этом классе. Эксперты (в данном случае учителя математики) должны будут оценить достоверность содержания, сравнив тест с целями обучения.
- Какие существуют два типа критерия валидности?
Валидность критерия оценивает, насколько хорошо тест измеряет результат, для измерения которого он был разработан. Исходом может быть, например, начало заболевания.
Валидность критерия состоит из двух подтипов в зависимости от времени получения двух показателей (критерия и вашего теста):
- Параллельная валидность — это стратегия проверки, при которой получаются баллы теста и критерия в то же самое время .
- Прогностическая валидность — это стратегия проверки, в которой переменные критерия измеряются после баллов теста.
- Почему конвергентную и дискриминантную валидность часто оценивают вместе?
Конвергентная валидность и Дискриминантная валидность — оба подтипа конструктной валидности. Вместе они помогают оценить, измеряет ли тест концепцию, для измерения которой он был разработан.
- Конвергентная валидность показывает, коррелирует ли тест, предназначенный для измерения конкретной конструкции, с другими тестами, оценивающими ту же или аналогичную конструкцию.
- Дискриминантная валидность показывает, действительно ли два теста, которые должны быть сильно связаны друг с другом, , а не , действительно не связаны. Этот тип валидности также называется расходящаяся действительность .
Вам необходимо оценить оба, чтобы продемонстрировать достоверность конструкции. Ни одного из них в отдельности недостаточно для установления валидности конструкции.
- Почему экологическая валидность не ставится в приоритет в исследованиях, проводимых в режиме проверки теории? org/Answer»>
- Кто должен оценивать лицевую валидность?
Часто лучше попросить нескольких людей проверить ваши измерения. Вы можете попросить экспертов, таких как другие исследователи, или неспециалистов, таких как потенциальные участники, оценить внешнюю достоверность тестов.
Когда мера хорошо коррелирует с другими тестами, которые, как предполагается, измеряют ту же конструкцию, получают конвергентные доказательства валидности.
В каждом случае баллы за тест связаны с баллами по какому-либо другому показателю.
Однако нет критерия для определения того, что мы пытаемся измерить.
Конвергентная валидность достигается одним из двух способов .-
Тесты на то, что конструкции не должны иметь никакой связи, на самом деле не имеют никакой связи.
Он показывает, что мера не включает лишних элементов и что тест измеряет что-то отличное от других тестов.
Экспериментальная валидностьВалидность дизайна экспериментальных исследований является центральной частью научного метода и предметом исследовательской этики. Без достоверного дизайна невозможно сделать достоверные научные выводы.
Типы экспериментальной достоверности
Внутренняя валидность — это мера, подтверждающая, что исследовательский план эксперимента тщательно следует принципу причины и следствия.
Индуктивная оценка степени, в которой можно сделать выводы о причинно-следственных связях (например, о причине и следствии), на основе используемых показателей, условий исследования и всего плана исследования.
Другими словами, существует причинно-следственная связь между независимой и зависимой переменной.
Внутреннюю валидность можно улучшить, регулируя внешние переменные, используя стандартизированные инструкции, уравновешивая и исключая характеристики спроса и эффекты следователя.
2. Внешняя валидность
Внешняя валидность связана с обобщением: в какой степени эффект в исследовании может быть обобщен на популяции, условия, переменные лечения и переменные измерения?
Внешняя валидность касается степени, в которой (внутренне значимые) результаты исследования могут считаться верными для других случаев, например, для разных людей, мест или времени.
Внешнюю валидность можно повысить, поставив эксперименты в более естественной обстановке и используя случайную выборку для выбора участников.
Внешняя валидность обычно делится на два различных типа:
Оба основных элемента при оценке прочности экспериментального дизайна.
Справочники по действительности и типам действительности
Анастаси , А. и Урбина, С. (1997). Психологическое тестирование (7-е изд.). Прентис Холл/Пирсон Образование.
https://www.simplypsychology.org/validity.html#ext
https://en.wikipedia.org/wiki/Validity_(statistics)
4 типа достоверности исследований
Опубликован в 6 сентября 2019 г. к Фиона Миддлтон. Отредактировано 30 ноября 2022 г.
Валидность говорит вам, насколько точно метод что-то измеряет. Если метод измеряет то, что заявлено для измерения, и результаты точно соответствуют реальным значениям, то его можно считать действительным. Существует четыре основных типа валидности:
В количественных исследованиях вы должны учитывать надежность и достоверность ваших методов и измерений.
Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов меры. Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которые касаются плана эксперимента и возможности обобщения результатов.
Содержание
Действительность конструкции
Конструктивная валидность оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для установления общей валидности метода.
Что такое конструкция?
Конструкт относится к понятию или характеристике, которые нельзя наблюдать напрямую, но которые можно измерить, наблюдая за другими связанными с ними индикаторами.
Конструкты могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими понятиями, применяемыми к организациям или социальным группам, таким как гендерное равенство, корпоративная социальная ответственность или свобода слова.
Пример
Не существует объективной наблюдаемой сущности под названием «депрессия», которую мы можем измерить напрямую. Но, основываясь на существующих психологических исследованиях и теориях, мы можем измерить депрессию на основе набора симптомов и индикаторов, таких как низкая уверенность в себе и низкий уровень энергии.
Что такое допустимость конструкции?
Валидность конструкции заключается в том, чтобы убедиться, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам нужно знать: действительно ли анкета измеряет конструкт депрессии? Или на самом деле он измеряет настроение респондента, его самооценку или какую-то другую конструкцию?
Чтобы достичь конструктивной достоверности, вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний. Анкета должна включать только соответствующие вопросы, которые измеряют известные показатели депрессии.
Все другие типы валидности, описанные ниже, можно рассматривать как формы доказательства конструктной валидности.
Действительность содержимого
Валидность содержания оценивает, является ли тест репрезентативным для всех аспектов конструкции.
Для получения достоверных результатов содержание теста, обследования или метода измерения должно охватывать все соответствующие части предмета, для измерения которого он предназначен. Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность ставится под угрозу, и исследование, вероятно, страдает от систематической ошибки, связанной с пропущенной переменной.
Пример
Учитель математики разрабатывает тест по алгебре в конце семестра для своего класса. Тест должен охватывать все формы алгебры, которые преподавались в классе. Если некоторые виды алгебры будут опущены, то результаты могут не быть точным показателем понимания учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты перестают быть действительным показателем знаний по алгебре.
Что может сделать корректура для вашей статьи?
Редакторы Scribbr не только исправляют грамматические и орфографические ошибки, но и улучшают ваше письмо, следя за тем, чтобы в вашей статье не было неясных формулировок, избыточных слов и неудобных формулировок.
См. пример редактирования
Действительность лица
Внешняя валидность показывает, насколько подходящим выглядит содержание теста на первый взгляд. Это похоже на содержательную валидность, но внешняя валидность — более неформальная и субъективная оценка.
Пример
Вы создаете опрос для измерения регулярности пищевых привычек людей. Вы просматриваете элементы опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах между ними в течение каждого дня недели. На первый взгляд опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую юридическую достоверность.
Поскольку внешняя достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности. Однако он может быть полезен на начальных этапах разработки метода.
Справедливость критерия
Валидность критерия оценивает, насколько хорошо тест может предсказать конкретный результат или насколько хорошо результаты вашего теста приближаются к результатам другого теста.
Что такое переменная критерия?
Критериальная переменная — это устоявшаяся и эффективная мера, которая широко считается достоверной, иногда называемая «золотым стандартом». Критериальные переменные может быть очень трудно найти.
Что такое достоверность критерия?
Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия. Если есть высокая корреляция, это дает хороший признак того, что ваш тест измеряет то, что он намеревается измерить.
Пример
Профессор университета создает новый тест для измерения навыков письма абитуриентов на английском языке. Чтобы оценить, насколько хорошо тест действительно измеряет навыки письма учащихся, она находит существующий тест, который считается достоверным измерением навыков письма на английском языке, и сравнивает результаты, когда одна и та же группа учащихся проходит оба теста. Если результаты очень похожи, новый тест имеет высокую достоверность критерия.
Часто задаваемые вопросы о типах действительности
Целью режима проверки теории является поиск доказательств для опровержения, уточнения или поддержки теории. Таким образом, возможность обобщения не является целью режима проверки теории.
В связи с этим приоритетом исследователей в режиме проверки теории является устранение альтернативных причин взаимосвязей между переменными. Другими словами, они отдают приоритет внутренней валидности внешней валидности, включая экологическую валидность.