Валидность тестов
Для того чтобы инструменты оценки считались соответствующими требованиям к психометрическим характеристикам, у них должны быть достаточные показатели надежности и валидности. В этой статье мы опишем валидность батарей наших тестов.
Валидность – это способность методики измерять именно то, для оценки чего она была создана. Чтобы не запутаться в терминах, возьмем в качестве аналогии стрельбу. Надежность методики можно сравнить с кучностью результатов, а валидность — с точностью попадания. Как и в случае с надежностью, оценка валидности теста не исчерпывается каким-либо одним способом. Существует несколько аспектов валидности и, соответственно, способов ее измерения: от субъективных до точных, математически обоснованных.
Конструктная валидность
Конструктная валидность — это ответ на вопрос, действительно ли наш тест измеряет именно то, что заявлено, и то, что мы от него ожидаем. Например, используя тест интеллекта, мы задаем себе вопрос: действительно ли этот тест меряет интеллект? Или, может быть, он измеряет эрудицию? А может быть, только один из аспектов интеллекта – способность к выполнению математических операций? Применимо к личностным опросникам этот вопрос звучит так: действительно ли мы измеряем именно те факторы, которые хотим измерить? Для ответа на этот вопрос прибегают к использованию некоторых процедур, позволяющих получить ответ об уровне конструктной валидности.
Наиболее часто используют независимо созданные тесты, которые измеряют те же характеристики, что и Ваш тест. Ваши респонденты заполняют два теста, после чего остается только посчитать корреляцию между показателями Вашего теста и контрольного.
Другой способ — это проведение тестирования в группе, которая заранее выделяется среди остальных по необходимому вам параметру. Например, бухгалтеры хорошо считают, у архитекторов хорошо развито абстрактное мышление и т.д. Если ваш тест покажет значимое различие между этой группой и остальными, значит, он действительно измеряет данную черту.
Еще один способ – это оценить выраженность измеряемого качества у определенной группы людей с помощью экспертной оценки, а потом дать оцениваемым людям заполнить ваш опросник. Если мнения экспертов совпали с результатами вашего теста, то вы можете утверждать о наличии у него высокой конструктной валидности.
Критериальная валидность
Это, пожалуй, самый важный показатель эффективности теста при его использовании в бизнес-среде. Измерение критериальной валидности позволяет ответить на вопрос, насколько результаты тестирования коррелируют с успешностью работы.
Заметим, что при использовании тестов низкие показатели критериальной валидности могут говорить как о низком качестве методик, так и о том, что измеряемые ими способности не связаны с успешностью работы. Для получения достоверной информации о показателях критериальной валидности проводится корреляционное исследование. В качестве объекта исследования могут быть выбраны сотрудники фирмы; в этом случае сравниваются результаты, которые они показали в тестах, и показатели эффективности их работы. Такой вид валидности называется конкурентной валидностью.
Конструктная валидность батареи GREEN «Интерпретация информации»
Для проверки конструктной (теоретической) валидности компанией ONTARGET было проведено исследование по сравнению результатов выполнения тестов батареи «Интерпретация информации» и тестов британской компании Psytech, адаптированных для русскоязычных респондентов. Исследование проводилось в 2013 году.
Таблица 1. Корреляции тестов батареи «Интерпретация информации» с тестами британской компании Psytech
Понятие «валидность тестов»
Краткая характеристика валидности тестов
Валидность результата теста является соответствием измеряемому признаку.
Валидность теста не применяется в статистических процедурах. Их (процедуры) можно использовать для доказательства, что разрабатываемая процедура психологических измерений имеет достаточную валидность. Они оценивают эмпирическую валидность.
Взаимосвязь между эмпирической и содержательной валидностью схожа с взаимосвязью статистической и экспериментальной гипотезами. Так как первые описывают причинно-следственные связи между фактом и явлением в эксперименте, а вторые – вероятную оценку результата, которая является базой для решения реальности. То содержательная валидность устанавливает связь между результатом теста и реальностью, а статистическая – содержит оценку валидизации эксперимента, которая считается инструментом для принятия решения.
Отсюда следует, что содержательная сторона валидизации отличается от понятия надежность, а эмпирическая сторона совпадает. Но сама по себе валидизация тестирования предполагает надежность психодиагностических методов. Высокая степень надежности не гарантия такой же валидизации. Но при этом снижение надежности тестирование ведет к снижению валидизации.
Характерные особенности эмпирической валидности
Она устанавливается внешним критерием, определяющий предметную область. Например, интеллектуальная шкала Д. Векслера WAIS, или тест Векслера включает в себя шесть заданий на вербальный интеллект, 5 – на невербальный, сенсомоторный интеллект. Задания называются субтестами, на базе результатов которых анализируют показатели интеллекта. Для оценивания шкалы вербального интеллекта используют уровень академической успеваемости, для невербальной – успешность канцелярской работы. Валидизация оценивается, с точки зрения соотношения между результатами тестирования и успеха в определенных видах деятельности. Такая валидность называется прагматической.
Определение прагматической валидизации
Считает, что валидность теста дает прогноз:
- личностных свойств человека;
- влияния на поведение индивида.
Она может не предполагать организацию соотношения. Оценивание валидизации тестирования основывается на:
- принципах квазиэксперимент;
- выделение контрастных групп.
Нужна помощь преподавателя?
Опиши задание — и наши эксперты тебе помогут!
Описать задание Замечание 1Разработка теста по оцениванию мотивации достижения школьников. Для этого есть все необходимые документы по успеваемости учеников. Класс делят на две группы:
- с низким уровнем успеваемости;
- с высоким уровнем успеваемости.
Самый грубый метод разделения – деление по медиане, надежный – исследования каждого ребенка и правильное соотнесение в ту или иную группу.
Например, для валидизации теста применяют только результаты успеваемости учеников, входящие в первый и четвертый квартили. В конечном итоге появляется квазиэкспериментальный план. Тогда значениями ковариаты будут результаты теста.
Данный ход в вылидной прагматике определяют ретроспективным.
Понятие проспективной, конструктивной и истинной валидности теста
Первый метод используют, когда только предполагается получить критерий валидности. Здесь испытуемые выбираются по принципу вероятностного прогноза проявления измеряемого признака в популяции. Это дает больше возможности оценить причинно-следственные связи между измеряемыми свойствами и формами поведения человека.
Замечание 2Конструктивная валидность используется, когда нет сомнений в валидизации тестирования.
Один из способов получения валидности является применение экспертных оценок. Их получает во время наблюдения за тестированием. Полученные результаты вносятся в таблицу, где в столбцах указывают оценки экспертов (k ), а в строках – оценки испытуемых (п). Главный фактор – согласованность полученных оценок, которую определяют при помощи критерия Кронбаха (α) или формулы Спирменаа-Брауна.
Истинная валидность тестирования определяется формулой:
где ryy – соотношение с «истинным критерием», rхх – эмпирическое соотношение с критерием, αс – надежность критерия, найденная по формуле Кронбаха.
Валидность психологических тестов. Виды валидности.
К основным психометрическим характеристикам тестов относятся, в первую очередь, валидность и надежность.
Валидность – это свойство теста измерять именно то, для чего он предназначен.
Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению. Достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.
Существуют разные типы и виды валидности:
Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?» Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы и показывает, в каком объеме, в какой мере знание чего-либо отражено в методике. Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя. Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами. В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм).
Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство. Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна. Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.
Источники плохой валидности:1. Плохая надежность теста2. Ответы на вопросы
= психологическая ориентация или предубеждения против данного ответа:2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.2.2.Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.).3. Смещение:1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.1.2 Смещение по половому признаку также может быть возможным.1.3 Тестовое смещение:1.3.1 Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни.Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные корректировки и доработки. Узнайте стоимость своей работы.
Поможем написать любую работу на аналогичную тему
Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Узнать стоимость4.1. Валидность : Разработка тестовых заданий для анализа знаний студентов Кондаков И.М., Романюк Э.И.,Сорокина О.Л., Шишлянникова Л.М. : Библиотека Инокентия Ахмерова онлайн
Валидность – это свойство теста измерять именно то, для чего он предназначен.
Например, мы можем определить что «знание математики» соответствует высоким баллам, полученным по математическим тестам. Но если все задания состоят из простых арифметических задач, то тест будет определять, насколько человек быстро считает. Таким образом, важно понимание того насколько рабочее определение измеряемой величины соответствует концептуальному определению.
В общем случае, достичь абсолютной валидности нельзя. Можно лишь пытаться максимально улучшить валидность в каждом конкретном случае, исходя из критериев, значимых для этого случая.
Существуют разные типы и виды валидности:
Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»
Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере знание чего-либо отражено в методике.
Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидизации (проверке теста на валидность) тестов оценки знаний школьников в качестве экспертов обычно выступают учителя.
Внешняя валидность означает, что впечатление, которое создается при знакомстве с сугубо внешней стороной тестирования, соответствует заявленному содержанию метода. Это наименее важный аспект валидности, так как требует дополнительной проверки валидности другими методами.
В некоторых случаях исследователи специально ухудшают внешнюю валидность, например, для измерения социально нежелательных характеристик (таких как расизм). В практическом плане, следует быть осторожным относительно тестов, которые должны были бы измерять одну величину, но кажется, что измеряют нечто другое. Например, знание латинских названий различных видов растений не говорит о том, что человек знает латынь.
Внутренняя валидность – это необходимое условие возможности интерпретации результатов теста, она спрашивает: «Не изменились ли условия эксперимента в данном случае?»
Факторы ухудшающие внутреннюю валидность:
История: некое событие произошло между первым и вторым измерением в дополнение к экспериментальным переменным.
Развитие: процесс внутри испытуемых, как функция от времени (не специфический к частным событиям), например, взросление, усиление чувства голода, усталость и т.д.
Тестирование: эффект первого тестирования влияет на баллы второго.
Инструменты: изменение в наблюдателях или способах получения баллов могут влиять на наблюдаемые величины.
Статистическая регрессия: в случае, если работа идет с группами, отобранными на основе экстремальных значений балов.
Выбор: смещение, возникающее в результате дифференцированного выбора респондентов в пары для сравнения.
Выбывание: дифференциальная потеря респондентов из сравниваемых групп.
Валидность генерализации (репрезентативность), задает вопрос о том, на кого мы можем распространить результаты эксперимента.
Факторы ухудшающие репрезентативную валидность:
Реагирующий или взаимодействующий эффект тестирования: значения первого теста могут возрасти.
Эффект взаимодействия смещения выбора и экспериментальных переменных.
Эффект экспериментальной подготовки, который будет препятствовать распространению результата на людей, которые тестируются в не-экспериментальном окружении.
Эффект многократной обработки, когда эффект предыдущих тестов не стирается.
Валидность критерия состоит из двух частей:
· Совместная валидность: «Есть ли какая-либо связь между мерой и другими проявлениями свойства, которого этот тест должен измерить?»
· Предиктивная валидность: «Предсказывает ли тест уровень развития данной конкретной способности?»
Относительная валидность: важно знать насколько результаты данного теста соответствуют результатам аналогичных тестов, которые измеряют то же или близкое свойство.
Дискриминантная валидность: важно показать, что мера не измерят то, что не предполагалось измерять, то есть дискриминантна.
Например, можно говорить о дискриминантной валидности, если есть низкая корреляция между результатами теста на скорость чтения и теста на определяющие факторы мотивации, так как способность к чтению не имеет отношения к мотивации.
Источники плохой валидности:
1. Плохая надежность теста
2. Ответы на вопросы = психологическая ориентация или предубеждения против данного ответа:
2.1. Уступчивость: тенденция соглашаться, то есть говорить «Да». Следует составлять вопросы.
2.2. Социальная желательность: тенденция показывать себя в лучшем свете. Следует составлять тесты, где социальная желательность не очень заметна.
2.3. Ухудшение: намеренно говорить «Нет», если это принесет какую-нибудь «награду» (например, внимание, компенсацию, социальную помощь и т.д.)
3. Смещение:
1.1 Культурное смещение: имеет ли данное свойство одинаковое значение в разных культурах? Как различные вопросы интерпретируются людьми разных культур? Содержание теста (внешняя валидность) может быть разной для людей разных культур.
1.2 Смещение по половому признаку также может быть возможным.
1.3 Тестовое смещение:
1.3.1 Смещение в измерениях возникает, если тест делает систематическую ошибку в измерении данного свойства. Например, считается, что многие тесты IQ хороши для основной средней массы населения, но не для представителей национальных меньшинств, ведущих отличный образ жизни. Если тест проводится методом интервью, то возникает смещение в направлении хорошо выглядящих экзаменуемых.
1.3.2 Смещение в предпосылках возникает, когда тест делает систематическую ошибку в предсказании некоторого значения или критерия. Также тест может быть хорош только для некоторых групп людей. Например, тест, составленный мужчинами, может не очень хорошо оценивать значение данной характеристики у женщин.
Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности, так и практической.
Валидизация
Несколько простых способов улучшить валидность теста:
1. Необходимо четко определить, что вы собираетесь измерять. Напишите, какие результаты вы ожидаете получить. Если вы не можете описать это, то вы не можете и измерить это.
2. Протестируйте тест при помощи классической или современной теории тестирования и отбросьте или измените выбивающиеся вопросы (см. приложение пункт 7.1).
3. Сравните результаты теста со всеми доступными вам данными.
Методы валидизации:
Есть три основных метода валидизации теста. Ни одному из них нельзя отдать предпочтение, так как выбор, какой метод использовать, определяется конкретной задачей.
Валидизация, основанная на критерии:
Метод требует демонстрации корреляции или другой статистической связи между тестовым баллом и уровнем выполнения «работы» (например, решением математических задач). Другими словами, люди с высоким тестовым баллом имеют тенденцию лучше выполнять работу, чем люди с более низким тестовым баллом. Если критерий для сравнения нам известен во время проведения теста, то это называется совместной валидностью, а если значения критерия проявляются в более позднее время, то это предиктивная валидность. Например, соответствие последующей успеваемости студента с баллом вступительных экзаменов – это предиктивная валидность, а согласованность с этим баллом результатов школьных выпускных экзаменов – совместная валидность.
Валидность, основанная на критерии измеряется коэффициентом валидности. Это число между 0 и 1, которое степень близости «r» между тестом и мерой выполнения «работы» (критерием). Чем больше значение коэффициента, тем более вы можете в предсказаниях, основанных на тестовом балле. Тем ни менее, один тест никогда не может полностью предсказать степень исполнения «работы», так как слишком много различных факторов влияют на успех в «работе». Поэтому коэффициент валидности, в отличии от коэффициентов надежности, редко превышает r = 0.40.
Интерпретация значений коэффициента валидности |
|
Значение коэффициента |
Интерпретация |
Выше 0.35 |
Очень хорошая |
0.21-0.35 |
Можно использовать |
0.11-0.20 |
Можно использовать в зависимости от обстоятельств |
ниже 0.11 |
Не следует использовать |
Валидность от 0.21 до 0.35 наиболее типична для одиночного теста. Валидность для системы тестов, вероятно, будет больше, так как вы используете несколько инструментов для измерения различных аспектов успешного выполнения «работы».
Дополнительно, эмпирические доводы в поддержку валидности, основанной на критерии должны включать сравнение значений изучаемого теста и значений внешних критериев, например, школьных оценок, значений других тестов или оценок учителей.
Также, для самопроверки полезно задать следующие вопросы:
— Какие критерии были использованы для оценки валидности? По какой причине были выбраны именно эти способы измерения?
— Является ли распределение баллов по критерию адекватным?
— Какова точность теста? Насколько точны предсказания для экзаменуемых с баллами, близкими к критическим?
Валидизация, основанная на содержании:
Метод требует демонстрации того, что вопросы тест измеряют величины, существенные для определения значения данного признака. Например, тест на скорость печатания на клавиатуре будет иметь высокую валидность для подбора людей на должность секретаря, так как, предполагается, что эта работа требует частого использования клавиатуры. Тем ни менее, если работа требует набора текста только изредка, тот же самый тест будет иметь маленькую валидность содержания. В общем случае, валидность основанная на содержании не применяется для измерения способности к обучению и общих способностей решения проблем.
Валидность, основанная на содержании, часто оценивается проверкой плана и процедур, использованных при составлении теста:
— Соответствует ли процедура рациональному методу, который гарантирует соответствующее содержание?
— Гарантирует ли процедура то, что данная подборка вопросов будет проявлять соответствующие характеристики?
— Насколько близко содержание к тому содержанию, которое вы собирались измерить?
Валидизация, основанная на свойстве:
Метод требует демонстрации того, что тест измеряет свойство или характеристику, для которой он и предназначен. Этот метод часто применяется для тестов, которые меряют абстрактные величины. Например, валидность, основанная на свойстве, может быть использована, когда школа оценивает «хорошесть» учеников. В данном случае, «хорошесть» — не некая наблюдаемая величина, а концепция, созданная, чтобы объяснить возможное поведение учеников в будущем. Чтобы продемонстрировать, что тест имеет хорошую валидность, основанную на свойстве, школе будет необходимо показать, что, во-первых, тест действительно измеряет это свойство и, во-вторых, это свойство связано с хорошей успеваемостью учеников.
Валидность, основанная на свойстве, часто используется для измерения психологических черт личности, например, интеллигентность, самосознание или креативность. Есть несколько способов проверить валидность, основанную на свойстве. Например, можно продемонстрировать, что вопросы в тесте связаны и, таким образом, измеряют одну величину. Внутриклассовая корреляция и факторный анализ часто используются для того, чтобы продемонстрировать связь между вопросами. Другой подход – это продемонстрировать, что значения теста ведут себя так же, как вы ожидаете должны вести себя значения свойства. Например, предполагается, что мера креативности должна показывать большую корреляцию с артистическими способностями, чем со школьными успехами.
Также, для самопроверки полезно задать следующие вопросы:
— Действительно ли концептуальная основа для каждого тестируемого свойства хорошо обоснована и ясна?
— Почему мы предполагаем, что свойство связано с целью теста?
Анализ заданий.
В качестве дополнительной меры для улучшения валидности теста можно провести анализ заданий. По определению, наличие в тесте задания, провоцирующего социально одобряемые реакции, должно приводить к тому, что распределение ответов на него будет смещено, то есть не будет соответствовать нормальному распределению. Таким образом, устранением из теста заданий с распределением ответов, отличным от нормального, мы избавимся от действия установки на социально одобряемые ответы. Более того, если большинство заданий дают нормальное распределение ответов и они нагружены некоторым общим фактором, тогда установка на социально одобряемые ответы не может оказывать сильное влияние и на другие задания, относящиеся к тому же фактору. Подобные аргументы приводятся при анализе заданий с использованием бисериальной корреляции результатов выполнения каждого задания с общим показателем по тесту. Таким образом, при адекватном анализе те задания, результат выполнения которых подвержен влиянию установки на социально одобряемые ответы, должны быть устранены, если только, по нелепой случайности, все задания, выбранные нами для теста, не оказались измеряющими эту черту.
Занятие. Определение валидности теста Существует множество различных типов валидности, основными из которых являются: валидность по содержанию, а также критериальная, конкурентная, конструктная, инкрементная и дифференциальная валидности. Эти типы валидности подробно рассмотрены в учебном пособии [38]. Настоящее занятие посвящено определению критериальной валидности теста.
Порядок работы
Приложение к занятию. Алгоритм расчёта коэффициента ранговой корреляции Спирмена
5. При наличии одинаковых рангов рассчитать поправки: Критические значения для объёма выборки п = 27 равны 0,38 (р = 0,05) и 0,48 (р = 0,01). Источник: Леонова Е. В. Эмпирические методы психологического исследования: Учебное пособие. – М.: НИЯУ МИФИ, 2014. – 324 с. |
Надежность и валидность: качественный план UX-исследования
Методы оценки надежности
Есть три метода, определяющие надежность результатов исследований. Это ретестовая надежность (устойчивость результатов теста), надежность параллельных форм и межэкспертная надежность. Посмотрим, какой из этих методов оценки надежности лучше всего подходит для исследования UX.
Ретестовая надежность
При использовании метода ретестовой надежности одно и то же исследование повторяется на одном и том же наборе участников и на одном и том же наборе методик в два разных промежутка времени. Предположение, лежащее в основе этого метода, заключается в том, что значительных различий в ответах выявлено не будет. Коэффициент надежности в этом случае измеряется корреляцией между баллами, полученными одним и тем же участником при двух последовательных предъявлениях одной и той же методики. Интервал между двумя тестами имеет критическое значение: чем короче временной промежуток, тем выше значение корреляции и наоборот. Для того чтобы тест был оценен как надежный, баллы, полученные при первом предъявлении, должны быть более или менее равны баллам, полученным при втором предъявлении. Коэффициент надежности считается значимым если он больше или равен 0,7 по шкале от 0 до 1.
Этот оценочный коэффициент надежности лучше всего подходит, если в качестве исследовательских методик используются опросники или анкеты. На первом этапе исследования мы формируем группу испытуемых и потом отправляем им опросник. По прошествии определенного промежутка времени на следующем этапе исследования мы посылаем тот же опросник той же группе людей. На завершающей фазе исследования мы сравниваем результаты двух тестов для подтверждения или опровержения наших гипотез.
Несмотря на простоту самого метода, он обладает несколькими значительными ограничениями. Одним из ограничений является эффект запоминания. Чаще всего это ограничение возникает, когда этапы предъявления методик предоставляются один за другим с небольшим временным промежутком. В таких случаях участники исследования могут запоминать свои ответы, в результате чего может возникать ложный коэффициент надежности. Другим ограничением данного метода является то, что участники могут выбывать из исследования по тем или иным причинам и не иметь возможности принять участие во втором предъявлении. Наконец, поскольку природа исследования UX заключается в измерении отношения и чувств людей, ответы действительно могут со временем меняться. Это приведет к низкому коэффициенту надежности, но при этом, по сути, не будет указывать на ненадежные результаты.
Надежность параллельных форм
Метод надежности параллельных форм обеспечивает одну из самых точных оценок надежности в UX исследованиях. Этот метод также известен как надежность эквивалентных форм. Этот метод сравнивает результаты двух эквивалентных форм теста, которые измеряют один и тот же параметр исследуемого объекта. Этот метод оценки надежности лучше всего подходит, когда создается длинный список вопросов, а затем он разделяется на два сходных набора. Например, мы заранее подготавливаем два набора вопросов по теме контекстных запросов и задаем их одной и той же выборке людей в течение двух сессий. После завершения исследования мы сравниваем данные, полученные в каждой сессии.
Как правило, оба теста проводятся на одной и той же группе участников в один и тот же день. В таких случаях единственными источниками вариаций коэффициента надежности являются либо случайные ошибки, либо разница между формами теста. В случаях, когда тесты проводятся в разные дни, при анализе надежности также учитываются ошибки, связанные с временным параметром.
Как и при использовании метода ретестовой надежности, мы тестируем одних и тех же испытуемых дважды. И недостатки этих методов сходны: в некоторых случаях очень сложно получить доступ к одним и тем же испытуемым дважды. Так же это может быть трудно организовать, если у Вас сравнительно небольшой бюджет на исследование. Иногда проведение такого метода оценки надежности может быть затруднено всвязи с жесткими и узкими временными рамкам, которых зачастую требует данный подход.
Межэкспертная надежность
Межэкспертная надежность — это метод оценки надежности, используемый для оценки степени согласия нескольких наблюдателей. Это связано с тем, что наблюдатели редко идентично воспринимают и интерпретируют поведение испытуемых, поэтому невозможно полагаться на экспертное мнение только одного из них. Данный метод надежности идеально подходит для исследований, где применяется наблюдение или эксперимент. Исследователи могут расходиться во мнении относительно того, насколько хорошо определенные ответы демонстрируют естественное поведение испытуемого, слабых мест исследования и возможностей для улучшения. Чаще всего проблема разрозненной оценки хорошо нивелируется путем внедрения системы оценок и обучением группы наблюдателей их использовать. Таким образом, все наблюдатели, ответственные за выставление баллов, используют объективный, взаимно согласованный набор оценок.
В зависимости от используемого метода, в план исследования каждого проекта должен быть включен, по крайней мере, один из вышеперечисленных методов оценки надежности.
Методы обеспечения валидности
Валидность также является важным аспектом в исследованиях, поскольку она помогает установить достоверность и практическую пользу наших результатов. Для определения валидности метода исследования его необходимо сравнить с какой-то идеальной независимой мерой или критерием. Коэффициент корреляции, вычисленный между методом исследования и идеальным критерием, известен как коэффициент валидности (который, как и другие коэффициенты корреляции, находится в диапазоне от 0 до 1). Коэффициенты корреляции могут быть измерены только в том случае, если результаты наших исследований представлены в цифрах, а не в словах или концепциях. Но вот некоторые методы оценки валидности, которые мы можем использовать без вычисления коэффициентов.
Очевидная валидность
Очевидная валидность означает, что метод исследования был создан, опираясь на внешние характеристики объекта исследования. Каждый вопрос в исследовании тщательно изучается и модифицируется до тех пор, пока исследователь не убедится, что это точная мера оценки нужного параметра. Оценка очевидной валидности основана на субъективном восприятии исследователя.
Содержательная валидность
Содержательная валидность — это нестатистический тип валидности, при котором содержание исследовательского плана оценивается на наличие оценки всех признаков изучаемого объекта. Когда вопросы, включенные в план исследования, охватывают весь необходимый спектр возможных параметров объекта, исследование может быть заявлено как имеющее содержательную валидность.
Например, если исследователь хочет разработать план для определения потока задач приложения, он должен определить все элементы, присутствующие при запуске и дальнейшем использовании приложения. К этим элементам могут относиться все настройки и конфигурации, скорость запуска, приветственный экран, понятный и удобный интерфейс, опции для восстановления приложения до состояния по умолчанию, опции для сохранения текущего состояния приложения и его закрытия. Затем исследователь должен создать тестовый сценарий или руководство по использованию, где подробно изложены все шаги.
Конструктная валидность
Конструктная валидность отражает насколько хорошо тест измеряет те параметры, для которых он был разработан. В гуманитарных науках это может включать в себя оценку субъективных параметров, например, таких как эмоциональная зрелость, готовность к тестированию или способность к построению удовлетворительных взаимоотношений. К счастью для нас, в нашей сфере мы можем использовать более простые параметры, такие как время на выполнение задания или количество кликов. Если наша тестовая гипотеза утверждает, что увеличение времени на выполнение задачи приводит к снижению удовлетворенности от взаимодействия с нашим приложением, то мы можем зафиксировать объективный параметр — время, потраченное на выполнение задания. Мы можем сравнивать показатели времени, полученные в разных условиях и так же можем их сравнивать с выявленными нормами в популяции. Время выполнения задачи — это объективный параметр, с помощью которого можно измерить валидность нашего теста.
Лучшие практики для создания надежного плана исследований
Оценка надежности и валидности является важным этапом в каждом исследовательском проекте. Более того, идеальную надежность и валидность практически невозможно достичь. Тем не менее, мы можем обеспечить максимальную из возможных надежность и валидность нашего исследовательского плана, придерживаясь следующих правил:
Необходимо следить за тем, чтобы цели и задачи исследования были четко определены и реализованы на практике.
Необходимо подобрать наиболее подходящий для наших целей и задач метод исследования.
Необходимо предоставить цели и задачи исследования на оценку стороннему независимому эксперту в исследуемой области.
Необходимо сравнить полученные данные с другими опубликованными в литературе результатами.
Необходимо свести к минимуму ограничения, которые могут поставить под сомнение надежность и валидность наших исследований, например, использовать рандомизацию выборки и исключить конфликт интересов у исследователя.
Исследования с высокой надежностью и валидностью, основанные на статистически значимых результатах, являются одним из ключевых элементов для привлечения к области UX-исследований внимание пока что скептически настроенной общественности. А это, в свою очередь, приведет в область финансирование дальнейших исследований и, как следствие, переход на качественно другой уровень и исследуемых объектов, и конечного практического результата.
Источник:
User Experience Magazine: Reliability and Validity: Ensuring a Foolproof UX Research Plan
Ответы на вопрос «24. Валидность психологического теста, ее сущность и …»
Как отмечает А. Анастази [1], валидность теста это понятие, которое указывает на то, что измеряет тест и насколько хорошоон это делает. Однако проблемы валидизации психологических тестов хотя и являются центральными для психометрики, но, до сих пор решенными не до конца. Решение этой проблемы зависит не от статистического аппарата, а от уровня развития теоретического аппарата дифференциальной психологии. Валидность является комплексной характеристикой, которая включает в себя не только сведения о том, для чего она создана, но и какова ее действенность, эффективность [15, 18].
Валидность и надежность. Валидность (или обоснованность) всякой процедуры измерения состоит в однозначности (устойчивости) получаемых результатов относительно измеряемых свойств объектов, т. е. относительно предмета измерения. Отличие понятия валидности от надежности измерения удобно раскрывать с помощью различения «объекта» и «предмета» измерения.
Надежность — это устойчивость процедуры относительно объектов (испытуемых). Надежность не обязательно предполагает валидность. В психологии довольно часто возникает такая ситуация, когда исследователь вначале предлагает определенную процедуру измерения, показывает ее надежность — способность устойчиво различать объекты, но вопрос о валидности остается открытым.
Устойчивость теста относительно объектов (испытуемых) является необходимым, но не достаточным условием его устойчивости относительно измеряемых атрибутов (свойств) объектов. Надежность является необходимым, но не достаточным условием валидности. Отсюда понятно основное соотношение психометрики:
валидность < надежность
Это означает, что валидность теста не может превышать надежность теста. Данное соотношение, однако, неверно трактовать как «чисто» математическое, как указание на прямо пропорциональную связь валидности и надежности. Повышение надежности отнюдь не обязательно приводит к повышению валидности. По А. Анастази [1], валидность определяется репрезентативностью теста относительно измеряемой области поведения. Если эта область поведения складывается из разнообразных феноменов, то содержательная валидность теста автоматически требует представленности в нем моделей всех этих разнообразных феноменов.
Например, возьмем глобальное понятие «речевая способность» (этому психолингвистическому термину в традиционной тестологии соответствует «вербальный интеллект»). Сюда относятся такие относительно независимые друг от друга навыки, как навыки письма и чтения. Если заботиться о содержательной валидности соответствующего теста, то нужно ввести в него группы заданий на проверку этих довольно разных по своему операциональному составу компонентов вербального интеллекта.
В результате введения разнородных пунктов и субшкал (субтестов) мы обязательно сокращаем внутреннюю согласованность, одномоментную надежность теста, но зато добиваемся повышения содержательной валидности.
Следовательно, для расширения области применения теста психодиагност должен избегать излишнего повышения внутренней согласованности. Одновременно с этим снижением внутренних корреляций между различными пунктами теста (как это уже упоминалось ранее) обязательно исчезает отрицательный эксцесс на кривой распределения тестовых баллов, и она все более приближается по форме к нормальной кривой.
Надежность и достоверность измерения — Методы исследования в психологии — 2-е канадское издание
- Определите надежность, включая различные типы и способы их оценки.
- Определите срок действия, включая различные типы и способы их оценки.
- Опишите виды доказательств, которые могут иметь отношение к оценке надежности и действительности той или иной меры.
Опять же, измерение включает в себя присвоение баллов людям, чтобы они отражали некоторые характеристики людей.Но как исследователи узнают, что оценки на самом деле представляют характеристику, особенно если это такие конструкты, как интеллект, самооценка, депрессия или объем рабочей памяти? Ответ заключается в том, что они проводят исследование, используя эту меру, чтобы подтвердить, что оценки имеют смысл, исходя из их понимания измеряемой конструкции. Это очень важный момент. Психологи не просто предполагают , что их меры работают. Вместо этого они собирают данные, чтобы продемонстрировать , что они работают.Если их исследование не демонстрирует, что мера работает, они прекращают ее использовать.
В качестве неформального примера представьте, что вы сидите на диете в течение месяца. Ваша одежда кажется более свободной, и несколько друзей спросили, похудели ли вы. Если в этот момент ваши весы для ванной показывают, что вы потеряли 10 фунтов, это имело бы смысл, и вы продолжили бы пользоваться весами. Но если бы это указывало на то, что вы набрали 10 фунтов, вы бы справедливо пришли к выводу, что он сломан, и либо почините его, либо избавьтесь от него.Оценивая метод измерения, психологи рассматривают два основных аспекта: надежность и валидность.
Надежность означает постоянство меры. Психологи рассматривают три типа согласованности: во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между разными исследователями (надежность между экспертами).
Тестирование-повторное тестирование надежностиКогда исследователи измеряют конструкт, который, по их мнению, является непротиворечивым во времени, полученные ими оценки также должны быть согласованными во времени.Надежность повторного тестирования — это степень, в которой это действительно так. Например, обычно считается, что интеллект постоянен во времени. Человек, который сегодня очень умный, на следующей неделе станет очень умным. Это означает, что любой хороший показатель интеллекта должен дать этому человеку примерно такие же оценки на следующей неделе, что и сегодня. Ясно, что мера, которая дает очень непоследовательные оценки с течением времени, не может быть очень хорошей мерой конструкции, которая должна быть согласованной.
Оценка надежности повторного тестирования требует одновременного использования этого показателя на группе людей, его повторного использования на той же группе людей в более позднее время, а затем изучения корреляции между тестами и повторными тестами между двумя наборами оценок. Обычно это делается путем построения графика данных в виде диаграммы рассеяния и вычисления значений r Пирсона. На рис. 5.2 показана корреляция между двумя наборами оценок нескольких студентов университетов по шкале самооценки Розенберга, введенной два раза с интервалом в неделю.Коэффициент Пирсона для этих данных равен +,95. Обычно считается, что корреляция между тестами и повторными тестами +80 или выше указывает на хорошую надежность.
Рисунок 5.2 Корреляция между тестами и повторными тестами между двумя наборами оценок нескольких студентов колледжа по шкале самооценки Розенберга, полученными два раза в неделю с разницей. время, которое относится к интеллекту, самооценке и измерениям личности Большой пятерки.Но другие конструкции не считаются стабильными с течением времени. Например, сама природа настроения такова, что оно меняется. Таким образом, показатель настроения, который дает низкую корреляцию между тестами и ретестами в течение месяца, не будет поводом для беспокойства.
Внутренняя согласованностьВторой вид надежности — это внутренняя согласованность, которая представляет собой согласованность ответов людей по всем пунктам при измерении с несколькими пунктами. В целом предполагается, что все элементы таких показателей отражают одну и ту же основную конструкцию, поэтому оценки людей по этим вопросам должны коррелировать друг с другом.По шкале самооценки Розенберга люди, которые согласны с тем, что они достойные люди, должны соглашаться с тем, что у них есть ряд хороших качеств. Если ответы людей на разные вопросы не коррелируют друг с другом, то больше не имеет смысла утверждать, что все они измеряют одну и ту же основную конструкцию. Это верно как для поведенческих и физиологических показателей, так и для показателей самооценки. Например, люди могут сделать серию ставок в имитируемой игре в рулетку, чтобы измерить свой уровень стремления к риску.Этот показатель будет внутренне согласованным в той степени, в которой ставки отдельных участников будут постоянно высокими или низкими в ходе испытаний.
Как и надежность повторного тестирования, внутреннюю согласованность можно оценить только путем сбора и анализа данных. Один из подходов — посмотреть на корреляцию разделенных половин. Это включает в себя разделение элементов на два набора, таких как первая и вторая половины элементов или элементы с четным и нечетным номерами. Затем для каждого набора элементов вычисляется оценка и исследуется взаимосвязь между двумя наборами оценок.Например, на рис. 5.3 показана корреляция между двумя частицами между оценками нескольких студентов университетов по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Значение r Пирсона для этих данных составляет +,88. Корреляция разделенных половин, равная +80 или больше, обычно считается хорошей внутренней согласованностью.
Рис. 5.3. Корреляция между разделами и половинками между оценками нескольких студентов колледжей по четным пунктам и их оценками по нечетным пунктам шкалы самооценки Розенберга. Возможно, наиболее распространенной мерой внутренней согласованности, используемой исследователями в области психологии, является статистика называется α Кронбаха (греческая буква альфа).Концептуально α — это среднее значение всех возможных корреляций разделенных половин для набора элементов. Например, существует 252 способа разделить набор из 10 элементов на два набора по пять. Α Кронбаха будет средним из 252 корреляций разделенных половин. Обратите внимание, что на самом деле α вычисляется не так, но это правильный способ интерпретации значения этой статистики. Опять же, обычно используется значение +80 или больше, чтобы указать на хорошую внутреннюю согласованность.
Надежность InterraterМногие поведенческие меры требуют значительного суждения со стороны наблюдателя или оценщика.Межэкспертная надежность — это степень, в которой разные наблюдатели едины в своих суждениях. Например, если вы хотите измерить социальные навыки студентов университета, вы можете сделать видеозаписи их взаимодействия с другим студентом, с которым они встречаются впервые. Затем вы можете попросить двух или более наблюдателей посмотреть видео и оценить уровень социальных навыков каждого учащегося. В той степени, в которой каждый участник действительно обладает определенным уровнем социальных навыков, который может быть обнаружен внимательным наблюдателем, оценки разных наблюдателей должны сильно коррелировать друг с другом.Надежность между экспертами также могла быть измерена в исследовании куклы Бобо Бандуры. В этом случае оценки наблюдателей того, сколько актов агрессии совершил конкретный ребенок во время игры с куклой Бобо, должны были иметь очень положительную корреляцию. Надежность между экспертами часто оценивается с помощью α Кронбаха, когда суждения являются количественными, или аналогичной статистики, называемой κ Коэна (греческая буква каппа), когда они категоричны.
Валидность — это степень, в которой баллы меры представляют переменную, для которой они предназначены.Но как исследователи делают такое суждение? Мы уже учли один фактор, который они учитывают, — надежность. Если показатель имеет хорошую надежность повторного тестирования и внутреннюю согласованность, исследователи должны быть более уверены в том, что оценки соответствуют тому, что им положено. Однако здесь должно быть что-то еще, потому что мера может быть чрезвычайно надежной, но совершенно бесполезной. В качестве абсурдного примера представьте человека, который считает, что длина указательного пальца человека отражает его самооценку, и поэтому пытается измерить самооценку, поднося линейку к указательным пальцам.Хотя эта мера имела бы чрезвычайно хорошую надежность повторного тестирования, она не имела бы абсолютно никакой ценности. Тот факт, что указательный палец одного человека на сантиметр длиннее, чем у другого, ничего не говорит о том, у кого из них более высокая самооценка.
Обсуждения валидности обычно делят ее на несколько различных «типов». Но хороший способ интерпретировать эти типы состоит в том, что они представляют собой другие виды свидетельств, помимо надежности, которые следует принимать во внимание при оценке достоверности меры.Здесь мы рассматриваем три основных типа: валидность лица, валидность содержания и валидность критерия.
Лицевая достоверностьЛицевая достоверность — это степень, в которой метод измерения проявляется «на лице» для измерения интересующей конструкции. Большинство людей ожидают, что в анкету для самооценки будут включены вопросы о том, считают ли они себя достойным человеком и обладают ли они хорошими качествами. Таким образом, анкета, включающая такие вопросы, будет иметь хорошую внешнюю валидность.С другой стороны, метод измерения самооценки на расстоянии пальца, похоже, не имеет ничего общего с самооценкой и, следовательно, имеет низкую достоверность. Хотя фактическая валидность может быть оценена количественно — например, с помощью большой выборки людей, оценивающих меру с точки зрения того, действительно ли она измеряет то, для чего она предназначена, — обычно она оценивается неформально.
Фактическая достоверность — это в лучшем случае очень слабое свидетельство того, что метод измерения измеряет то, что он должен.Одна из причин заключается в том, что это основано на интуиции людей о человеческом поведении, которые часто ошибочны. Также верно и то, что многие общепринятые меры в психологии работают достаточно хорошо, несмотря на недостаточную достоверность. Миннесотский многофазный опросник личности-2 (MMPI-2) измеряет многие личностные характеристики и расстройства, предлагая людям решить, применимо ли к ним каждое из более чем 567 различных утверждений, при этом многие из утверждений не имеют очевидного отношения к конструкции, которую они измеряют. .Например, пункты «Мне нравятся детективы или детективы» и «Вид крови не пугает меня и не вызывает тошноту», оба измеряют подавление агрессии. В данном случае интерес представляют не буквальные ответы участников на эти вопросы, а, скорее, соответствие модели ответов участников на серию вопросов ответам людей, которые склонны подавлять свою агрессию.
Срок действия содержимогоДостоверность содержания — это степень, в которой мера «покрывает» интересующий конструкт.Например, если исследователь концептуально определяет тестовую тревогу как связанную как с активацией симпатической нервной системы (ведущей к нервным переживаниям), так и с негативными мыслями, то его мера тестовой тревожности должна включать вопросы как о нервных переживаниях, так и о негативных мыслях. Или подумайте, что отношения обычно определяются как связанные с мыслями, чувствами и действиями по отношению к чему-либо. Согласно этому концептуальному определению, человек положительно относится к упражнениям в той мере, в какой он или она думает о тренировках положительно, чувствует себя хорошо во время тренировок и фактически занимается спортом.Таким образом, чтобы иметь хорошую достоверность содержания, показатель отношения людей к упражнениям должен отражать все три этих аспекта. Как и фактическая достоверность, достоверность содержания обычно не оценивается количественно. Вместо этого он оценивается путем тщательной проверки метода измерения на соответствие концептуальному определению конструкции.
Срок действия критерияДостоверность критерия — это степень, в которой оценки людей по критерию коррелируют с другими переменными (известными как критерии), с которыми можно было бы ожидать их корреляции.Например, оценки людей по новому критерию тревожности при тестировании должны иметь отрицательную корреляцию с их успеваемостью на важном школьном экзамене. Если бы было обнаружено, что оценки людей на самом деле отрицательно коррелировали с их успеваемостью на экзамене, то это было бы доказательством того, что эти оценки действительно отражают тревогу людей перед тестированием. Но если бы выяснилось, что люди одинаково хорошо сдавали экзамен, независимо от их тестовой тревожности, это поставило бы под сомнение достоверность этой меры.
Критерием может быть любая переменная, которая, как есть основания полагать, должна коррелировать с измеряемым конструктом, и обычно их много. Например, можно было бы ожидать, что результаты теста на тревожность будут отрицательно коррелировать с успеваемостью на экзамене и оценками по курсу и положительно коррелироваться с общим беспокойством и артериальным давлением во время экзамена. Или представьте, что исследователь разрабатывает новую меру принятия физического риска. Баллы людей по этому показателю должны соотноситься с их участием в «экстремальных» видах деятельности, таких как сноубординг и скалолазание, количеством полученных штрафов за превышение скорости и даже количеством переломов костей, которые они получили за эти годы.Когда критерий измеряется одновременно с построением, достоверность критерия упоминается как одновременная достоверность ; однако, когда критерий измеряется в какой-то момент в будущем (после того, как конструкция была измерена), он упоминается как прогностическая достоверность (поскольку оценки по этому показателю «предсказали» будущий результат).
Критерии могут также включать другие меры той же конструкции. Например, можно было бы ожидать, что новые меры тестовой тревожности или принятия физического риска будут положительно коррелированы с существующими показателями тех же конструктов.Это известно как конвергентная достоверность .
Для оценки конвергентной достоверности требуется сбор данных с помощью меры. Исследователи Джон Качиоппо и Ричард Петти сделали это, когда создали свою шкалу самоотчета «Потребность в познании», чтобы измерить, насколько люди ценят и вовлечены в мышление (Cacioppo & Petty, 1982). В серии исследований они показали, что оценки людей положительно коррелировали с их оценками по стандартизированному тесту академических достижений, и что их оценки отрицательно коррелировали с их оценками по показателю догматизма (который представляет собой тенденцию к послушанию).За годы, прошедшие с момента создания, шкала потребности в познании использовалась буквально в сотнях исследований, и было показано, что она коррелирует с широким спектром других переменных, включая эффективность рекламы, интерес к политике и решения присяжных. (Петти, Бриньоль, Лёрш и МакКаслин, 2009 г.).
Дискриминантная валидностьДискриминантная валидность, с другой стороны, — это степень, в которой баллы по показателю , а не коррелируют с мерами переменных, которые концептуально различны.Например, самооценка — это общее отношение к себе, которое довольно стабильно во времени. Это не то же самое, что настроение, которое бывает хорошим или плохим в данный момент. Таким образом, оценки людей по новому показателю самооценки не должны сильно коррелировать с их настроением. Если бы новый показатель самооценки был сильно коррелирован с показателем настроения, можно было бы утверждать, что новый показатель на самом деле не измеряет самооценку; вместо этого он измеряет настроение.
При создании шкалы потребности в познании Качиоппо и Петти также предоставили доказательства дискриминантной валидности, показав, что оценки людей не коррелировали с некоторыми другими переменными.Например, они обнаружили лишь слабую корреляцию между потребностью людей в познании и мерой их когнитивного стиля — степенью, в которой они склонны мыслить аналитически, разбивая идеи на более мелкие части, или целостным образом в терминах «большой картины». Они также не обнаружили корреляции между потребностью людей в познании и показателями их тестовой тревожности и их склонностью реагировать социально желательными способами. Все эти низкие корреляции свидетельствуют о том, что показатель отражает концептуально отличную конструкцию.
- Психологические исследователи не просто предполагают, что их меры работают. Вместо этого они проводят исследования, чтобы показать, что они работают. Если они не могут показать, что работают, они прекращают их использовать.
- Есть два различных критерия, по которым исследователи оценивают свои измерения: надежность и валидность. Надежность — это постоянство во времени (надежность повторного тестирования), между элементами (внутренняя согласованность) и между исследователями (надежность между экспертами). Достоверность — это степень, в которой оценки фактически представляют переменную, для которой они предназначены.
- Действительность — это решение, основанное на различных типах доказательств. Соответствующие свидетельства включают надежность меры, то, покрывает ли она интересующий конструкт и коррелируют ли полученные оценки с другими переменными, с которыми они, как ожидается, коррелируют, а не коррелируют ли с переменными, которые концептуально различны.
- Надежность и валидность меры устанавливаются не одним исследованием, а результатами нескольких исследований.Оценка надежности и достоверности — непрерывный процесс.
- Практика: попросите нескольких друзей заполнить шкалу самооценки Розенберга. Затем оцените его внутреннюю согласованность, построив диаграмму рассеяния, чтобы показать корреляцию разделенных половин (элементы с четным и нечетным номерами). Вы также можете вычислить r Пирсона, если знаете как.
- Обсуждение. Вспомните последний экзамен в колледже, который вы сдавали, и думайте об этом как о психологической мере. Как вы думаете, для измерения какой конструкции она предназначалась? Прокомментируйте его лицо и достоверность содержания.Какие данные вы могли бы собрать, чтобы оценить их надежность и валидность критериев?
4 типа достоверности
При количественном исследовании вы должны учитывать надежность и достоверность ваших методов и измерений.
Validity показывает, насколько точно метод что-то измеряет. Если метод измеряет то, что, по его утверждению, измеряется, и результаты близко соответствуют реальным значениям, то его можно считать действительным. Существует четыре основных типа действия:
Обратите внимание, что в этой статье рассматриваются типы проверки достоверности, которые определяют точность фактических компонентов меры.Если вы проводите экспериментальное исследование, вам также необходимо учитывать внутреннюю и внешнюю валидность, которая связана с планом эксперимента и обобщаемостью результатов.
Срок действия конструкции
Construct validity оценивает, действительно ли инструмент измерения представляет то, что мы хотим измерить. Это важно для определения общей валидности метода.
Что такое конструкция?
Конструкт относится к понятию или характеристике, которую нельзя непосредственно наблюдать, но можно измерить, наблюдая за другими индикаторами, которые с ней связаны.
Конструкции могут быть характеристиками людей, такими как интеллект, ожирение, удовлетворенность работой или депрессия; они также могут быть более широкими концепциями, применяемыми к организациям или социальным группам, например гендерное равенство, корпоративная социальная ответственность или свобода слова.
Пример
Не существует объективной, наблюдаемой сущности, называемой «депрессией», которую мы могли бы измерить напрямую. Но, основываясь на существующих психологических исследованиях и теории, мы можем измерить депрессию на основе набора симптомов и показателей, таких как низкая уверенность в себе и низкий уровень энергии.
Что такое конструктивная валидность?
Достоверность конструкции — это гарантия того, что метод измерения соответствует конструкции, которую вы хотите измерить. Если вы разрабатываете анкету для диагностики депрессии, вам необходимо знать: действительно ли анкета измеряет конструкт депрессии? Или это на самом деле измерение настроения, самооценки респондента или какой-то другой конструкт?
Чтобы добиться достоверности построения, вы должны убедиться, что ваши индикаторы и измерения тщательно разработаны на основе соответствующих существующих знаний.Анкета должна включать только релевантные вопросы, которые измеряют известные индикаторы депрессии.
Все остальные типы валидности, описанные ниже, могут рассматриваться как формы свидетельства конструктивной валидности.
Срок действия
Достоверность содержимого определяет, является ли тест репрезентативным для всех аспектов конструкции.
Для получения достоверных результатов содержание теста, опроса или метода измерения должно охватывать все соответствующие части предмета, который он стремится измерить.Если некоторые аспекты отсутствуют в измерении (или если включены нерелевантные аспекты), достоверность оказывается под угрозой.
Пример
Учитель математики разрабатывает в конце семестра тест по алгебре для своего класса. Тест должен охватывать все формы алгебры, изучаемые в классе. Если исключить некоторые виды алгебры, то результаты могут не быть точным показателем понимания учащимися предмета. Точно так же, если она включает вопросы, не связанные с алгеброй, результаты больше не являются действительной мерой знаний алгебры.
Что вычитка может сделать для вашей статьи?
РедакторыScribbr не только исправляют грамматические и орфографические ошибки, но и улучшают ваше письмо, убеждаясь в том, что в вашей статье нет расплывчатых формулировок, лишних слов и неудобных фраз.
См. Пример редактирования
Срок действия
Face validity учитывает, насколько подходящим содержание теста кажется на первый взгляд.Это похоже на валидность содержания, но фактическая валидность — это более неформальная и субъективная оценка.
Пример
Вы создаете опрос, чтобы измерить регулярность пищевых привычек людей. Вы просматриваете пункты опроса, в которых задаются вопросы о каждом приеме пищи в течение дня и перекусах, которые вы съели в перерывах на каждый день недели. На первый взгляд, опрос кажется хорошим представлением того, что вы хотите протестировать, поэтому вы считаете, что он имеет высокую достоверность.
Поскольку фактическая достоверность является субъективной мерой, ее часто считают самой слабой формой достоверности.Однако это может быть полезно на начальных этапах разработки метода.
Критерий действия
Criterion validity оценивает, насколько близко результаты вашего теста соответствуют результатам другого теста.
Что такое критерий?
Критерий — это внешнее измерение того же самого. Обычно это установленный или широко используемый тест, который уже считается действительным.
Что такое критерий действительности?
Чтобы оценить достоверность критерия, вы вычисляете корреляцию между результатами вашего измерения и результатами измерения критерия.Если существует высокая корреляция, это свидетельствует о том, что ваш тест измеряет то, что он намеревается измерять.
Пример
Профессор университета создает новый тест для измерения уровня владения английским языком у абитуриентов. Чтобы оценить, насколько хорошо этот тест действительно измеряет письменные способности учащихся, она находит существующий тест, который считается действительным измерением навыков письма на английском языке, и сравнивает результаты, когда одна и та же группа учащихся сдает оба теста. Если результаты очень похожи, новый тест имеет высокий критерий достоверности.
Почему для психологических тестов важна валидность
Когда люди говорят о психологических тестах, они часто спрашивают, действителен ли тест. Что именно это значит? Валидность — это мера того, насколько хорошо тест измеряет то, что, по его словам, измеряется.
Психологическая оценка — важная часть как экспериментального исследования, так и клинического лечения. Одна из самых больших проблем при создании психологического теста заключается в том, действительно ли он измеряет то, что, по нашему мнению, он измеряет.
Например, тест может быть разработан для измерения стабильной личностной черты, но вместо этого для измерения преходящих эмоций, вызванных ситуативными или окружающими условиями. Действительный тест гарантирует, что результаты точно отражают оцениваемый параметр.
Валидность — это степень, в которой тест измеряет то, что, по его утверждению, измеряется. Жизненно важно, чтобы тест был действительным, чтобы результаты можно было точно применить и интерпретировать.
Типы действия
Валидность определяется не одной статистикой, а совокупностью исследований, демонстрирующих взаимосвязь между тестом и поведением, которое он предназначен для измерения.Есть три типа действительности.
Срок действия содержимого
Когда тест имеет валидность содержания, элементы теста представляют весь диапазон возможных элементов, которые должен охватывать тест.Отдельные вопросы теста могут быть взяты из большого пула элементов, охватывающих широкий круг тем.
В некоторых случаях, когда тест измеряет черту, которую трудно определить, эксперт-судья может оценить релевантность каждого элемента. Поскольку каждый судья основывает свою оценку на своем мнении, два независимых судьи оценивают тест отдельно.Пункты, оцененные обоими судьями как имеющие большое значение, будут включены в финальный тест.
Срок действия по критерию
Считается, что тест имеет относящуюся к критерию валидность, когда тест продемонстрировал свою эффективность в прогнозировании критерия или показателей конструкции, например, когда работодатель нанимает новых сотрудников на основе обычных процедур найма, таких как собеседования, образование и опыт.
Этот метод демонстрирует, что люди, которые хорошо сдали тест, будут хорошо работать на работе, а люди с низким баллом по тесту будут плохо справляться с работой.Существует два разных типа критериев достоверности:
- Одновременная валидность : Это происходит, когда критерии критериев получены одновременно с оценками тестов, что указывает на способность оценок теста оценивать текущее состояние человека. Например, в тесте, который измеряет уровни депрессии, можно сказать, что тест имеет одновременную валидность, если он измеряет текущие уровни депрессии, испытываемые тестируемым.
- Прогностическая достоверность : Это когда критерии критериев получены сразу после теста.Примерами тестов с прогностической валидностью являются тесты карьеры или способностей, которые помогают определить, кто, скорее всего, преуспеет или проиграет по определенным предметам или профессиям.
Срок действия конструкции
Тест имеет конструктивную валидность, если он демонстрирует связь между результатами теста и предсказанием теоретической характеристики.Тесты интеллекта являются одним из примеров инструментов измерения, которые должны иметь конструктивную валидность. Действительный тест интеллекта должен быть в состоянии точно измерить конструкцию интеллекта, а не другие характеристики, такие как память или уровень образования.
По сути, валидность контента смотрит на то, охватывает ли тест весь диапазон поведения, составляющего измеряемую конструкцию. Процедура здесь состоит в том, чтобы определить необходимые задачи для выполнения такой работы, как набор текста, дизайн или физические способности.
Чтобы продемонстрировать валидность содержания процедуры отбора, поведение, продемонстрированное при выборе, должно быть репрезентативной выборкой поведения на работе.
Валидность лица в психологическом тестировании
Другой метод, который используется редко, потому что он не очень сложен, — это проверка по лицу.Он основан только на внешнем виде меры и на том, что он должен измерять, но не на том, что на самом деле измеряет тест.
Фактическая валидность — одна из основных мер валидности. По сути, исследователи просто принимают валидность теста за чистую монету, глядя на то, выглядит ли тест как для измерения целевой переменной. Например, по показателю счастья можно сказать, что тест имеет фактическую валидность, если казалось, что на самом деле он измеряет уровень счастья.
Очевидно, внешняя достоверность означает только то, что тест выглядит как , как будто он работает. Это не означает, что тест доказал свою эффективность. Однако, если мера кажется действительной на данный момент, исследователи могут продолжить исследование, чтобы определить, действителен ли тест и его следует использовать в будущем.
По сути, фактическая достоверность — это то, измеряет ли тест то, что он должен измерять. Это предполагает сдачу теста за чистую монету.
Опрос, в котором спрашивают людей, за какого политического кандидата они планируют проголосовать, будет считаться имеющим высокую достоверность.Цель теста предельно ясна даже людям, незнакомым с психометрией.
Можно сказать, что сложный тест, используемый как часть психологического эксперимента, который рассматривает множество ценностей, характеристик и моделей поведения, имеет низкую достоверность. Точная цель теста не сразу ясна, особенно участникам.
Очевидно, что хотя фактическая валидность может быть хорошим инструментом для определения того, измеряет ли тест то, что он должен измерять, наличие только лицевой валидности не означает, что тест действительно действителен.Иногда кажется, что тест измеряет одно, а на самом деле измеряет совсем другое.
Что такое валидность в психологии
- Методы исследования
- Валидность
Что такое валидность?
Д-р Саул МакЛеод, опубликовано в 2013 г.
Что означает валидность в исследованиях?
Концепция достоверности была сформулирована Келли (1927, стр. 14), который заявил, что тест действителен, если он измеряет то, что, по его утверждению, измеряется.
Например, тест на интеллект должен измерять интеллект, а не что-то еще (например, память).
Различают внутреннюю и внешнюю действительность. Эти типы валидности имеют отношение к оценке валидности исследовательского исследования / процедуры.
Что такое внутренняя и внешняя валидность в исследованиях?
Внутренняя валидность относится к тому, вызваны ли эффекты, наблюдаемые в исследовании, манипуляциями с независимой переменной, а не каким-либо другим фактором.
Другими словами, существует причинная связь между независимой и зависимой переменной.
Внутренняя достоверность может быть улучшена за счет контроля посторонних переменных, использования стандартизированных инструкций, противовеса и исключения характеристик спроса и эффектов исследователя.
Внешняя валидность — это степень, в которой результаты исследования могут быть обобщены для других условий (экологическая валидность), других людей (популяционная валидность) и с течением времени (историческая валидность).
Внешняя достоверность может быть улучшена путем постановки экспериментов в более естественные условия и использования случайной выборки для отбора участников.
Оценка валидности теста
Оценка валидности теста
Существуют две основные категории валидности, используемые для оценки валидности теста (например, анкета, интервью, тест IQ и т. Д.): Содержание и критерий.
Что такое фактическая валидность в исследованиях?
Действительность лица — это просто то, появляется ли тест (по номинальной стоимости) для измерения того, на что он претендует.Это наименее изощренная мера достоверности.
Тесты, цель которых ясна даже для наивных респондентов, считаются имеющими высокую достоверность. Соответственно, тесты, цель которых неясна, имеют низкую валидность (Nevo, 1985).
Прямое измерение валидности лица получают, когда людей просят оценить валидность теста, как им кажется. Этот оценщик может использовать шкалу Лайкерта для оценки достоверности лица. Например:
- тест очень подходит для данной цели
- тест очень подходит для этой цели;
- тест соответствует требованиям
- тест не соответствует требованиям
- тест не имеет отношения к делу и, следовательно, не подходит
Важно выбрать подходящих людей для оценки теста (например.грамм. анкета, интервью, IQ тест и т. д.). Например, люди, которые действительно проходят тест, будут иметь все возможности для оценки его достоверности.
Также люди, которые работают с тестом, могут высказать свое мнение (например, работодатели, администраторы университетов, работодатели). Наконец, исследователь может использовать представителей широкой общественности, интересующихся тестом (например, родителей испытуемых, политиков, учителей и т. Д.).
Внешняя валидность теста может считаться надежной конструкцией только в том случае, если между оценщиками существует разумный уровень согласия.
Следует отметить, что следует избегать использования термина «достоверность лица», когда оценка проводится «экспертом», поскольку достоверность содержимого является более подходящей.
Наличие фактической валидности не означает, что тест действительно измеряет то, что исследователь намеревается измерить, а только по мнению рейтеров, которые, по-видимому, делают это. Следовательно, это грубая и основная мера обоснованности.
Элемент теста, такой как « Я недавно подумал о самоубийстве », имеет очевидную валидность по лицу как элемент, измеряющий суицидальные мысли, и может быть полезен при измерении симптомов депрессии.
Однако результаты тестов с явной валидностью заключаются в том, что они более уязвимы для предвзятости социальной желательности. Люди могут манипулировать своей реакцией, чтобы отрицать или скрывать проблемы, или преувеличивать свое поведение, чтобы представить себя в позитивном свете.
Элемент тестирования может не иметь лицевой валидности, но все же иметь общую валидность и измерять то, что, по его утверждению, измеряется. Это хорошо, потому что снижает характеристики спроса и затрудняет манипулирование респондентами своими ответами.
Например, элемент теста « Я верю во Второе пришествие Христа » будет недействителен как мера депрессии (так как его цель неясна).
Этот элемент появился в первой версии Миннесотского многофазного опросника личности (MMPI) и загружен в шкалу депрессии.
Поскольку большинство первоначального нормативного образца MMPI были хорошими христианами, только христианин в депрессии мог подумать, что Христос не вернется. Таким образом, для данного конкретного религиозного образца пункт имеет общую действительность, но не является действительным.
Что такое конструктная валидность в исследованиях?
Конструктивная валидность была изобретена Корнболлом и Милом (1955). Этот тип валидности относится к степени, в которой тест захватывает конкретную теоретическую конструкцию или признак, и перекрывается с некоторыми другими аспектами валидности
Конструктивная валидность не касается простого фактического вопроса о том, измеряет ли тест атрибут .
Вместо этого речь идет о сложном вопросе о том, согласуются ли интерпретации результатов тестов с номологической сетью, включающей теоретические и наблюдательные термины (Cronbach & Meehl, 1955).
Для проверки достоверности конструкции необходимо продемонстрировать, что измеряемое явление действительно существует. Так, например, конструктивная валидность теста на интеллект зависит от модели или теории интеллекта.
Валидность конструкции влечет за собой демонстрацию силы такой конструкции для объяснения сети результатов исследований и прогнозирования дальнейших взаимосвязей.
Чем больше доказательств валидности конструкции теста сможет продемонстрировать исследователь, тем лучше.Однако не существует единого метода определения валидности конструкции теста.
Вместо этого различные методы и подходы объединяются, чтобы представить общую конструктивную валидность теста. Например, можно использовать факторный анализ и корреляционные методы.
Что такое одновременная валидность в исследованиях?
Это степень, в которой тест соответствует внешнему критерию, который известен одновременно (т. Е. Происходит одновременно).
Если новый тест подтвержден сравнением с существующим в настоящее время критерием, у нас есть одновременная валидность.
Очень часто новый тест на IQ или личность можно сравнить со старым, но похожим тестом, который, как известно, уже имеет хорошую валидность.
Что такое прогностическая достоверность в исследованиях?
Это степень, в которой тест точно предсказывает критерий, который будет выполняться в будущем.
Например, на основе нового теста интеллекта можно сделать прогноз, что люди с высокими показателями в возрасте 12 лет с большей вероятностью получат университетское образование через несколько лет.Если предсказание оправдывается, значит, тест имеет прогностическую достоверность.
Ссылки на стиль APA
Кронбах, Л. Дж., И Мил, П. Э. (1955) Конструируйте валидность в психологических тестах. Психологический бюллетень , 52, 281-302.
Hathaway, S. R., & McKinley, J. C. (1943). Руководство по многофазной инвентаризации личности в Миннесоте . Нью-Йорк: Психологическая корпорация.
Келли, Т. Л. (1927). Интерпретация образовательных измерений.Нью-Йорк : Macmillan.
Нево, Б. (1985). Повторная проверка достоверности лица. Журнал образовательных измерений , 22 (4), 287-293.
Как сослаться на эту статью: Как сослаться на эту статью:
McLeod, S.A. (2013). Что такое срок действия? . Просто психология. https://www.simplypsychology.org/validity.html
сообщить об этом объявлении
Языковое тестирование: как работает проверка достоверности
С юных лет наша жизнь наполнена оценками: стандартизированными тестами, экзаменами по вождению, тестами на определение места работы, и, если бизнес или государственное учреждение проверяет знание английского или иностранного языка потенциальных сотрудников и нынешних сотрудников, есть большая вероятность, что они используют языковое тестирование ALTA.Создание достоверной оценки языковых навыков человека — важная и сложная задача: она требует, чтобы мы предприняли множество шагов, чтобы гарантировать, что каждый тест, который мы проводим, соответствует стандартам для образовательного и психологического тестирования .
Итак, что означает, что тест будет действительным?
С точки зрения психометрии, валидность теста — это степень, в которой теория, лежащая в основе теста, и интерпретация результатов теста точно измеряют предполагаемую цель теста.Другими словами, действительный языковой тест работает для оценки языковых способностей, и оценки могут быть защищены.
ALTA тратит много времени и ресурсов на то, чтобы наши языковые тесты были действительными. Несмотря на то, что этот процесс сложен, вот базовый синопсис из 9 важных шагов, которые мы предпринимаем, каждый из которых вносит свой вклад в общую валидность языковой оценки. Рисунок 1 иллюстрирует этот цикл проверки, и каждый этап описан ниже:
Рисунок 1: Цикл проверки
1.Анализ вакансий / KSA:
Первым шагом в разработке теста является определение знаний, навыков и способностей (KSA), для измерения которых будет разработан тест. Для тестов, которые предназначены для квалификации человека для выполнения конкретной работы, эти KSA выявляются в ходе исследования работы, в ходе которого люди, знающие, что влечет за собой работа, или профильные эксперты (SME) — проходят собеседование для сбора эта информация. Выявление KSA — решающий шаг в привлечении внимания к последующим усилиям по развитию.
2. Создайте тестовый чертеж:
План тестирования создается на основе выявленных KSA и их относительной важности для работы. В проекте указывается разработчику теста контент, который будет включен в тест, количество контента в каждой области навыков и любые другие инструкции, необходимые для правильной разработки контента. Используя план в качестве руководства, разработчики тестов привлекаются к созданию реальных элементов тестирования.
3. Создайте тестовые задания:
Разработка предмета осуществляется в соответствии со спецификациями, указанными в тестовом проекте.Создано более чем достаточное количество тестовых заданий, чтобы учесть возможность того, что некоторые из элементов нужно будет исключить на основе результатов пилотного тестирования и анализа заданий.
4. Просмотрите элементы теста:
Все тестовые задания передаются в отдельную комиссию для просмотра и комментариев. Эта панель просматривает каждый элемент теста и проверяет, соответствует ли он спецификациям, указанным в схеме тестирования. Любая потребность в модификации записывается, и разработчикам предоставляются комментарии, чтобы можно было внести соответствующие изменения.Этот процесс проверки повторяется для любых изменений, которые вносятся, пока не будет завершена пилотная версия теста.
5. Элементы для пилотных испытаний:
После того, как окончательная черновая версия была рассмотрена и одобрена разработчиками тестов и комиссией по обзору, элементы проходят пилотное тестирование для сбора данных о производительности элементов. Пилотное тестирование проводится с использованием выборки кандидатов, представляющих целевую совокупность. После пилотного тестирования проводится психометрический анализ результатов для определения эффективности теста.
6. Создайте финальную форму теста:
Результаты статистического анализа дают элементы, которые составят окончательную форму теста, и эти элементы объединены в рабочую версию теста.
7. Метод Ангофа:
Используя окончательные версии теста, собирается панель Angoff для определения сокращенного балла теста или процента правильно ответивших вопросов, необходимых кандидату для успешной сдачи теста. Хотя существуют различные методы установления стандартов, ALTA обычно использует метод Ангоффа, который основывается на суждениях комиссии относительно процента минимально квалифицированных кандидатов, которые будут успешно выполнять каждый пункт.
8. Провести тест:
После определения сокращенных оценок для окончательных версий тестов тесты становятся доступными для оперативного использования и администрируются в соответствии с рабочими политиками, установленными администратором тестирования с использованием предписанной рубрики оценки.
9. Обеспечение качества:
Контроль качества осуществляется непрерывно, чтобы гарантировать, что элементы работают должным образом с течением времени. Обеспечение качества также обеспечивает метод мониторинга передозировки и выявления предметов, которые могли быть скомпрометированы.
Важно отметить, что валидация — это цикл, и тестирующая организация должна продолжать анализировать тест и собирать доказательства его валидности. В различные моменты жизненного цикла теста каждый шаг может быть пересмотрен для обзора и / или доработки.
____________________________________________________________________________________________
ALTA — лидер в области языкового тестирования и крупномасштабных языковых решений для государственных учреждений и корпораций по всей стране.Помимо того, что ALTA является официальным поставщиком языковых тестов в городах Лос-Анджелес и Нью-Йорк, ALTA работает со многими крупнейшими корпоративными организациями страны, от DELTA Airlines до Wells Fargo. Узнайте больше о нас на altalang.com
Надежность и действительность
Надежность и действительностьИЗУЧЕНИЕ НАДЕЖНОСТИ АКАДЕМИЧЕСКОЙ ОЦЕНКИ
Авторы Колин Фелан и Джули Рен, помощники выпускников, UNI Office of Academic Assessment (2005-06)
Надежность — это степень, в которой инструмент оценки обеспечивает стабильную и стабильные результаты.
Виды надежности
- Надежность повторных испытаний мера надежности, полученная при проведении одного и того же теста дважды в течение период времени для группы лиц. Результаты за время 1 и время 2 затем можно скоррелировать, чтобы оценить тест на стабильность по сравнению с время.
Пример: Тест, предназначенный для оценки успеваемости студентов по психологии, можно сдать группа студентов дважды, вторая администрация, возможно, придет через неделю после первого.Полученный коэффициент корреляции будет указывать на стабильность результатов.
- Надежность параллельных форм является мерой надежности, полученной путем администрирования различных версий инструмент оценки (обе версии должны содержать элементы, которые проверяют одинаковые конструкция, навыки, база знаний и т. д.) одной и той же группе лиц. Затем оценки двух версий можно сопоставить, чтобы оценить согласованность результатов в альтернативных версиях.
Пример: Если вы хотите оценить надежность оценки критического мышления, вы можете создать большой набор элементов, относящихся к критическому мышлению и затем случайным образом разделите вопросы на два набора, которые будут представлять параллельные формы.
- Надежность между экспертами — это мера надежности, используемая для оценки степени, в которой разные судьи или оценщики соглашаются в своих оценочных решениях.Межэкспертная надежность полезно, потому что наблюдатели не обязательно интерпретируют ответы на так же; оценщики могут не согласиться с тем, насколько хорошо те или иные ответы или материалы продемонстрировать знание оцениваемого конструкта или навыка.
Пример: Надежность между экспертами может использоваться, когда разные судьи оценка степени соответствия художественных портфелей определенным стандартам. Межэкспертная надежность особенно полезна, когда можно принимать во внимание суждения. относительно субъективно.Таким образом, использование этого типа надежности, вероятно, быть более вероятным при оценке художественных работ, чем при решении математических задач.
- Надежность внутренней согласованности это мера надежности, используемая для оценки степени, в которой разные элементы теста, исследующие одну и ту же конструкцию, дают аналогичные результаты.
- Среднее межпозиционное корреляция — это подтип надежности внутренней согласованности.это полученный путем взятия всех элементов теста, которые проверяют одно и то же построить (например, понимание прочитанного), определяя корреляцию коэффициент для каждой пары элементов, и, наконец, принимая среднее всех этих коэффициентов корреляции. Этот последний шаг дает среднюю корреляцию между пунктами.
- Надежность при разделении половин — еще один подтип надежности внутренней согласованности.Процесс Получение надёжности вдвое начинается с разделения всех пополам. элементы теста, которые предназначены для исследования той же области знаний (например, Вторая мировая война), чтобы сформировать два набора предметов. Модель весь тест проводится группе лиц, всего вычисляется оценка для каждого набора, и, наконец, надежность разделения половин получается путем определения корреляции между двумя полными наборами оценки.
Срок действия относится к тому, насколько хорошо тест измеряет то, что он должен измерять.
Почему это необходимо?
Хотя надежность необходима, она сама по себе не достаточно. Чтобы тест был надежным, он также должен быть действительным. Для Например, если ваши весы отклонены от нормы на 5 фунтов, они будут считывать ваш вес каждый день с помощью превышение 5 фунтов. Шкала надежна, потому что показывает одно и то же. веса каждый день, но это недействительно, потому что оно добавляет 5 фунтов к вашему истинному весу. Это неверный показатель вашего веса.
Типы действия
Пример : Если мера искусства признательность создается, все предметы должны быть связаны с разными компоненты и виды искусства.Если вопросы касаются исторического времени периоды, без ссылки на какое-либо художественное движение, заинтересованные стороны не могут быть мотивированы приложить все усилия или инвестировать в эту меру, потому что они Не верю, что это истинная оценка художественной оценки.
2. Срок действия конструкции используется, чтобы гарантировать, что мера действительно измерять то, что он предназначен для измерения (т. е. конструкцию), а не другие переменные. Использование группы экспертов, знакомых с конструкцией, — это способ который может быть оценен этим типом достоверности.Эксперты могут осмотреть предметы и решить, для чего предназначен этот конкретный элемент. Студенты могут быть участвуют в этом процессе, чтобы получить их отзывы.
Пример : Женские исследования Программа может разработать совокупную оценку обучения по основной специальности. Вопросы написаны со сложной формулировкой и формулировкой. Это может вызвать тест непреднамеренно становится тестом на понимание прочитанного, а не тест женских исследований. Важно, чтобы мера действительно оценивала предполагаемая конструкция, а не посторонний фактор.
3. Действительность, связанная с критерием — это используется для прогнозирования будущих или текущих показателей — коррелирует результаты испытаний с еще один интересующий критерий.
Пример : Если физическая программа разработал меру для оценки совокупного обучения студентов по основной специальности. Новый показатель может быть соотнесен со стандартизированным показателем способностей в эта дисциплина, например полевой тест ETS или предметный тест GRE. Выше соотношение между установленной мерой и новой мерой, тем больше веры заинтересованные стороны могут иметь в новом инструменте оценки.
Пример : При разработке рубрики по истории можно было оценить знания студентов по дисциплине. Если мера может предоставить информацию о том, что учащимся не хватает знаний в определенных области, например Движение за гражданские права, тогда этот инструмент оценки предоставление значимой информации, которая может быть использована для улучшения курса или программные требования.
5. Срок действия выборки (аналогично достоверность содержания) гарантирует, что мера охватывает широкий диапазон областей в рамках исследуемой концепции.Не все можно покрыть, поэтому предметы необходимо быть отобранным со всех доменов. Возможно, это потребуется выполнить с помощью панели экспертов, чтобы обеспечить адекватную выборку из области содержания. Кроме того, панель может помочь ограничить предвзятость эксперта (т. Е. Тест, отражающий то, что человек лично считает, что это наиболее важные или актуальные области).
Пример : При проектировании оценка обучения на театральном факультете, недостаточно покрывают только вопросы, связанные с актерским мастерством.Другие области театра, такие как освещение, звук, должны быть включены все функции режиссеров. Оценка должен полностью отражать область содержимого.
- Убедитесь, что ваши цели и задачи четко определены и введены в действие. Ожидания студентов должны быть записанное.
- Сопоставьте свою меру оценки с ваши цели и задачи. Кроме того, пусть тест будет рассмотрен преподавателями. в других школах, чтобы получить обратную связь от сторонней стороны, которая менее вложил в инструмент.
- Вовлекайте студентов; иметь учащиеся просматривают экзамен на предмет проблемных формулировок или других сложности.
- Если возможно, сравните свои измерения с другими показателями или данными, которые могут быть доступны.
Список литературы
Американские исследования в области образования Ассоциация, Американская психологическая ассоциация, &
Национальный Совет по измерениям в образовании. (1985). Стандарты образовательных и психологическое тестирование . Вашингтон, округ Колумбия: Авторы.
Cozby, P.C. (2001). Измерение Концепции. Методы поведенческих исследований (7 -е изд. ).
Калифорния: Издательская компания Мэйфилд.
Кронбах, Л. Дж. (1971). Проверка теста. В Р. Л. Торндайке (Ред.). Образовательный
Измерение (2-е изд.). Вашингтон, округ Колумбия: Американский совет по образованию.
Москаль, Б.М., & Лейденс, Дж. А. (2000). Развитие рубрики скоринга: Срок действия и
надежность. Практическая оценка, исследования и оценка, 7 (10). [Доступно онлайн: http://pareonline.net/getvn.asp?v=7&n=10].
Центр усовершенствования Обучение. Как повысить надежность теста и
Срок действия: Последствия для выставления оценок. [Доступно в Интернете: http://oct.sfsu.edu/assessment/evaluating/htmls/improve_rel_val.html].
Срок действия теста— можно ли доверять измерению?
Валидность теста включает несколько различных типов валидности, включая валидность критерия, валидность содержания и валидность конструкции.Если исследовательский проект имеет высокие баллы в этих областях, то общая валидность теста высока.
Достоверность критерия
Достоверность критерия устанавливает, соответствует ли тест определенному набору способностей.
- Параллельная валидность измеряет тест по сравнению с эталонным тестом, а высокая корреляция указывает на то, что тест имеет строгую критериальную валидность.
- Прогностическая валидность — это мера того, насколько хорошо тест предсказывает способности, например, определение того, приводит ли хороший средний балл в старшую школу к хорошим результатам в университете.
Достоверность содержимого
Достоверность содержимого определяет, насколько хорошо тест сравнивается с реальным миром. Например, школьный тест на способности должен отражать то, чему на самом деле учат в классе.
Construct Validity
Construct validity (Действительность конструкции) — это мера того, насколько хорошо тест соответствует своим утверждениям. Тест, предназначенный для измерения депрессии, должен измерять только этот конкретный конструкт, а не тесно связанные идеалы, такие как тревога или стресс.
Традиция и валидность испытаний
Этот трехсторонний подход был стандартом на протяжении многих лет, но современные критики начинают сомневаться в правильности этого подхода.
Во многих случаях исследователи не разделяют валидность теста на части и рассматривают его как единую конструкцию, требующую накопления доказательств для ее подтверждения.
Мессик в 1975 году предположил, что доказывать достоверность теста бесполезно, особенно когда невозможно доказать, что тест измеряет конкретную конструкцию. Конструкции настолько абстрактны, что их невозможно определить, и поэтому доказательство достоверности теста традиционными средствами в конечном итоге ошибочно.
Мессик считал, что исследователь должен собрать достаточно доказательств для защиты своей работы, и предложил шесть аспектов, которые позволили бы это сделать.Он утверждал, что это свидетельство не может оправдать достоверность теста, а только обоснованность теста в конкретной ситуации. Он заявил, что такая защита валидности теста должна быть непрерывным процессом и что любой тест необходимо постоянно проверять и подвергать сомнению.
Наконец, он был первым психометрическим исследователем, который предположил, что социальные и этические последствия теста являются неотъемлемой частью процесса, что представляет собой огромный сдвиг парадигмы от общепринятых практик. Учитывая, что образовательные тесты могут иметь длительный эффект на человека, это очень важный вывод, независимо от вашего взгляда на конкурирующие теории, лежащие в основе валидности теста.
Этот новый подход имеет определенную основу; многие годы тесты IQ считались практически безошибочными.
Однако они использовались в ситуациях, сильно отличающихся от первоначального намерения, и они не являются отличным показателем интеллекта, только способности решать проблемы и логики.
Методы Мессика, безусловно, позволяют прогнозировать эти проблемы более удовлетворительно, чем традиционный подход.