13. Стандартизация теста. Понятие о норме теста.
Стандартизация теста — это совокупность экспериментальных, методических и статистических процедур, обеспечивающих создание строго фиксированных компонентов теста. В частном случае под стандартизацией понимается сбор репрезентативных тестовых норм и построение стандартной шкалы тестовых баллов. Стандартизация позволяет сравнивать показатели, полученные одним испытуемым, с показателями в генеральной совокупности или соответствующих группах. Стандартизация важна, когда осуществляется сравнение показателей обследуемых.Три основных вида стандартизации первичных тестовых оценок: 1) приведение к нормальному виду; 2) приведение к стандартной форме; 3) квантильная стандартизация.
На этапе разработки теста, а также любого другого метода проводится процедура стандартизации, которая включает 3 этапа. 1)создании единообразной процедуры тестирования. 2)создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки.
Тестовые нормы — количественные и качественные критерии оценки результатов теста, позволяющие определить уровень достижений или степень выраженности психологических свойств, которые являются объектами измерения. В качестве таких критериев могут выступать как статистические показатели выборки стандартизации, так и различные признаки-симптомы, свидетельствующие о том или ином уровне выраженности диагностируемых качеств. В психодиагностике наибольшее распространение получили количественные тестовые нормы, рассчитанные на основе определения средних величин и дисперсии в выборке стандартизации.
В виде качественных тестовые нормы могут выступить, например, стандартизированные наборы квалификационных требований к испытуемому, аналогичные шкалам умственного развития, либо специально разработанные для конкретного теста комплексы диагностических признаков.
Оценка типа распределения — аналитико-статистическая процедура исследования основных характеристик эмпирического распределения (мер центральной тенденции, мер изменчивости, асимметрии, эксцесса кривой и некоторых других показателей).
О. т. р. предпринимают
с целью проверки предположения о том,
что анализируемое распределение
соответствует теоретическому. Вопрос
такого рода нередко решается в ходе
стандартизации методики и разработки
шкалы. Обычно в качестве теоретического
распределения при сравнении с эмпирическим
используется нормальное распределение,
О. т. р. выступает в данном случае в форме
проверки нормальности эмпирического
распределения. Чтобы установить,
подчиняется ли эмпирическое распределение
изучаемой случайной величины нормальному
закону, необходимо сопоставить известные
исследователю сведения о свойствах
этой величины и условиях ее изучения
со свойствами функций нормального
распределения. Сперва проводят
Количественное сопоставление может включать ряд этапов. Первый — сравнение отдельных свойств эмпирического распределения со свойствами теоретического нормального распределения. Асимметрия и эксцесс нормального распределения равны нулю. Если хотя бы один из этих двух показателей проверяемого эмпирического распределения существенно отклоняется от данного значения, это означает аномальность оцениваемого распределения.
Второй этап проверки эмпирического распределения состоит в построении теоретической функции распределения по эмпирическому ряду в предположении, что он подчиняется нормальному закону. Именно это предположение и обосновывается при качественном и количественном (на первом этапе) сопоставлении свойств. Вычисление теоретических значений вероятностей, соответствующих эмпирическим частотам, в общем случае осуществляется по таблицам функций распределения. Сопоставление заканчивается сравнением фактических (полученных в опыте) и теоретических (вычисленных) вероятностей. Если различия малы или отсутствуют, можно считать, что изучаемая случайная величина распределяется нормально.
Подтверждение нормального закона данного распределения будет означать, что полученная эмпирическая кривая не требует нормализации; распределение можно рассматривать как репрезентативное по отношению к генеральной совокупности
15 Операции по анализу распределения тест. баллов, построению тест. норм и проверке их репрезент. Действия, которые послед-но должен произвести психолог при построении тест. норм: 1. Сформ. выборку стандартизации (случайную или стратифицированную по какому-л. параметру) из популяции, на которой предпол. применять тест. Провести на каждом испытуемом тест в сжатые сроки (чтобы устранить иррелевантный разброс, вызванный внеш.событиями, происш. за время обслед). 2. Произвести группировку сырых баллов с учетом выбр. интервала квантования (интервала равнозначности). Интервал опр-ся величиной W/m, где W=xmax—хmax;m – кол-во интервалов равнозначности (градаций шкалы). 3. Построить распределение частот тест. баллов (для заданных интервалов равнозначности) в виде таблицы и соотв. графиков гистограммы и кумуляты. 4. Произвести расчет среднего арифм. значения и стандартного отклонения, а также асимметрии и эксцесса с пом. компьютера. Проверить гипотезы о значимости асимметрии и эксцесса. Сравнить рез-ты проверки с визуальным анализом кривых распределения. 5. Произвести проверку нормальности одного из распределений с пом. критерия Колмогорова (при n<200 с пом. более мощных критериев) или произвести процентильную нормализацию с переводом в стандартную шкалу, а также линейную стандартизацию и сравнить их рез-ты (с точностью до целых значений стандартных баллов). 6. Если совпадения не будет — нормальность отвергается; в этом случае произвести проверку устойчивости распределения расщеплением выборки на две случайные половины. При совпадении нормализованных баллов для половины и для целой выборки можно считать нормализованную шкалу устойчивой. 7. Проверить однородность распределения по отн.
Стандартизация теста
Одним из важных отличий психометрических тестов является то, что они стандартизированы, а это позволяет сравнить показатели, полученные одним испытуемым, с таковыми в генеральной совокупности или соответствующих группах.
Тем самым достигается адекватная интерпретация показателя отдельного испытуемого. Таким образом, стандартизация теста наиболее важна в тех случаях, когда осуществляется сравнение показателей обследуемых. При этом вводится понятие нормы, или нормативных показателей. Для получения стандартных норм нужно тщательно отобрать большее количество испытуемых в соответствии с ясно обозначенным критерием. При формировании выборки стандартизации следует учитывать ее объём и репрезентативность. В руководствах по тестам чаще всего указывается на то, что для простого уменьшения стандартной погрешности достаточной будет выборка из 500 испытуемых. Однако репрезентативность выборки не зависит от ее объема. Например, для того чтобы получить нормативные показатели для всей популяции детей, обучающихся в начальной школе, потребуется выборка объемом более 10 тысяч, тогда как выборка из такой ограниченной популяции, как шеф-пилоты авиакомпаний, не может быть столь значительной. Репрезентативность выборки, таким образом, параметр более важный, нежели ее объем.
Нормы для каждой группы должны быть представлены в средних величинах и показателе стандартного отклонения. Расчет средней величины элементарен и хорошо известен, а стандартное отклонение определяется с помощью формулы, имеющей вид:
Сегодня на практике все больше используется такой тип производной оценки, как стандартные показатели, удовлетворяющий большинству требований, предъявляемых к психологическому измерению. Такие показатели выражают отличие индивидуального результата испытуемого от среднего в единицах стандартного отклонения соответствующего распределения. Стандартные показатели получают двумя путями: линейным и нелинейным преобразованием первичных («сырых») оценок. В случае линейного преобразования сохраняются все свойства исходного распределения «сырых» оценок, и такие показатели называются стандартными или z-показателями. Для вычисления г-показателя находят разность между первичной оценкой и средним для нормативной группы и делят ее на стандартное отклонение нормативной группы. Формула имеет вид:
Здесь необходимо сказать о том, что основной причиной преобразования первичных оценок в некоторую производную шкалу является желание получить показатели, которые сопоставимы между собой вне зависимости от того, по какому тесту они получены. Линейное преобразование позволяет получить показатели сопоставимые лишь в том случае, когда распределения «сырых» оценок, по которым они рассчитываются, имеют примерно одинаковую форму. Для того чтобы сопоставлять показатели, полученные на основе распределений разной формы, прибегают к нелинейному преобразованию, или к нормализованным стандартным показателям. Процедура нелинейного преобразования достаточно проста и описана в многочисленных руководствах по математической статистике. Такие показатели обычно рассчитывают с помощью таблиц. В этих таблицах приводится процент случаев, приходящихся на участки, которые отстоят от среднего нормальной кривой на некоторое число единиц стандартного отклонения. Сначала определяют процент лиц, чьи показатели превышают каждую «сырую» оценку, а затем по этому проценту в таблице отыскивают соответствующее значение нормализованного стандартного показателя. Эти показатели, как и линейно преобразованные, будут иметь среднее (X), равное 0, и стандартное отклонение (SD), равное 1. Нулевое значение показывает, что испытуемый попадает в точку, соответствующую среднему нормальной кривой, превосходя 50 % группы. В случае, если показатель равен — 1, испытуемый превосходит примерно 16 % группы, а если + 1 — превосходит 84 % группы. Нормализованным стандартным показателям можно придать любую удобную форму, например, умножив его на 10 и прибавив произведение к 50, получаем так называемый «T-показатель» и в этом случае Т, равное 50, соответствует среднему, равному 60 — превышает среднее на одно стандартное отклонение и т. д. С другими, не менее популярными нелинейными преобразованиями «сырых» показателей теста, можно ознакомиться в соответствующей литературе.
Созданием стандартизованного теста и его публикацией обычно завершается работа психолога, однако следует помнить и о том, что с течением времени необходим пересмотр (ревизия) теста. Достаточно вспомнить о тестах интеллекта (см. гл. 4), нормы по которым устаревают через каждые 5 лет, и можно предположить, что процесс их старения будет ускоряться. Для наглядности этапы конструирования теста представлены на рис. 3.1.
Пример из практики: определение надежности опросника 16 PF Кеттелла. Личностный опросник Раймонда Кеттелла 16 PF(16 личностных факторов) относится к наиболее распространенным психодиагностическим инструментам и не нуждается в специальном представлении. Уже без малого 50 лет психологи всего мира используют его для решения разнообразных прикладных и научных задач. Однако как в бывшем СССР, так и ныне во вновь образованных странах этот опросник, несмотря на достаточно большую популярность, используется непрофессионально, с нарушением всех норм и правил, предъявляемых к психологическим тестам.
Кроме различных переводов опросника, которые существенно отличаются один от другого, в русскоязычной литературе часто встречаются и различные «ключи» к его факторам. Опубликованные в многочисленных сборниках и брошюрах варианты опросника не защищены (!) от ошибок и произвольного вмешательства в его текст. Если добавить к этому отсутствие нормативных данных, а также то, что не проводилась проверка гомогенности шкал опросника на отечественных выборках, то непонятно, какого рода результаты получали его многочисленные пользователи, какими диагностическими заключениями они оперировали. За последние пятнадцать лет у нас появились только три (!) работы, в которых ставилась задача проверки факторной структуры 16PF на. национальных выборках: это статьи В. М. Русалова и О. В. Гусевой (1990), Ю. М. Забродина, В. И. Похиль-ко и А. Г. Шмелева (1987), наконец, украинского психолога А. Г. Виноградова (1997). Читателю нетрудно сравнить это количество публикаций с тем множеством работ, в которых опросник использовался для получения «диагностически значимых результатов». Сказанное позволяет сделать вывод о том, что с помощью опросника 16PFизмеряется нечто, имеющее неясное отношение к факторам личности, выделенным и описанным Кеттеллом.
Занимаясь работой по психометрической адаптации личностных опросников1, мы не могли обойти вниманием и столь широко распространенный, как 16PF. За основу была взята форма «А» опросника 16PF. Были обследованы 227 человек (135 женщин и 92 мужчины) в возрасте от 16 до 51 года. Средний возраст исследуемых составлял 28 лет. Это были люди, которые проходили отбор на различные должности в коммерческие организации Киева, все они имели высшее или среднее специальное образование (бухгалтеры, коммерческие директоры, менеджеры разного уровня).
Как известно, точность измерения с помощью психодиагностического инструмента определяется его надежностью. С целью выяснить, насколько точен прогноз, даваемый психологом на основании результатов 16PF, данные, первоначально полученные нами, были оценены по авторским ключам на внутреннюю согласованность с помощью коэффициента Кронбаха, вычисляемого по следующей формуле:
В табл. 3.6 содержатся данные о внутренней согласованности факторов личности, полученные по авторским «ключам» (приведено буквенное обозначение фактора). Как видно из таблицы, значение коэффициента Кронбаха неудовлетворительно для большинства факторов. А фактор N вообще измеряет нечто, не имеющее никакого отношения к проницательности, расчетливости и наивности (если употреблять обыденное название этого фактора). Лишь некоторые из факторов, например фактор F (сургенция—десургенция) и фактор H пармия—тректия (смелость—робость), надежно измеряют то, что должны измерять. Таким образом, в результате проверки надежности—согласованности оригинальных ключей было показано, что ряд шкал опросника негомогенны. Можно предположить, что это следствия искажения смысла заданий при переводе на русский язык и/или существования известных культурных различий.
Для того чтобы выявить, что же именно стоит за данными, получаемыми с помощью 16PF, мы использовали факторный анализ. Факторы извлекались методом главных компонент, оценка общностей производилась после выделения факторов. Решение о количестве факторов принималось на основании анализа диаграммы собственных значений — scree-plot (рис. 3.2). На так называемом «графике осыпи» (автором которого является Кеттелл) находилась точка перегиба, правее которой, как показали модельные эксперименты автора опросника, обычно расположены так называемые «шумящие» факторы. Этот критерий позволяет выделить гораздо меньшее число факторов, чем применяемый большинством пользователей статистических пакетов метод Кайзера, базирующийся на величине собственного значения фактора. Вращение факторов производилось методом VARMAX c нормализацией по Кайзеру. Коэффициенты факторных баллов были вычислены методом регрессии. Статистическая обработка производилась с помощью программы SPSS для Windows (версия 5.0). В качестве значимых рассматривались нагрузки заданий, которые по абсолютной величине превосходили 0,3. Данная граница была принята по следующим соображениям: поскольку нагрузка представляет собой коэффициент корреляции задания и фактора, при данном его объеме эта величина является значимой и позволяет объяснить до 10 % вариации задания. Как показывает опыт, установление более высокой границы приводит к резкому падению согласованности шкалы, особенно при кросс-валидизации. При этом заметим, что небольшое количество наших испытуемых, конечно, не репрезентирует генеральную совокупность. Кроме того, нами не проводилось исследование стойкости факторного решения, полученного в исследовании (кросс-вали-дизация). Наконец, задания по фактору В, а также задания 1,2 и 187 были исключены из анализа.
Обычно на таком графике кривая имеет две точки изгиба. Для интерпретации оставляют те факторы, которые размещены перед вторым изгибом кривой. Получается, что в нашем случае следует оставить 7 факторов. Интересно, что приблизительно такое же количество факторов обнаруживается в большинстве исследований структуры личностной лексики в разных языках и совокупностей заданий личностных опросников. Выделенные факторы были интерпретированы следующим образом.
- Тревожность — эмоциональная стабильность.
- Энергичность, активность — пассивность.
- Настойчивость, уверенность в себе — покорность, подверженность влиянию.
- Сила Сверх-Я — слабость Сверх-Я (данный фактор соответствует фактору G Кеттелла).
- Обособленность — зависимость от группы (этот фактор соответствует фактору Q2 Кеттелла).
- Рациональность, практичность — мечтательность.
- Импульсивность — сдержанность, самоконтроль.
Интересным представляется тот факт, что лишь три отмеченных фактора соответствуют тем, которые выделены Кеттелом. Это, на наш взгляд, свидетельствует о том, что данные факторы (G, Q2 и Q2) настолько устойчивые характерологические конструкты, что имеет сходство в англоязычной и русскоязычной культурах. Также заслуживает внимание тот факт, что большинство факторов соответствуют факторам, полученным в других работах (Виноградов, 1997). Это еще раз подтверждает надежность полученных результатов.
Нагрузки заданий опросника по семи факторам приведены в табл. 3.7 (включены нагрузки, абсолютное значение которых не менее 0,3).
Нетрудно убедиться, что значения коэффициента надежности—согласованности Кронбаха достаточно велики для выделенных факторов, а это свидетельствует об однородности построенных шкал. Поскольку не существует формальных способов проверки гипотезы о равенстве нулю коэффициента Кронбаха, в своей работе мы использовали его лишь в качестве дескриптивной меры согласованности заданий исходных и полученных с помощью факторного анализа шкал. Напомним, что для шкал опросников наиболее характерны значения коэффициента Кронбаха в диапазоне 0,6-0,8.
На завершающем этапе исследования нами были рассчитаны среднее и стандартное отклонения для новых и оригинальных ключей1 (табл. 3.9,3.10).
Результаты проведенного исследования позволили ответить на вопрос о том, насколько мы точны в измерении факторов, постулированных Кеттеллом. Предварительные нормативные данные могут служить ориентиром для заключений об относительной степени выраженности у испытуемого некоторых личностных черт. Памятуя об ограниченности выборки, отметим, что новые «ключи» и нормы следует использовать с известной осторожностью.
Стандартизированный тест — экспериментальная группа, тесты и испытуемые
Тест, проводимый группе испытуемых в одинаковых экспериментальных условиях и оцениваемый одинаково.
Стандартизированные тесты используются в психологии, а также в повседневной жизни для измерения интеллекта , способностей, достижений, личности , взглядов и интересов. Предпринимаются попытки стандартизировать тесты, чтобы устранить предубеждения, которые могут возникнуть сознательно или бессознательно из-за разнообразного проведения теста. Стандартизированные тесты используются для получения норм или статистических стандартов, которые служат основой для сравнения между отдельными членами группы субъектов. Тесты должны быть стандартизированы, надежны (давать непротиворечивые результаты) и достоверны (воспроизводимы), прежде чем их можно будет считать полезными психологическими инструментами.
Стандартизированные тесты вызывают большие споры как в психологических кругах, так и особенно в сфере образования, потому что добиться истинной стандартизации трудно. Некоторые требования должны строго соблюдаться. Например, испытуемым должно быть предоставлено одинаковое количество времени для прохождения теста. Указания должны даваться в одних и тех же формулировках от группы к группе, без приукрашиваний, поощрений или предупреждений. Оценка должна быть точной и последовательной. Даже невольная шутка администратора теста, которая расслабляет испытуемых, или проведение теста в слишком жарком или слишком холодном помещении может рассматриваться как нарушение спецификаций стандартизации. Из-за сложности соответствия таким строгим стандартам стандартизированные тесты широко критикуются.
Критики использования стандартизированных тестов для измерения успеваемости или классификации детей критически настроены и по другим причинам. Говорят, что установление норм не дает достаточно конкретной информации о том, что знают дети. Скорее, они выявляют средний уровень знаний. Во-вторых, критики утверждают, что такие тесты побуждают педагогов и общественность сосредоточивать свое внимание на группах, а не на отдельных людях. Улучшение результатов тестов для улучшения общественного имиджа или получения государственного финансирования становится более важным, чем обучение отдельных детей навыкам, которые им необходимы для развития. Другая критика заключается в том, что тесты по своей природе не могут измерить знание сложных навыков, таких как решение проблем и критическое мышление. «Обучение тесту» — подготовка учащихся к тому, как отвечать на вопросы, требующие заполнения пропусков или с несколькими вариантами ответов, — имеет приоритет над обучением более практическим, менее объективным навыкам, таким как письмо или логика.
Тесты достижений , I.Q. тесты и шкалы интеллекта Стэнфорда-Бине являются примерами широко используемых стандартизированных тестов.
Хаутс, Пол Л., изд. Миф об измеримости. Нью-Йорк: Hart Publishing Co., 1977.
Уоллес, Бетти и Уильям Грейвс. Отравленное яблоко: кризис кривой нормального распределения и как наши школы порождают посредственность и неудачи. Нью-Йорк: St. Martin’s Press, 1995.
Зимбардо, Филип Г. Психология и жизнь. Гленвью, Иллинойс: Скотт, Форесман, 1988.
В чем смысл стандартизированного тестирования?
Источник: Pexels
Стандартные тесты часто вызывают споры о том, насколько хорошо они достигают своей цели — эгалитаризма. Идея стандартизированных тестов заключается в том, что они дают каждому шанс, независимо от его ситуации: получить хорошие оценки на тесте, доказать свои способности. Предполагается, что стандартизированные тесты являются общей мерой интеллекта. И общий интеллект должен быть независимым от ситуации. Тем не менее, было показано, что стандартизированные тесты коррелируют с социально-экономическим статусом. Вопрос, мягко говоря, сложный. Но есть аспект стандартизированного тестирования, о котором часто не говорят.
Стандартизированные тесты предназначены для проверки учащихся на предмет того, что они должны знать. Возьмем SAT, основу для поступления в колледж. Секция математики не предполагает, что вы будете проходить ускоренный курс. Но если у вас нет за поясом какой-либо из концепций, тест обязательно их выявит. Аналогично с вербальной частью. Это не предполагает, какие тексты вы читали. Но он просит вас читать тексты в условиях ограниченного времени и без какого-либо предварительного знакомства с предметом или автором. SAT рисует четкую линию на тротуаре и говорит: «Мы ожидаем, что вы здесь». И если вы не уложитесь в линию, они точно определят, насколько.
Но что, если вы превысите черту? Очень немногие студенты получают высший общий балл за SAT. Но довольно многие получают идеальные или почти идеальные оценки в одном из разделов. Часто это компромисс между количественными и качественными навыками; учащиеся могут преуспеть в математике, но не в чтении, или наоборот. SAT разработан, чтобы выяснить, готов ли студент поступить в колледж. Но помимо способности решать математические задачи по сравнению с пониманием прочитанного, они не говорят вам, что студентка готова делать, когда она учится в колледже.
Тем не менее, это наилучший сценарий — учащийся очень хорошо сдал тест. Скорее всего, если учащийся в чем-то особенно хорош, тест этого не зафиксирует. Вы можете взять, например, почти все, что не относится к математике, чтению или письму; но подумайте о драме. Театральные дети, возможно, считались странными в старшей школе, но, оглядываясь назад, я надеюсь, что мы все видим, что у них есть значительный талант. Большинство из этих талантов — это те вещи, которые мы отчаянно хотели бы реализовать во взрослом возрасте: привлечение внимания аудитории, помощь в раскрытии лучших качеств своих сотрудников, готовность делать что-то независимо от того, что об этом думают другие. Очевидно, что стандартизированные тесты не могут зафиксировать такие вещи.
Единственное, что могут измерить стандартные тесты , это то, не отстает ли учащийся. Они предназначены для того, чтобы тыкать и подталкивать, пока не будет найдено слабое место. Как только уязвимость обнаружена, недостаток каталогизируется, и процесс продолжается до тех пор, пока не будет выявлен другой. Лучшее, что может сказать о вас стандартный тест, это то, что вы не обладаете легко определяемыми слабостями. Стандартные тесты измеряют только отсутствие слабости. Они не измеряют наличие силы.
Это не похоже на то, чем должно быть образование. Что образование должно сделать, так это взять природные дары ученицы и побудить ее использовать их в полной мере. Образованный гражданин — это тот, кто приносит свои дары на стол общества, а не тот, кто доказал свою способность пережить побои с наименьшим хныканьем. Важно не выяснить, в чем ученики плохи, а в чем они хороши. Это тоже сложная часть.
Причина, по которой стандартизированные тесты не могут измерить прочность, заключается в том, что они стандартизированы. Сильные стороны не являются универсальными. Толстой писал, что «все счастливые семьи похожи друг на друга, каждая несчастливая семья несчастлива по-своему». В случае с семьями хорошее однородно, а плохое разнородно. Для интеллекта все наоборот. Слабости все одинаковые. Вот почему SAT может измерять их последовательно и по всем направлениям. Но каждая сила сильна по-своему. Единственный тест, который мы разработали и который достаточно надежен для выявления сильных сторон, называется жизнь, и даже он несовершенен.
Однако это не аргумент против стандартизированных тестов. Есть один вид силы, которую они могут измерить: насколько хорошо ученик проходит стандартные тесты. Это не должно быть интересующей нас силой только . Но ее также не следует отбрасывать. Причина, по которой учащимся из неблагополучных семей могут быть полезны такие тесты, как SAT, заключается в том, что это дает им редкую возможность соревноваться в той же области, что и более привилегированные. Если они выиграют, мы должны отнестись к этому серьезно.