Стандартизация в психологии это: Стандартизация психодиагностических методик

Содержание

Стандартизация психодиагностических методик

Диагностическая методика отличается от любой исследовательской тем, что она стандартизирована.

Стандартизация (по Анастази) – это единообразие процедуры проведения и оценки выполнения теста. Таким образом, стандартизация рассматривается в двух планах: как выработка единых требований к процедуре эксперимента и как определение единого критерия оценки результатов диагностических испытаний.

Стандартизация процедуры эксперимента подразумевает унификацию инструкций, бланков обследования, способов регистрации результатов, условий проведения обследования.

Требования к проведению эксперимента:

  1. инструкции следует сообщать испытуемым одинаковым образом, как правило, письменно; в случае устных указаний они даются в разных группах одними и теми же сло-вами, понятными для всех, в одинаковой манере;
  2. ни одному испытуемому не следует давать никаких преимуществ перед другими;
  3. в процессе эксперимента не следует давать отдельным испытуемым дополнительные пояснения;
  4. эксперимент с разными группами следует проводить в одинаковое по возможности время дня, в сходных условиях;
  5. временные ограничения в выполнении заданий для всех испытуемых должны быть одинаковыми и так далее.

Другим наиболее важным этапом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний, поскольку диагностические методики не имеют заранее определённых стандартов успешности или неудачи в их выполнении.

Стандартизация методики осуществляется путем ее проведения на большой репрезентативной выборке такого типа, для которого методика предназначена. Относительно этой группы испытуемых вырабатываются нормы, указывающие не только средний уровень выполнения, но и относительную вариативность выше и ниже среднего уровня.

Для выполнения статистической нормы применяются приемы математической статистики х ± σ (х – среднее арифметическое, σ — станд. отклонения). x ± 5 σ

Процентиль – это процентная доля индивидов из выборки стандартизации.

Под руководством Гуревича разрабатываются тесты, в которых в качестве точки отсчета выступает независимый от результатов испытания, объективно заданный социально-психологический норматив. Он реализуется в совокупности заданий составляющих тест. Сам тест в полном его объеме и является таким нормативом.

При разработке и применении любой точки отсчета следует обратить внимание на выборку испытуемых. В математической статистике различают генеральную совокупность (популяция) и выборку. Всякая большая совокупность людей относительно которой мы собираемся делать выводы называется генеральной совокупностью.

Выборка – это часть, или подмножество, совокупности. Проводить исследования для популяции не принято. Обычно из нее выделяется группа людей – выборка стандартизации, которая реально подвергается тестированию, и с ее помощью оценивается генеральная совокупность. Чтобы оценки носили достоверный характер выборка должна быть репрезентативна, представительна для рассматриваемой популяции, то есть ее вероятные свойства должны совпадать или быть близкими к свойствам генеральной совокупности.

Один из способов обеспечения репрезентативности выборки является ограничение популяции (пол, возраст, профессия, здоровье, социально-эконом. статус и др.). Такая популяция определяется как специфическая.

  1. Отбор испытуемых в выборку стандартизации
  2. Определение популяции с выделением в ее структуре переменных значимых, малозначимых (возраст, пол)
  3. Популяция делится на части в зависимости от значимых переменных.
  4. Испытуемые отбираются в случайном порядке и пропорционально численности каждой значимой части совокупности. Минимальный порог выборки – 200 человек.

Статистическая норма – критерий, по которому проводят сравнение результатов диагностических методик.

Возрастная норма – как показатель, который появляется в тестах Бене-Симона (норма – сделать все задания).

Внешний критерий – критерий выполнения.

Процентиль – это процентная доля индивидов из выборки стандартизации, первичный результат которому ниже данного первичного показателя. Процентили указывают на относительное положение индивида в выборке стандартизации. Чем ниже процентиль, тем хуже позиция индивида. Процентили нельзя смешивать с обычными процентными показателями, которые являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль – это производный показатель, указывающий на долю от общего числа членов группы.

Стандартизация — Psy-Testology

Психометрика‎ > ‎

Стандартизация


Стандартизация – унификация, приведение к единым нормативам процедуры и оценок теста. Благодаря стандартизации методики достигается сопоставимость полученных результатов у разных испытуемых и появляется возможность выражения тестовых оценок в относительных к выборке стандартизации показателях.

1)    Стандартизация – обработка и регламентация процедуры проведения, унификация инструкции, бланков обследования, способов регистрации результатов, условий проведения обследования, характеристика контингентов испытуемых. Строгая периодичность процедуры обследования – обязательное условие обеспечения надежности теста и определения тестовых норм для оценивания результатов в обследования.

2)    Стандартизация – преобразование нормальной шкалы оценок в новую шкалу, основанную не на количественных значениях изучаемого показателя, а на его относительном месте в распределении результатов в выборке испытуемых.

Этапы стандартизации

1 этап. Создание единообразной процедуры тестирования.

Она состоит из определения моментов диагностической ситуации.

·         Условия тестирования (помещение, освещение и др. внешние факторы).

·         Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.).

·         Наличие стандартного стимульного материала (например, карты Роршаха).

·         Временные ограничения выполнения данного теста.

·         Стандартный бланк для выполнения данного теста.

·         Учет влияния ситуационных факторов на процесс и результат тестирования.

·         Учет влияния поведения диагноста на процесс и результат тестирования

·         Учет влияния опыта испытуемого в тестировании.

2 этап. Создание единообразной оценки выполнения теста. Стандартной интерпретации полученных результатов и предварительной стандартной обработки. На этом этапе сравнивается полученный показатель с нормой выполнения этого теста для данного возраста.

3 этап. Определение норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и т.д.

z-стандартный показатель

Наиболее распространенным преобразование первичных оценок являются центрирование и нормирование посредством среднеквадратических отклонений. Процедура нормирования заключается в переходе к другим единицам измерения.

В качестве функции нормирования обычно выступает Z-показатель(стандартный показатель), который выражает отклонение индивидуального результата Х  в единицах, пропрорциональных стандартному отклонению.

Более широкое распространение в психодиагностике получили стандартные показатели, рассчитываемые на основе линейного и нелинейного преобразования первичных показателей, распределенных по нормальному или близкому к нормальному закону. При таком расчете проводится z-преобразование оценок. Чтобы определить z-стандартный показатель, определяют разность между индивидуальным первичным результатом средним значением для нормальной группы, а затем делят эту разность на δ нормативной выборки.

Х – сырой балл (количество выполненных заданий)

Мх – средняя величина выполненных заданий по всей выборке

δ – среднеквадратичное отклонение (в зарубежной психологии SD)

 

Математик Карл Гаусс предложил функцию, описывающию нормальное распределение. График уравнения нормального распределения – симметричная унимодальная колоколообразная кривая (или кривая нормального распределения).

Назовем среднее арифметическое Мх, а стандартное отклонение δ (сигма малая). При нормальном распределении все изучаемые величины находятся в пределах Мх ± 5 δ.

Это позволяет заранее рассчитать сколько случаев будет расположено в определенном удалении от средеарифметического (и в зависимости от стандартного отклонения).

В пределах Мх ± δ находится 68,26 %, остальные  31,74 % расположены симметрично по 15,87

В пределах Мх ± 2 δ находится 95,44 %

А в пределах Мх ± 3 δ находится 99,72 %

ПРОЦЕНТИЛИ

Процентиль – процентная доля индивидов из выборки стандартизации, результат которых ниже данного первичного показателя. Шкалу процентилей можно рассматривать как совокупность ранговых градаций при числе рангов 100 и отсчете от 1-го ранга, соответствующего самому низкому результату;

50-й процентиль (Р 50 )соответствует медиане распределения результатов

Процентили не следует смешивать с обычными процентными показателями. Последние представляют собой долю правильных решений из общего количества заданий теста в индивидуальном результате. Ранги Р 1     и     Р 100  получают соответственно самый низкий и самый высокий результаты из наблюдавшихся в выборке, однако этим рангам могут соответствовать и далеко не нулевой (ни одного правильного решения) или абсолютный (все решения правильны) показатели. Например, при общем количестве 120 заданий минимальный результат, соответствующий первому рангу, может составить 6 правильных решений, в то время как максимальный результат, соответствующий рангу 

Р 100  , будет составлять 95 правильно решенных заданий. Такая ситуация наблюдается, например, при оценке тестов скорости.

Основной недостаток процентильных шкал состоит в неравномерности единиц измерения. При нормальном распределении отдельные переменные тесно группируются в центре распределения и по мере удаления к краям рассеиваются. Поэтому равным частотам случаев вблизи центра соответствуют более короткие интервалы по оси абсцисс, расположенные по краям распределения оценок. Процентили показывают относительное положение каждого испытуемого в нормальной выборке, но не величину различий между результатами. Это создает некоторые неудобства в интерпретации индивидуальных результатов. Так, разница в первичных показателях, соответствующая интервалу 

Р 70   –   Р 80,  может составить 10баллов, а различие в количестве правильных решений в интервале рангов Р50   –   Р60  — лишь 1 – 3 балла.

Вместе с тем процентильные оценки обладают и рядом достоинств. Они легко доступны пониманию пользователей психодиагностической информацией, универсальны по отношению к различным типам методик и легко рассчитываются.

Статистические нормы

А. Статистические нормы. Граничные значения на шкале тестовых баллов, образованные на основе частотного распределения тестовых баллов в выборке стандартизации. Как правило, эти граничные значения отделяют от выборки фиксированный процент испытуемых: (дециль), 25 (квартиль), 50 (медиана).

При нормальном распределении статистическая норма описывается с помощью параметров (среднее плюс/минус сигма, или стандартное отклонение). Статистические нормы служат принятию «сравнительный решения» и не дают информации для принятии «нормативных решений»

Б. Возрастные нормы – частные варианты психодиагностических норм, собранные для детей разного возраста.

В. Критериальные нормы  — диагностические нормы, в которых задано соответствие между тестовыми баллами по шкале измеряемого свойства и уровнем критериального показателя. В случае критериального поведения критериальные нормы  указывают на вероятность появления критериального поведения при данном значении тестового балла.

Г. Школьные нормы разрабатываются на основе тесов школьных достижений или тестов школьных способностей.

Д. Профессиональный нормы. Устанавливаются на основе тестов для различных профессиональных групп.

Е. Локальные нормы. Устанавливаются для узких категорий людей, отличающихся наличием общего признака – возраста, пола, географического района, социоэкономического статуса.

Ж. Национальные нормы. Разрабатываются для представителей данной нации или страны в целом.

СТАНАЙНЫ

Примером нелинейного преобразованной в стандартную шкалу является и шкала станайнов (англ. standart   nine – стандартная девятка), где оценки принимают значения от 1 до 9, М = 5, δ = 2

Шкала станайнов получает все большее распространение, сочетая в себе достоинства стандартных шкальных показателей и простоту процентилей. Первичные показатели легко преобразуются в станайны. Для этого испытуемых ранжируют по возрастанию результатов и из них образуют группы с числом лиц, пропорциональным определенным частотам оценок в нормальном распределении тестовых результатов.

СТЭНЫ

 При трансформации оценок в шкалу стэнов (от англ. standsrt ten —  стандартная десятка) проводится аналогичная процедура с той лишь разницей, что в основании этой шкалы лежат десять стандартных интервалов.

www.Psyarticles.ru — учебные статьи по психологии

Учебные материалы по психологии и психологические статьи — основное содержание сайта.

Проект в значительной степени рассчитан на самообразование читателей, ранее систематически не изучавших психологию, однако может оказаться полезным и для специалистов, расширяющих свой профессиональный кругозор.

Материалы сайта представляют собой наиболее важные и интересные фрагменты из учебных пособий и научных работ из самых разнообразных отраслей психологии.

Проект будет полезен психологам и врачам, студентам и преподавателям, специалистам в области управления, а также широкому кругу читателей, интересующихся вопросами современной психологии.

Предпосылки возникновения конфликта в процессе общения

Рассмотрим особенности поведения человека в конфликтной ситуации прежде всего в процессе общения. В процессе человеческих взаимоотношений, как вы уже знаете из предыдущих разделов, процесс общения предполагает наличие следующих трех факторов: восприятия, эмоций и обмена информацией. В конфликтных ситуациях легко забыть об этом. Поэтому кратко рассмотрим, что же может создавать почву для их возникновения.

Социально-психологические предпосылки. Первая трудность — это разногласия из-за несовпадения ваших рассуждении с рассуждениями другой стороны. Ведь то, какой вы видите проблему, зависит от того, с какой колокольни, образно говоря, смотрите на нее.

Специфика конфликтов в образовательных процессах

В культурно-историческом подходе Л.С. Выготского процессы образования рассматриваются, с одной стороны, как предназначенные для разрешения противоречий развития общества, с другой — как обладающие внутренне противоречивым характером.

Мы придерживаемся именно этого подхода, и вслед за Л.С. Выготским и его последователями исходим из того, что конфликт представляет собой механизм развития человеческой деятельности и соответственно личности.

Современная психология: ее задачи и место в системе наук

В последние годы наблюдается бурное развитие психологической науки, обусловленное многообразием теоретических и практических задач, встающих перед нею. В нашей стране интерес к психологии особенно показателен — ей наконец-то начинают уделять то внимание, которого она заслуживает, причем практически во всех отраслях современного образования и бизнеса.

Основной задачей психологии является изучение законов психической деятельности в ее развитии. В течение последних десятилетий значительно расширились диапазон и направления психологических исследований, появились новые научные дисциплины.

Методы психологии

Методы научных исследований — это те приемы и средства, с помощью которых ученые получают достоверные сведения, используемые далее для построения научных теорий и выработки практических рекомендаций.

Сила науки во многом зависит от совершенства методов исследования, от того насколько они валидны и надежны, как быстро и эффективно данная отрасль знаний способна воспринять и использовать у себя все самое новое, передовое, что появляется в методах других наук.

Алгоритм оценки достоверности информации в результате психофизиологического исследования с применением полиграфа

Двадцать лет назад использование прибора способного отличить ложь от правды – «детектора лжи» было исключительной прерогативой спецслужб ведущих мировых держав. За прошедшие годы ситуация кардинально изменилась.

Проверки на «детекторе», стали доступными для широкого круга потребителей – правоохранительных органов, руководителей коммерческих и банковских структур, представителей кадровых служб, частных охранных предприятий и просто граждан, желающих получить достоверную информацию.

Процесс формирования двигательного навыка. Принцип активности и его развитие Н.А. Бернштейном

Переходим к следующей важной теме, совершенно по-новому раскрытой Н. А. Бернштейном, — механизмам формирования навыка. Эта проблема очень важна для психологии, так как формирование навыков составляет, как вы уже знаете, основу всякого обучения.

Процесс формирования навыка описан у Бернштейна очень подробно. Он выделил много частных фаз — порядка семи, которые объединяются в более общие периоды. Для первого знакомства достаточно будет разобрать эти периоды.

Проблема психодинамического диагноза

Психодинамическая диагностика, в отличие от дискретно-описательного диагностического подхода, укоренившегося в отечественных медицинской и психологической традициях, представляет собой прежде всего диагностику структуры личности с точки зрения ее развития.

Подобный подход, обеспечивающий целостный и всесторонний анализ личности и ее психопатологии, определяет и специфику терапевтических методов.

Психологическая профилактика конфликтов в коллективе

Многие организационные конфликты легче предупредить, чем разрешить.

Поскольку центральными фигурами конфликтов в организации являются конкретные личности, то такая профилактика должна быть личностно-ориентированной.

Остановимся на некоторых особо значимых организационно-управленческих условиях, способствующих снижению конфликтности личности.

Четыре элемента процесса убеждения

Процесс убеждения складывается из следующих элементов: агент влияния (источник сообщения), само сообщение, условия, в которых передается сообщение (контекст), и реципиент, то есть тот индивид, которому предназначено сообщение.

Само сообщение, в зависимости от его содержания, от того, как оно сформулировано и в какой форме преподнесено, также может либо убеждать, либо внушать. Но может и не иметь вообще никакого эффекта.

Повышение уровня сознания. Насколько это важно?

Тема самосовершенствования и развития человеческих качеств, можно сказать, вечная, при этом мудрые люди часто повторяют, что самой важной задачей для каждого человека является развитие его собственного сознания.

Несмотря на очевидную важность темы, серьезных и качественных материалов, посвященных этому вопросу, не так уж и много, хотя периодически все же появляются интересные работы.

Адаптация и стандартизация методик

Используй поиск, чтобы найти научные материалы и собрать список литературы

База статей справочника включает в себя статьи написанные экспертами Автор24, статьи из научных журналов и примеры студенческих работ из различных вузов страны

Содержание статьи

1. Технология адаптации методики

2. Технология стандартизации методик

Для начала определим круг разработанности данной проблемы и кратко перечислим ученых.

Ученые, которые занимались проблемой адаптации и стандартизации методик в психодиагностике:А. Анастази и др.

Далее рассмотрим понятие адаптации и стандартизации методик, а также их сущность и процесс.

Определение

Адаптация методики иногда может сводиться к ее переконструированию с учетом культурной среды.

Стандартизация методики – единообразие процедуры проведения методики и оценки полученных в ходе обследования результатов.

Технология адаптации методики

Рассмотрим наиболее часто встречающиеся ситуации в технологии адаптации различных психодиагностических методик.

  1. Ситуация применения. В данной ситуации тест уже был кем-то разработан, скорее всего, в другой культуре; также были получены его нормы.
  2. Ситуация адаптации. Здесь также возможна разработка теста, однако отсутствуют сами тестовые нормы.
  3. Ситуация конструирования. В такой ситуации есть определенная концепция того или иного психического свойства, однако нет инструмента его измерения. Соответственно, задача состоит не только в конструировании самого теста, но и проверке его надежности, валидности, а также выведении тестовых норм для данной методики.

Наиболее часто приходится сталкиваться с ситуацией применения.

Таким образом, основная задача состоит в адаптации той или иной методики для определенной культурной среды.

Рассмотрим основные этапы работыvпри внутрикультурном переносе методики.

  1. Изучение внутренней валидности. Здесь происходит анализ внутренней согласованности пунктов методики.
  2. Проверка ретестовой надежности. Важно проверить устойчивость к перетестированию методики, так как любая методика должна давать некий прогноз.
  3. Анализ внешних коррелятов.
  4. Проверка тестовых норм методики.
  5. Проверка воспроизводимости отношений между шкалами методики.

Технология стандартизации методик

Стандартизацию методик в психодиагностике можно рассматривать как:

  1. выработка единых требований к процедуре обследования;
  2. определение единого критерия оценки полученных результатов.

Существуют также определенные требования к проведению методик.

  1. Инструкции. Инструкции сообщают испытуемым одним и тем же образом, с одной и той же интонацией.
  2. Преимущества. Не следует давать одним испытуемым преимущества перед другими.
  3. Пояснения. Не стоит давать никаких пояснений, кроме пояснений, предусмотренных инструкцией методики.
  4. Одинаковые условия. Обследования в разных группах следует проводить в одних и тех же условиях.
  5. Время. Одинаковые временные ограничения для всех испытуемых.

Другим наиболее важным этапом в стандартизации методики является выбор критерия, по которому следует проводить сравнение результатов диагностических испытаний.

Стандартизация методики осуществляется путем ее проведения на большой репрезентативной выборке такого типа, для которого методика предназначена. Относительно этой группы испытуемых вырабатываются нормы, указывающие не только средний уровень выполнения, но и относительную вариативность выше и ниже среднего уровня.

Рисунок 1. «Вывод тестовых норм»

Для выполнения статистической нормы применяются приемы математической статистики $x \pm \sigma$ ($х$ – среднее арифметическое, $\sigma$ — стандартное отклонение). $Х \pm 5\sigma$. На рисунке 1 представлена схематичная модель стандартизации.

Определение

Процентиль – это процентная доля индивидов из выборки стандартизации.

Отбор испытуемых в выборку стандартизации осуществляется следующим образом:

  1. дается определение популяции с выделением в ее структуре переменных, значимых и малозначимых для изучаемого психического явления;
  2. популяция делится на части в соответствии со значимыми переменными;
  3. испытуемые отбираются в случайном порядке и пропорционально численности каждой значимой части совокупности.

Сообщество экспертов Автор24

Автор этой статьи Дата последнего обновления статьи: 12.02.2022

Выполнение любых типов работ по психологии

Заказать ВКР по психологии Сочинение на тему зависть — плод слабости и несвободы Реферат по психологии на тему экзистенциальная исполненность личности Реферат по психологии на тему психология как наука управления людьми Курсовая работа на тему исследование самооценки в психологии Отчет по практике по психологии Реферат по психологии общения Реферат по психологии на тему стресс и стрессоустойчивость Реферат на тему общение Реферат на тему психология личности

Подбор готовых материалов по теме

Дипломные работы Курсовые работы Выпускные квалификационные работы Рефераты Сочинения Доклады Эссе Отчеты по практике Решения задач Контрольные работы

ГЛАВА 4.

Стандартизация в психологическом исследовании — Студопедия

Поделись  


Понятие стандартизации. Стандартизированные и нестандартизированные методики. Этапы стандартизации и их содержание. Расчет тестовых показателей. Валидность и надежность методик, способы их проверки. Виды данных в психологическом исследовании. Преобразование первичных данных в производные показатели.

Понятие стандартизации означает единообразие процедуры проведения исследования и оценки его результатов. В основном процедуре стандартизации подлежат тесты, опросники, проективные и физиологические методики.

Все методы психологического исследования можно разделить на стандартизированные и нестандартизированные. К стандартизированным относятся тесты, опросники, проективная техника и психофизиологические методики. Для них характерна жесткая регламентация процедуры обследования (точное соблюдение инструкций, строго определенные способы предъявления стимульного материала, невмешательство исследователя в деятельность испытуемого и др. ), стандартизация (наличие норм или других критериев оценки результатов), надежность и валидность. Эти методики позволяют собрать диагностическую информацию в относительно короткие сроки и в таком виде, который дает возможность количественно и качественно сравнивать индивида с другими людьми.

К нестандартизированным методикам следует отнести такие приемы, как наблюдения, опросы, анализ продуктов деятельности. Эти способы дают очень ценные сведения об испытуемом, особенно когда предметом изучения выступают психические явления, которые плохо поддаются объективизации (например, субъективные переживания, личностные смыслы) или являются чрезвычайно изменчивыми (динамика целей, состояний, настроений и т.д.). Вместе с тем следует иметь в виду, что нестандартизированные методики очень трудоемки (например, наблюдения за обследуемым осуществляются иногда в течение нескольких месяцев) и в большей степени основаны на профессиональном опыте, психологической интуиции самого исследователя. Только наличие высокого уровня культуры проведения психологических наблюдений, бесед помогает избежать влияния случайных и побочных факторов на результаты обследования.

Нестандартизированные диагностические средства не следует противопоставлять стандартизированным методикам. Как правило, они взаимно дополняют друг друга. В полноценном диагностическом обследовании необходимо гармоничное сочетание стандартизированных методик с нестандартизированными. Так, сбору данных с помощью тестов должен предшествовать период ознакомления с обследуемыми по некоторым объективным и субъективным показателям (например, с биографическими данными испытуемых, их склонностями, мотивацией деятельности и т.д.). С этой целью могут быть использованы интервью, опросы, наблюдения.

Для того чтобы методику признали надежной и объективно выявляющей необходимые индивидуально-психологические особенности, она должна пройти процедуру стандартизации. Чаще всего стандартизации подвергаются тесты и опросники, она включает три этапа.

Первый этап стандартизации психологического теста состоит в создании единообразной процедуры тестирования. Она включает определение следующих моментов диагностической ситуации:

1 Условия тестирования (помещение, освещение и др. внешние факторы). Очевидно, что объем кратковременной памяти лучше измерять (например, с помощью субтеста повторения цифровых рядов в тесте Векслера), когда нет внешних раздражителей, таких как посторонние звуки, голоса и т.д.

2 Содержание инструкции и особенности ее предъявления (тон голоса, паузы, скорость речи и т.д.). Например, в тесте «10 слов» каждое слово должно предъявляться через определенный интервал времени в секундах.

3 Наличие стандартного стимульного материала. Например, достоверность полученных результатов существенно зависит от того, предлагаются респонденту изготовленные самодельные карты Г. Роршаха или стандартные – с определенной цветовой гаммой и цветовыми оттенками.

4 Временные ограничения выполнения данного теста. Например, для выполнения теста Равена взрослому респонденту дается 20 минут.

5 Стандартный бланк для выполнения данного теста. Это облегчает процедуру обработки результатов.

6 Учет влияния ситуационных переменных на процесс и результат тестирования. Под переменными подразумевается состояние испытуемого (усталость, перенапряжение и т.д.), нестандартные условия тестирования (плохое освещение, отсутствие вентиляции и др.), прерывание тестирования.

7 Учет влияния поведения диагноста на процесс и результат тестирования. Например, одобрительно-поощряющее поведение экспериментатора во время тестирования может восприниматься респондентом как подсказка «правильного ответа» и др.

8 Учет влияния опыта респондента в тестировании. Естественно, что респондент, который уже не в первый раз проходит процедуру тестирования, преодолел чувство неизвестности и выработал определенное отношение к тестовой ситуации. Например, если респондент уже выполнял тест Равена, то, скорее всего, не стоит предлагать ему его во второй раз.

Второй этап стандартизации психологического теста состоит в создании единообразной оценки выполнения теста: стандартной интерпретации полученных результатов и предварительной стандартной обработки. Здесь предполагается разработка процедуры подсчета баллов и пр. Этот этап реализует сравнение полученных показателей с нормой выполнения этого теста для данного возраста (например, в тестах интеллекта), пола и т.д. (таблица 4).

Третий этап стандартизации психологического теста состоит в определении норм выполнения теста. Нормы разрабатываются для различных возрастов, профессий, полов и др.

Таблица 4.

Виды норм

Школьные нормы разрабатываются на основе тестов школьных достижений или тестов школьных способностей. Они устанавливаются для каждой школьной ступени и действуют на всей территории страны.
Профессиональные нормы устанавливаются на основе тестов для разных профессиональных групп (например, механиков разного профиля, машинисток и др.).
Локальные нормы устанавливаются и применяются для узких категорий людей, отличающихся наличием общего- признака – возраста, пола, географического района, социо-экономического статуса и др. Например, для теста Векслера на интеллект нормы ограничены возрастными рамками.
Национальные нормы разрабатываются для представителей данной народности, нации, страны в целом. Необходимость таких норм определяется конкретной культурой, моральными требованиями и традициями каждой нации.

Наличие нормативных данных (норм) в стандартизованных методах и является их существенной характеристикой.

Нормы необходимы при интерпретации тестовых результатов (первичных показателей) в качестве эталона, с которым сравниваются результаты тестирования. Например, в тестах интеллекта получаемый первичный показатель IQ соотносится с нормативным IQ (43, 44, 45 баллов в тесте Равена). Если полученный IQ респондента выше нормативного, равен 60 баллам (в тесте Равена), можно говорить об уровне развития интеллекта этого респондента как высоком. Если полученный IQ ниже, то о низком; если полученный IQ равен 43, 44 или 45 баллам, то о среднем.

Расчет тестовых показателей

Расчет тестовых показателей также может производиться путем сравнения с рядом критериев, например статистической нормой.

Понятие статистической нормы было введено коллективом сотрудников Стэнфордскогоьо университета под руководством Термена при работе со шкалам Бине.

Статистическая норма – это критерий, с которым можно сравнить индивидуальные тестовые показатели, оценивать их и давать им психологическую интерпретацию. На этапе создания теста формируется некоторая группа испытуемых, на которой проводится данный тест. Средний результат выполнения этого теста в данной группе принято считать статистической нормой. Средний результат – это не единственное число, а диапазон значений (см. рисунок 5). Для определения разброса значений используется понятие стандартного отклонения.

Рисунок 5 — Кривая нормального распределения для теста «Прогрессивные матрицы Равенна».

Существуют определенные правила формирования такой группы испытуемых, или, как ее иначе называют, выборки стандартизации.

Правила формирования выборки стандартизации:

1) должна состоять из респондентов, на которых в принципе ориентирован данный тест, то есть если создаваемый тест ориентирован на детей (например, тест Амтхауэра), то и стандартизация должна происходить на детях заданного возраста;

2) должна быть репрезентативной, то есть представлять собой уменьшенную модель популяции по таким параметрам, как возраст, пол, профессия, географическое распределение и т.д. Под популяцией понимается, например, группа дошкольников 6-7 лет, руководителей, подростков и т.д.

Для вычисления статистической нормы психологи-диагносты об­ратились к давно применяемым приемам математической статистики.

Рассмотрим пример. На призывной пункт явилось несколько тысяч молодых людей.

Допустим, что все они примерно одного возраста. Что мы получим при измерении их роста? Обычно оказывается, что большинство почти одного роста, совсем немного будет людей очень маленького и очень вы­сокого роста. Остальные же распределятся симметрично, уменьшаясь по количеству от среднего максимума в ту и другую сторону. Распреде­ление рассматриваемых величин — это нормальное распределение (или распределение по нормальному закону, кривая распределения Гаусса). Математики показали, что для описания такого распределения доста­точно знать два показателя — среднюю арифметическую и так назы­ваемое стандартное отклонение, которое получается путем несложных вычислений. Назовем среднюю арифметическую х, а стандартное откло­нение σ (сигма малая). При нормальном распределении все изучаемые величины практически находятся в пределах х + 5 σ.

Рассмотрим как определялась статистическая норма для тестов Стэнфорд-Бине. В группу испытуемых входили 4498 человек от 2,5 до 18 лет. Усилия стэнфордских психологов были направлены на то, чтобы распределение полученных по каждому возрасту данных о выполнении тестов было близко к нормальному. Этого результата удалось добиться далеко не сразу; в некоторых случаях ученым приходилось заменять одни задания другими. В конце концов эта работа была закончена, и бы­ли подготовлены тесты по каждому возрасту со средней арифметиче­ской, равной 100, и со стандартным отклонением, равным 16. Принима­ется, что результаты в пределах х ± σ показывают границы наиболее характерной, представительной части распределения, границы нормы для данного возраста. При σ = 16 и х = 100 эти границы нормы будут от 84 до 116. Интерпретируется это так: результаты испытуемых, которые не выходят за эти границы, находятся в пределах нормы. Те, чьи резуль­таты менее 84, находятся ниже нормы, а те, чьи результаты более 116, — выше нормы. Нередко этот же прием применяют и для дальнейшей клас­сификации. Тогда результаты в пределах от х-σ до х-2σ интерпрети­руются как «несколько ниже нормы», а от х-2 σ до х-Зσ — как «значи­тельно ниже нормы». Соответственно классифицируются результаты, находящиеся выше нормы.

Распределение результатов, полученных при тестировании испытуемых выборки стандартизации, можно изобразить с помощью графика – кривой нормального распределения.

Иногда тестовые показатели сравниваются не с нормой, а с объективно заданным показателем – социально-психологическим нормативом. В нашей стране под руководством К.М. Гуревича разрабатываются тесты, в которых в качестве точ­ки отсчета выступает не статистическая норма, а независимый от ре­зультатов испытания, объективно заданный социально-психологиче­ский норматив.

Социально-психологический норматив реализуется в совокупности заданий, составляющих тест. Следовательно, сам тест в полном его объеме и является таким нормативом. Все сопоставления индивиду­альных или групповых результатов тестирования проводятся с тем максимумом, который представляется в тесте (а это полный набор зна­ний). В качестве критерия оценки выступает показатель, отражающий степень близости результатов к нормативу. Имеется разработанная схема представления групповых количественных данных.

Для анализа данных относительно их близости к социально-психо­логическому нормативу, условно рассматриваемому как 100 % вы­полнение всего теста, все испытуемые подразделяются по результа­там тестирования на 5 подгрупп:

1) наиболее успешные — 10%;

2) близкие к успешным — 20%;

3) средние по успешности — 40%;

4) мало успешные — 20%;

5) наименее успешные — 10%.

Для каждой из подгрупп подсчитывается средний процент правиль­но выполненных заданий. Строится система координат, где по оси аб­сцисс идут номера подгрупп, по оси ординат — процент выполненных каждой из подгрупп заданий. После нанесения соответствующих то­чек вычерчивается график, отражающий приближение каждой из под­групп к социально-психологическому нормативу. Такая обработка проводится по результатам как теста в целом, так и каждого субтеста в отдельности.

Социально-психологический норматив (далее СПН) – это система требований, которые общество предъявляет к личностному и психическому развитию каждого члена. Эти требования и составляют содержание СПН и закрепляются в образовательных программах, они изменяются с развитием общества (например, требования к развитию ребенка в 6 месяцев, в 2 года, к моменту поступления в школу и пр.).

Валидность и надежность

Все методы психологической диагностики, начиная со стандартизованных и заканчивая нестандартизованными, направлены на измерение свойств личности и особенностей интеллекта.

Каждый метод предназначен для измерения какого-либо свойства, что и определяет содержание этого метода. Сведения о степени, в которой тест действительно измеряет то, для чего он предназначен, входят в понятие валидности. Например, методика «Кольца Ландольта» предназначена для измерения таких свойств внимания, как концентрация, переключаемость. В психологии существуют определения понятий концентрации внимания и его переключаемости. Считается, что выводы, сформулированные на основании результатов тестирования с помощью «Колец Ландольта», вполне отражают содержание определений этих свойств внимания. Значит, эта методика действительно измеряет то, для чего она предназначена.

Помимо общего значения в понятие валидности входят многие другие сведения. Существуют разные типы и виды валидности, в которых отражены эти сведения. Ниже приведены некоторые типы.

1 Практическая валидность характеризует тест не столько со стороны его психологического содержания, сколько с точки зрения его ценности в отношении достижения определенной практической цели (прогнозирования, диагностики). Выделяют подтипы практической валидности: прогностическая и совпадающая. Тест с высокой прогностической валидностью позволяет сделать прогноз, насколько успешно испытуемый будет выполнять определенную деятельность впоследствии. Тест с высокой совпадающей валидностью позволяет ответить на вопрос: «Какова вероятность того, что индивид Х обладает свойством У в настоящий момент времени?»

2 Валидность по объему отражает степень, в какой объем теста выборочно репрезентирует тот класс ситуаций или учебного материала, относительно которого должны быть сделаны выводы. Валидность по объему показывает, в каком объеме, в какой мере психическое свойство отражено в методике.

3 Оценочная валидность выражает степень корреляции (соответствия) между показателями, полученными испытуемыми по данному методу, и оценками измерительного свойства со стороны экспертов. Например, при валидации (проверке теста на валидность) тестов оценки умственных способностей школьников в качестве экспертов обычно выступают учителя.

4 Внешняя валидность означает, что впечатление, которое создается у неспециалистов при знакомстве со стимульным материалом и сугубо внешней стороной тестирования, соответствует заявленному содержанию метода.

Эффективная методика может быть создана, если она прошла все этапы валидации, то есть когда приняты меры для придания ей как содержательной валидности, так и практической.

О высокой надежности метода говорят тогда, когда метод очень точно измеряет то свойство, для измерения которого он предназначен, вне зависимости от времени и условий проведения теста. В качестве критериев точности можно отметить следующие:

1 При повторном применении метода к тем же самым испытуемым в одних и тех же условиях через определенный интервал времени результаты обоих тестирований существенно не различаются между собой.

2 Действия случайных посторонних факторов не оказывают существенного влияния на результаты тестирования. В качестве посторонних факторов можно назвать следующие: эмоциональное состояние и утомление, если они не входят в круг исследуемых характеристик, температура, освещенность помещения и др. Такие посторонние случайные факторы еще называют факторами нестабильности измерительной процедуры.

3 При повторном применении метода к тем же самым испытуемым через определенный интервал времени в измененных условиях результаты обоих тестирований существенно не различаются между собой. Под измененными имеется в виду следующие условия: другой экспериментатор, состояние респондента и др.

Существуют различные методы оценки надежности.

Ретестовый метод – повторное тестирование выборки испытуемых сиспользованием одного и того же теста через определенный интервал времени при одних и тех же условиях. Временной интервал зависит от возраста (например, у маленьких детей изменения могут произойти в течение одного месяца), а также событий, происходящих с испытуемым в жизни.

ТЕСТ ИНТЕРВАЛ РЕТЕСТ

За индекс надежности принимается коэффициент корреляции между результатами двух тестирований. Полученная высокая корреляция может быть результатом тренированности испытуемого на заданиях подобного типа; низкая корреляция может быть результатом происшедших изменений с испытуемым, а также может свидетельствовать о ненадежности теста.

Надежность взаимозаменяемых форм – повторное тестирование выборки испытуемых параллельной формой теста через минимальный интервал времени при одних и тех же условиях.

ТЕСТ А ИНТЕРВАЛ ТЕСТ А’

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя параллельными формами теста. Высокий коэффициент корреляции и большой интервал между двумя испытаниями свидетельствуют о высокой надежности теста.

Возможный обман со стороны испытуемого, его искушенность, события, происшедшие в интервале между тестированиями, не оказывают особого влияния (как в ретестовом методе) на степень надежности теста. Если фактор тренировки снижен при тестировании параллельными формами, то эффект переноса принципа заданий часто имеет место. Эффект переноса следует учитывать при построении параллельных форм тестов.

Требования к построению параллельных форм теста:

· должны быть независимо построенными тестами, но отвечать одним и тем же требованиям;

· должны содержать одинаковое количество заданий со сходной степенью трудности;

· эквивалентность параллельных форм необходимо проверять ретестовым методом.

Метод расщепления состоит в том, что тест разбивают на две сопоставимые части. Респондент выполняет задания этих двух частей в течение одного сеанса с получением двух результатов (например, тест Равена содержит две части: четные и нечетные задания).

За индекс надежности принимается коэффициент корреляции между результатами тестирования двумя этими частями. Он называется коэффициентом внутренней согласованности теста.

Тест может быть надежен, но не валиден. Это означает, что он измеряет какое-то свойство очень точно, но какое именно – остается под вопросом. В такой ситуации необходима более точная валидизация теста, как содержательная, так и практическая.

Преобразование первичных данных в производные показатели

Как известно, стандартизация теста предполагает единообразие процедуры интерпретации результатов и возможность сравнения индивидуальных показателей испытуемых между собой. Чаще всего в руководствах к тому или иному тесту можно встретить выражения нормы не в виде «сырых» баллов, а в виде стандартных производных показателей. То есть нормы к данному тесту могут быть выражены в виде Т-баллов, децилей, процентилей, станайнов, стандартных IQ и др. Перевод «сырых» значений (первичных показателей) в стандартные (производные) делается для того, чтобы результаты, полученные по разным тестам, можно было сравнивать между собой. Первичные показатели по разным тестам нельзя сравнивать между собой по причине того, что тесты имеют различное внутреннее строение. Например, IQ, полученный с помощью теста Векслера, нельзя сравнивать с IQ, полученным с помощью теста Амтхауэра, так как эти тесты исследуют разные особенности интеллекта, и IQ как суммарный показатель по субтестам складывается из показателей разных по строению и содержанию субтестов.

Производные показатели получаются путем математической обработки первичных показателей. Для обеспечения сравнения значений показателей разных тестов они переводятся в Z-оценки по формуле:

Z=Х-Хср./ δ,

где Х — индивидуальное значение показателя теста, Хср. — среднее арифметическое показателей, δ — стандартное отклонение.

Z-оценки имеют среднее значение, равное нулю, и стандартное отклонение, равное единице. Зачастую Z-оценки неудобны для практической работы, т.к. могут быть дробными, отрицательными. Поэтому чаще их переводят в стандартные шкалы с заданными средними значениями и отклонениями по формуле:

Z= [Х-Хср./ δ] *А + М,

где А – заданное стандартное отклонение, М – заданное среднее значение.

В настоящее время распространены следующие виды шкал:

· Т-шкала Маккола (М=50, А=10),

· шкала IQ (М=100, А=15),

· шкала стенов (М=5,5, А= 2),

· шкала стэнайнов (М=9, А=2).

Также есть еще один способ преобразовать «сырые» баллы в основу для сопоставления и сравнения — с помощью процентилей.

Процентиль — это процентная доля индивидов из выборки стандар­тизации, первичный результат которых ниже данного первичного по­казателя. Например, если 28 % людей правильно решат не более 15 задач в ариф­метическом тесте, то первичному показателю 15 соответствует 28-й про­центиль (Р28). Процентили указывают на относительное положение ин­дивида в выборке стандартизации. Их также можно рассматривать как ранговые градации, общее число которых равно 100, с той лишь разни­цей, что при ранжировании принято начинать отсчет сверху, т.е. с луч­шего члена группы, получающего ранг 1. В случае же процентилей от­счет ведется снизу, поэтому чем ниже процентиль, тем хуже позиция индивида.

50-й процентиль (Р50) соответствует медиане — одному из показа­телей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50, — сравнитель­но низкие показатели.

25-й и 75-й процентили известны также под на­званием 1-го и 3-го квартилей, поскольку они выделяют нижнюю и верхнюю четверти распределения. Как и медиана, они удобны для опи­сания распределения показателей и сравнения с другими распреде­лениями.

Процентили не следует смешивать с обычными процентными пока­зателями. Последние являются первичными показателями и представляют собой процент правильно выполненных заданий, тогда как процентиль — это производный показатель, указывающий на долю от общего числа членов группы. Первичный результат, который ниже любого показателя, полученного в выборке стандартизации, имеет ну­левой процентильный ранг (Ро). Результат, превышающий любой по­казатель в выборке стандартизации, получает процентильный ранг 100 (Р100). Эти процентили, однако, не означают нулевого или абсолютно­го результата выполнения теста.

Процентильные показатели обладают рядом достоинств, в частности:

· их легко рассчитать и понять даже неподготовлен­ному человеку;

· их применение достаточно универсально и подходит к любому типу тестов.

Недостаток процентилей: существенное неравенство единиц отсчета в том случае, когда анализируются крайние точки рас­пределения. При использовании процентилей (как уже отмечалось вы­ше) определяется только относительное положение индивидуальной оценки, но не величина различий между отдельными показателями.

Контрольные вопросы:

1 Дайте определение понятию «стандартизация методик».

2 Что такое репрезентативная выборка? Как она строится?

3 Назовите приведенные в главе критерии оценки результатов ди­агностических испытаний.

4 Что такое надежность методики? Назовите способы проверки надежности.

5 Что такое валидность методики? Назовите ее основные виды.

Практические задания:

Ознакомьтесь с результатами диагностики детей по тесту Филипса (таблица 5).

1 Определите Хср. и стандартное отклонение для каждого параметра.

2 Определите, является ли распределение нормальным.

3 Вычислите процентиль испытуемого №5.

4 Вычислите социально-психологический норматив по параметру 2.

Таблица 5.

Результаты диагностики школьной тревожности

Имя Возраст Факторы
Борис 9л. 5 м.
Вова 9л. 2м.
Виталик 9л. 8м.
Даша 10л. 1м.
Максим 10л. 1м.
Настя 9л. 11м.
Кирилл 11л. 6м.
Ксюша 9л.10 м.
Артем 10л.2м.
Алина 9л.10м.
Руслан 10л.1м.
Маша 8л. 8м.

Список литературы:

1 Аванесов В.С. Тесты в социологическом исследовании. М.: Наука, 1982.

2 Бурлачук Л.Ф. Психодиагностика. СПб., 2003.

3 Бурлачук Л.Ф., Морозов С.М. Словарь-справочник по психоло­гической диагностике. Киев, 1989.

4 Гуревич К.М., Акимова А.К., Козлова В.Т. Статистическая норма или социально-психологический норматив? // Психологический журнал. 1986. № 3.

5 Мельников В.М., Ямпольский Л.Т. Введение в экспериментальную психологию личности. М.: Просвещение, 1985. Гл. 4.

6 Психологическая диагностика: проблемы и исследования/под ред. К.М. Гуревича. М.: Педагогика, 1981. Гл. 2, 3, 5.



📖 Стандартизация, надежность и валидность, Методы изучения поведения, Глава 3. Исследования. Детская патопсихология. Мэш Э. Страница 17.

Читать онлайн
. . .

Изучение эмоциональных и поведенческих проблем детей требует, чтобы мы измерили эти проблемы способами, которые надежны, валидны и могут быть статистически проверены. Это нелегкая задача. Проблемы детей должны быть оценены на основании выборок поведения в ситуациях, которые часто отражают различные точки зрения взрослых. На эти оценки, скорее всего, повлияют возраст, пол и культурная среда ребенка, а также личные нормы оценивающих. В результате никакое одиночное измерение не способно дать полностью адекватную картину детских проблем, и необходимы множественные замеры и источники информации.

Стандартизация, надежность и валидность.

Измерения и методы, которые мы используем для изучения поведения ребенка и семьи, должны пройти тщательное исследование, с тем чтобы можно было определить, насколько точно они оценивают определенные конструкты, такие как депрессия, тревога или умственная отсталость. Использование хорошо стандартизованных, надежных и валидных единиц измерения и процедур крайне важно для подлинно научного исследования, как это показано на рис. 3.4.

Стандартизация
Приложение определенных стандартов или норм к приему, чтобы обеспечить его применимость в различных измерениях
НадежностьСтепень согласованности измерения
ВалидностьСтепень, в которой прием измеряет то, что предполагается измерить
Рис. 3.4. Понятия, которые определяют ценность наших методов измерения и оценки.

Стандартизация — это процесс, который определяет набор стандартов или норм для процедуры измерения, с тем чтобы его можно было систематически использовать при различных оценках конструкта. Эти стандарты и нормы относятся к процедурам, которым необходимо следовать во время проведения исследования, сбора и оценки данных. В некоторых случаях измерение может проводиться на больших группах детей, которые различаются по определенным характеристикам, таким как возраст, пол, раса, социально-экономический статус или диагноз. Эти оценки можно затем использовать в целях сравнения. Например, тестовые оценки 8-летнего мальчика из среды с низким социально-экономическим статусом следует сравнивать оценками других детей, подобных ему, а не с оценками 16-летней девушки из среды с высоким социально-экономическим статусом.

Надежность относится к согласованности или повторяемости измерений. Чтобы быть надежными, измерения не должны зависеть от какого-то одного наблюдателя или клинициста; разные люди должны приходить к согласию в отношении того, что они видят. Это называют согласием между оценивающими (interrater agreement). Представьте свою реакцию, если вы покажете ребенка трем различным психологам, и они поставят ему три разных диагноза и порекомендуют три разных метода лечения. Как вам определить, какой из диагнозов вереи? В этом случае диагнозы не будут надежными, поскольку два психолога или более не пришли к согласию. Аналогичным образом различные измерения, такие как тесты или интервью, когда они повторяются в течение короткого интервала времени, должны давать схожие результаты в обоих случаях. Другими словами, результаты должны быть стабильными во времени; это называют надежностью теста и повторного теста (test-retest reliability).

Одной надежности недостаточно для определения того, отражает ли метод цели исследователя — должна быть продемонстрирована и валидность.

Валидность метода показывает, в какой степени он действительно измеряет параметр или конструкт, который исследователь собирается измерить. Валидность можно оценить рядом способов. Во-первых, измерение можно проверить на его лицевую валидность (face validity), или степень, в которой оно, как представляется, оценивает интересующий конструкт. Конструктная валидностъ (construct validity) относится к тому, ведут ли себя при измерении оценки так, как предсказывают теория или прошлые исследования — к значению, вкладываемому в оценки. Конвергентная валидность (convergent validity) отражает корреляцию между измерениями, которые, как ожидается, связаны между собой, — показатель степени, в которой два измерения оценивают схожие или связанные конструкты. С этой валидностью контрастирует дискриминантная валидностъ (discriminant validity), которая относится к степени корреляции между измерениями, которые, как ожидается, не связаны друг с другом.

Наконец, связанная с критерием валидность (criterion-related validity) относится к тому, насколько точно измерение предсказывает поведение в условиях, где, как мы ожидаем, оно должно это делать либо в то же самое время (конкурентная валидность — concurrent validity), либо в будущем (предиктивная валидностъ — predictive validity). Например, высокие показатели ребенка при измерении социальной тревожности должны предсказывать, что ребенок проявит тревогу или избежание в текущих социальных ситуациях и, возможно, будет испытывать трудности с установлением дружеских отношений в будущем. Связанная с критерием валидность говорит, можно ли использовать показатели, полученные при измерении, для той цели, для которой они предназначены, — обладает или нет измерение практической пригодностью.

Измерения.

Для оценки важных параметров когнитивного, поведенческого и эмоционального функционирования детей существуют самые разные методы измерения (Mash & Terdal, 1997). Эти методы представляют собой подробные планы наблюдения и оценки детей и их окружения способами, которые выявляют относительно явные связи между интересующими переменными. Важный вопрос, касающийся методов измерения: кто будет делать выводы относительно поведения — участники с помощью методов самоотчета или исследователь, используя методы наблюдения?

Среди методов, используемых в детской патопсихологии, — интервью, вопросники, контрольные листы и оценочные шкалы, психофизиологические записи и непосредственные наблюдения за поведением (Bellack & Hersen, 1998; Kamphaus & Frick, 1996; Mash & Terdal, 1997b). Кроме того, используются разнообразные интеллектуальные, академические и нейропсихологические тесты. В этой главе мы сосредоточим внимание главным образом на том, как эти методы используются в исследовании. Об их использовании в клинической практике и о тестах и тестировании мы поговорим более подробно в главе 4 «Обследование, диагноз и терапия».

Как показано в табл. 3.1, сравнение трех наиболее часто используемых методов сбора данных — интервью, вопросников и наблюдения — демонстрирует, как они различаются между собой по важным параметрам. Поскольку информация, которую мы получаем от детей и семей часто варьирует как функция используемых методов, исследователи нередко полагаются на подход, включающий несколько методов с целью определения и оценки интересующих конструктов.

Таблица 3.1. Интервью, вопросник и наблюдение

 
Интервью
Вопросник
Наблюдение
Структура ситуацииПолуструктурированная или структурированнаяВысокоструктурированнаяСтруктурированная или естественная
Структура ответовВозможность для зондирования, распространения и проясненияВысокоструктурированная: нет возможности для зондирования и проясненияДанные, которые нужно зафиксировать, могут варьировать от очень обширных до высокоизбирательных
Требования к ресурсамТребуется значительное время для проведения интервью и кодирования ответовЭкспериментатору требуется мало времениТребуется много времени для наблюдения и кодирования его результатов
Источники погрешностиОпирается на восприятие участников и их готовность давать сведения. На ответы могут повлиять характеристики и манеры берущего интервьюОпирается на восприятие участников и их готовность давать сведенияНе опирается на откровение участников, но на результат могут повлиять их реакции
Редукция данныхТребуется анализ повествовательных ответов или запись с разбиением на категорииТребуется незначительная редукция данныхНа объект наблюдения сильно влияет система кодирования результатов наблюдения

Сообщения.

Методы, использующие сообщения, оценивают восприятия, мысли, способности, установки, представления, чувства и прошлый опыт ребенка, родителей и учителей. Этот инструментарий включает относительно неструктурированные клинические интервью, высокоструктурированные диагностические интервью и вопросники. Проблемой со всеми методами сообщения является то, насколько точно дети и родители рассказывают о собственных мыслях, чувствах и поступках. Неточность может иметь место из-за неспособности припомнить важные события, избирательности воспоминания или тенденциозности, а также, в некоторых случаях, из-за намеренных искажений. Например, некоторые информаторы могут попытаться представить себя или других в лучшем или худшем свете. Кроме того, методы сообщения требуют определенного уровня вербальной способности и могут неточно оценивать индивидуумов, которым трудно выразить свои мысли. Очевидно, что в эту категорию попадают маленькие дети — до 7-8 лет они обычно не слишком надежные информаторы.

Психофизиология и нейроизображение.

Психофизиологические методы оценивают связь между физиологическими процессами и поведением. Эти методы пытаются идентифицировать, какие структуры и процессы центральной нервной системы способствуют атипическому развитию и поведению детей. Среди наиболее распространенных объектов измерений активность периферической нервной системы, например, частота пульса, артериальное давление, дыхание, расширение зрачков и электрическая проводимость кожи. Например, изменения частоты пульса могут быть связаны с такими эмоциональными состояниями, как заинтересованность, гнев или печаль. Кроме того, специфические паттерны автономного возбуждения могут иметь связь с различиями в темпераменте детей — например, с их степенью застенчивости при контактах с людьми или с реакциями на новые события (см. обсуждение в главе 7).

Однако использование психофизиологических измерений, особенно в случае маленьких детей, имеет ряд ограничений. Иногда результаты этих измерений не согласуются между собой при переходе от одного исследования к другому, и, возможно, исследователям придется делать умозрительные выводы относительно того, как ребенок мог прореагировать на какое-то событие или стимул. Кроме того, на физиологический ответ ребенка могут легко влиять другие факторы, например, его реакция на регистрирующее оборудование или на другие состояния, такие как голод, усталость или скука. Эти внешние влияния необходимо минимизировать, если заключения должны быть основаны на психофизиологических измерениях.

Во многих исследованиях используются электрофизиологические измерения функционирования головного мозга, такие как электроэнцефалограмма, чтобы связать измеряемую электрическую активность мозга с текущими мыслями, эмоциями или состояниями возбуждения. Электроэнцефалограмма (ЭЭГ) регистрирует электрическую активность головного мозга, используя электроды, которые прикладывают к поверхности черепа ребенка. Поскольку различные волны ЭЭГ связаны с различными состояниями возбуждения, она позволяет определить, как эти состояния могут соотноситься с лежащими в их основе расстройствами сна. Различные паттерны активации ЭЭГ могут также указывать на различный опыт и проявления эмоций. Например, было установлено, что пугливые или заторможенные дети демонстрируют больше электрической активности в правой лобной доле мозга относительно левой лобной доли, когда их сравнивают с непугливыми детьми (Fox, 1991).

Наконец, новые способы изучения головного мозга, использующие процедуры нейроизображения, делают возможной проверку нейробиологических теорий в случае многих психических расстройств детского возраста (Thatcher, Lyon, Rumscy & Krasnegor, 1996; Zametkin, Ernst & Silver, 1998). Нейроизображением (нейроимеджингом) называют приемы, используемые для изучения структуры и/или функции головного мозга (С. A. Nelson & Bloom, 1997). Процедуры получения структурных изображений мозга включают в себя магнитно-резонансную томографию (МРТ) (magnetic resonance imaging, MRI), основанную на явлении ядерного магнитного резонанса (ЯМР) и компютерную томографию (coaxial tomographic, CT). ЯМР использует генерируемые в сильном магнитном поле и пропускаемые через ткань мозга радиосигналы с целью проведения анализа мельчайших структур мозга. Компьютерная томография показывает крупные структуры мозга. Как мы увидим, данные КТ- и ЯМР-исследований привели к созданию патофизиологических моделей, таких как церебральная модель при аутизме (глава 10 «Аутизм и детская шизофрения») и гипотеза патологического нервного созревания при СДВ (глава 5 «Гиперкинетическое расстройство и дефицит внимания (ГРДВ)»).

Также используются различные приемы функционального изображения. Двумя из наиболее часто используемых методов являются позитронно-эмиссионная томография (ПЭТ) (positron emission tomography, PET) и функциональная магнитно-резонансная томография (functional magnetic resonance imaging, fMRI). ПЭТ-сканирование оценивает церебральный метаболизм глюкозы. Глюкоза является основным источником энергии в головном мозге, поэтому измерение того, сколько ее используется, — это хороший способ определить уровень активности мозга. Изменения в кровопотоке внутри ткани мозга в ответ на специфические стимульные события выявляются магнитным способом с получением исключительно четких компьютерных изображений активизированных областей мозга. Процедуры функционального изображения обеспечивают трехмерные изображения активности мозга и дают наиболее точную информацию, касающуюся того, какие участки мозга отвечают за определенные функции или аномально функционируют в случае определенных расстройств.

Исследования с помощью нейроизображения показывают нам, что у детей с конкретным расстройством налицо структурные различия или пониженная активность в некоторых областях мозга, но они не говорят, почему это происходит. Хотя и многообещающие, процедуры получения изображения мозга для изучения психопатологии развития по-прежнему находятся в своей ранней стадии.

Наблюдение.

Вы можете многое увидеть, если будете наблюдать.

Йоги Берра

Используя систематические методы наблюдения, исследователь может непосредственно наблюдать поведение ребенка и других людей в условиях, которые простираются от неструктурированных наблюдений в естественном окружении ребенка, называемых естественным наблюдением, до высокоструктурированных ситуаций, которые предполагают использование специфических заданий или инструкций, обычно осуществляются в клинике или лаборатории и называются структурированным наблюдением (Mash, 1991). Используя естественное наблюдение, исследователь приходит в дом, класс или детский сад, чтобы пронаблюдать и зафиксировать интересующее его поведение ребенка, а часто и других людей, с которыми ребенок общается, например, родителей, учителей, братьев и сестер, сверстников. Или же исследователь может в естественной обстановке заснять на видеопленку поведение, которое можно впоследствии закодировать.

Рис. 10-летний ребенок перед началом исследования, использующего функциональную магнитно-резонансную томографию (fMRI).

Исследователь, использующий структурированные наблюдения в лаборатории или клинике, создает ситуацию или разрабатывает инструкции, чтобы вызвать поведение, представляющее особый интерес. К примеру, многочисленные исследования привязанности оценивают реакции маленьких детей на все более стрессовые эпизоды разлучения их с опекунами и воссоединения с ними в лаборатории, используя «незнакомую ситуацию» Эйнсуорта, рассмотренную в главе 2 «Теории и причины детской патопсихологии» (Ainsworth, Blehar, Waters & Wall, 1978). Путем структурирования ситуации, с тем чтобы вызвать специфическое поведение привязанности, «незнакомая ситуация» позволяет исследователям оценить надежность привязанности детей, отмечая, насколько эффективно они могут использовать своих опекунов в качестве источника утешения во время дистресса.

Структурированные лабораторные или клинические наблюдения достаточно эффективны и обладают тем преимуществом, что фокусируют наблюдения на интересующем явлении. Этот метод особенно полезен для изучения поведения ребенка, которое в повседневной жизни редко имеет место.

Структурированные наблюдения дают исследователю больший контроль над ситуацией, чем естественные наблюдения, а также обеспечивают использование других оценочных процедур. Например, когда процесс обсуждения какой-либо проблемы записывается на видеопленку, можно использовать повторные воспроизведения интеракции, чтобы спросить членов семьи, о чем они думали во время обсуждения (Sanders & Dadds, 1992). Что касается негативной стороны, то возникают вопросы по поводу того, обеспечивают ли наблюдения в лаборатории или клинике репрезентативную выборку интересующего поведения (Dadds & Sanders, 1992). Когда человека снимают на видеопленку или наблюдают за ним через сквозное зеркало, он чувствует себя в некотором роде, как в аквариуме; дети и родители могут вести себя в лаборатории не так, как в реальной жизненной обстановке. В целом, выборки поведения, которые получены с использованием методов наблюдения, — независимо от того, проводится ли оно в лаборатории или в условиях реальной жизни, — должны рассматриваться как «поведение в присутствии наблюдателя».

Итоги раздела.

— Измерения и методы, используемые для изучения поведения ребенка и семьи, должны быть стандартизированы, надежны и валидны.

Психология bookap

— Методы самоотчета включают в себя неструктурированные интервью, вопросники и формальные тесты.

— Психофизиологические методы используются для оценки связи между физиологическими процессами и поведением и включают в себя замеры частоты пульса, артериального давления, дыхания, расширения зрачков и электрической проводимости кожи.

— Электрофизиологические измерения, такие как ЭЭГ, связывают электрическую активность головного мозга с текущими мыслями, эмоциями или состояниями возбуждения.

Психология bookap

— Процедуры нейроизображения используют для изучения структуры и/или функций отдельных участков головного мозга.

— Методы наблюдения используют для непосредственного наблюдения за поведением ребенка и других людей в неструктурированных ситуациях, таких как домашняя обстановка или класс, и в структурированных ситуациях с заданиями в лаборатории или клинике.

Стандартизация и нормы: процесс и примеры

Если вы сейчас посещаете курс психологии AP, вы, вероятно, сдадите комплексный экзамен в конце курса. Этот тест даст вашему учителю представление о том, как много вы узнали на уроке AP, но это еще не все. Стандартные тесты , такие как экзамен по психологии AP, имеют средние баллы, которые можно сравнить с баллами вашего класса. Ваш учитель сможет сравнить ваши оценки в классе с оценками других студентов-психологов!

  • Что такое стандартизация и нормы в психологии?
  • Что такое нормы психологического тестирования?
  • Каков процесс стандартизации психологических тестов?
  • Каковы некоторые примеры стандартизации и норм в психологическом тестировании?
  • Почему важна стандартизация психологических тестов?

Стандартизация и нормы в психологии

Знаете ли вы, что многие психологические исследования включают тесты или оценки? Они измеряют личность, психические расстройства, интеллект, способности и интересы. Когда психолог использует тест в научном исследовании, тест должен быть надежным и достоверным. Результаты испытаний должны быть последовательными и точными.

Есть еще одна вещь, которой должен быть тест, чтобы психолог мог использовать его в исследованиях: тест должен быть стандартизирован .

Стандартизированный тест включает в себя надежные методы, точное содержание, инструкции по применению и средние баллы популяции для сравнения с баллами выборки.

Стандартные тесты включают в себя все, что нужно психологу. Если тест или лечение стандартизированы, к ним прилагается подробная инструкция по применению. Это также означает, что он прошел множество исследований и изменений, прежде чем был стандартизирован.

Стандартизация — это процесс опробования нового теста или лечения, получения отзывов и внесения изменений для его улучшения.

Некоторые психологи специализируются на разработке, испытании и пересмотре тестов. Их называют психометристами . Они изучают область психометрии , которая посвящена тому, как измерять такие вещи, как интеллект, личность или индивидуальные способности. Эти вещи могут быть сложнее оценить, чем вы думаете!

Фг. 1 Стандартизированные тесты, pixabay.com

Вы капитан своей спортивной команды. Вы несете ответственность за наблюдение за пробами и выбор новых членов для вашей команды. Вам нужно знать, какие игроки лучше всего подходят для команды и какие позиции лучше всего подходят для каждого игрока. Вы придумываете серию упражнений и ходов, чтобы оценить способности каждого человека, который пытается это сделать. В конце проб вы сравниваете выступления каждого человека и выбираете тех, кто лучше всех выступил, чтобы они стали частью команды.

Процесс стандартизации психологического теста

Стандартизация теста или лечения может занять много времени. Стандартизация преследует две большие цели: сбор средних баллов населения и принятие решения по административным деталям теста . Популяция — это все люди, которым вы хотите пройти тест или пройти курс лечения. Как вы понимаете, это может быть большая группа людей.

Некоторыми примерами групп населения являются все третьеклассники в Америке, все пациенты психиатрических больниц, все клиенты, проходящие индивидуальную терапию депрессии, все люди старше 80 лет, находящиеся в определенном состоянии, или все студенты, изучающие психологию высшей школы.

введение теста просто означает инструкции, которые сопровождают тест. Они сообщают учителю, терапевту или психологу, как проводить тест, сколько времени дать испытуемому, как оценивать ответы, какие оценки ожидать и что может означать каждая оценка. Предоставление информации о ожидаемых результатах требует знания оценок других людей, сдавших тот же тест. Психометристы выясняют это, заставляя сотни или тысячи людей попробовать новый тест.

Фг. 2 Администрирование онлайн-тестов, pixabay.com

Этапы процесса стандартизации тестов

Шаг 1

Выберите, что измерять и как это определять.

Шаг 2

Решите, кто будет проходить тест (население).

Шаг 3

Выберите, какие вопросы задавать, как их формулировать и сколько включить.

Шаг 4

Выберите формат ответа для каждого вопроса.

Шаг 5

Попросите большое количество людей пройти новый тест и получить от них отзывы.

Шаг 6

Внесите изменения в тест на основе отзывов.

Шаг 7

Повторите шаги 5 и 6 столько раз, сколько необходимо.

Шаг 8

Сравните тест с другими тестами, которые измеряют аналогичные или противоположные концепции.

Шаг 9

Выполняйте статистический анализ в течение всего процесса, чтобы убедиться в надежности и достоверности теста.

Этап 10

Соберите инструкции по применению.

Шаги 1 и 2 являются наиболее важными во всем процессе. Стандартизация теста очень похожа на любое другое исследование. Вы должны знать цель или цель теста, прежде чем вы сможете начать. Вам также нужен хороший рабочее определение для всего, что вы хотите измерить.

Тест, который вы найдете в Интернете, должен сказать вам, счастливы вы или нет. Результаты теста зависят от того, как испытуемые определяют счастье. Возможно, они считают, что счастье заключается в том, чтобы иметь много друзей, поэтому задают вопросы о ваших отношениях. Может быть, они определяют счастье как удовлетворение всех ваших потребностей и чувство расслабления, поэтому вместо этого они задают вопросы об этих вещах. Рабочее определение определяет содержание теста.

Шаг 4 посвящен тому, как испытуемые могут отвечать на каждый вопрос. Заполняют ли они пропуск, выбирают один из нескольких вариантов ответа, оценивают свой ответ по шкале, указывают «да» или «нет» (правда или ложь) или предоставляют целый абзац? Лучший формат ответа для теста зависит от того, какие данные собирают исследователи и какие вопросы они задают.

Вопрос в тесте звучит так: «По шкале от 1 до 10, насколько вам сегодня понравилось?» Под вопросом есть 10 точек, со словами «совсем нет» рядом с первой точкой и «очень сильно» рядом с последней точкой. Вы ставите галочку на 8-й точке, потому что хорошо провели время, но чувствуете, что организация могла бы улучшить часть тура.

Представьте, что вы проходите тест, и первый вопрос спрашивает: «Что ты ел сегодня на обед?» Варианты ответов «верно» или «ложно». Что-то здесь не так!

Шаги 5 и 6 могут занять очень много времени. Создатели теста могут повторять эти шаги много раз. Опробование теста на популяции может показать, что все вопросы теста слишком сложны или слишком просты. Это может указывать на то, что вопросы слишком похожи или сформулированы странно. Это может даже сказать исследователям, что они разработали хороший тест, но он не измеряет то, что они хотят измерить!

Вся эта обратная связь от людей, желающих попробовать тест, помогает специалистам по психометрии пересматривать и редактировать тест. Иногда исследователи отбрасывают тест и начинают с нуля. Шаги 8 и 9 происходят на протяжении всего процесса. Шаг 8 помогает разработчикам определить, какие вопросы задавать, а шаг 9 помогает решить, нужно ли им больше, меньше или другие вопросы.

Тест, предназначенный для измерения тревожности, сравнивают с другим тестом на тревожность и с тестом, измеряющим расслабление. Результаты двух тестов на тревогу должны быть одинаковыми, но результаты тестов на тревогу и релаксацию должны быть противоположны друг другу. Если кто-то набирает высокие баллы по тревожности, он также должен набирать низкие баллы по релаксации. Если они набрали высокие баллы по релаксации, они должны получить низкие баллы по тревожности.

Шаг 10 может показаться незначительным, но он очень важен. Руководства по администрированию тестов сообщают исследователям, где проводить тест, как его проводить (на бумаге или в Интернете), сколько времени он должен занимать, как оценивать его и как понимать результаты. Вы проходите онлайн-тест и получаете 35 баллов. Что это значит? Это хороший или плохой результат? Каков он по сравнению с другими людьми, сдавшими тот же тест?

Примеры стандартизации и нормы в психологическом тестировании

Тест, предназначенный для определения самого популярного вкуса мороженого в Америке, прошел процесс стандартизации. Вариант, который чаще всего выбирали те, кто попробовал тест, был шоколадным. Если люди, опробовавшие тест, точно представляют население (все американцы), мы можем сказать, что популяционная норма для лучшего вкуса мороженого – шоколадное.

Вы и ваш лучший друг решаете пройти тест. Ваш лучший друг выбирает ваниль. Вы ищете в списке вариантов свой любимый вкус, но его нет в тесте. Вы понимаете, что в тесте всего 3 варианта ответа: клубничный, ванильный и шоколадный. Подождите минутку: существует гораздо больше, чем 3 вкуса мороженого! Является ли этот тест точным?

Что, если в одном и том же тесте перечисляются все существующие вкусы мороженого. Что бы означал ваш ответ? Если вы выбираете шоколад, вы знаете, что ваш любимый вкус такой же, как у большинства людей в Америке. Если вы выберете что-то другое, вы знаете, что ваш любимый вкус менее популярен. Это простой пример, но он иллюстрирует, как популяционная норма помогает исследователям понять результат теста.

Популяционная норма – это предполагаемый средний балл члена определенной популяции. Он включает в себя то, какие оценки считаются чрезвычайно высокими или низкими среди этой группы населения.

Нормы в психологическом тестировании

В целом в психологии существует 4 типа популяционных норм. Это нормы возраста, нормы оценок, нормы процентилей и нормы стандартных баллов . Возрастные нормы используются при тестировании интеллекта и измерении роста и веса у детей. Нормы оценок в основном используются в образовательных учреждениях. Экзамены на уровне класса, такие как SAT, сравнивают результаты учащихся с результатами других учеников того же класса и других классов.

Процентильные оценки более детализированы. Они сообщают вам, где находится ваша оценка в большом наборе оценок. Если вы наберете 50-й процентиль, половина людей, сдавших экзамен, набрали таких же , как и вы. Если вы наберете 75-й процентиль, 75% людей, сдавших экзамен, набрали на балла меньше вашего балла. Если вы наберете 25-й процентиль, 25% людей, сдавших экзамен, набрали баллов ниже вашего балла. Вы также можете выяснить, какой процент испытуемых набрал 9 баллов.0003 выше на основе вашего процентиля.

Стандартные оценки содержат еще больше нюансов, чем процентные оценки. Они говорят вам, насколько близко вы набрали средних всех результатов. Если ваш стандартный балл выше 0, это означает, что вы набрали больше среднего. Если это отрицательное число (ниже 0), это означает, что вы набрали меньше среднего. В психологии их обычно называют z-показателями.

В StudySmarter есть полное объяснение z-показателей!

Важность стандартизации в психологическом тестировании

Каждый день мы принимаем решения на основе тестов. Учителя планируют, какой материал преподавать, врачи решают, правильно ли растет ребенок, а терапевты пытаются определить, работает ли метод лечения. Колледжи решают, каких новых студентов принимать. Все эти решения частично основаны на результатах испытаний. Если решение основано на стандартизированном тесте, психологи назвали бы это решением, основанным на фактических данных .

Стандартизированные тесты и методы лечения являются важными научными инструментами. Длительный и сложный процесс стандартизации помогает исследователям гарантировать точность используемых тестов и стабильные результаты. Этот процесс также сообщает разработчикам тестов, какие изменения нужно внести в тест. Как только тест стандартизирован, он продолжает проходить процесс стандартизации для каждого нового населения, языка, формата и культуры.

Фг. 3 Вступительные экзамены в колледж, pixabay.com

Стандартизация и нормы — основные выводы

  • Стандартизированный тест включает в себя надежные методы, точное содержание, административные инструкции и средние баллы популяции для сравнения с баллами выборки.
  • Стандартизация — это процесс опробования нового теста или лечения, получения отзывов и внесения изменений для его улучшения.
  • Популяционная норма – это предполагаемый средний балл члена определенной популяции. Он включает в себя то, какие оценки считаются чрезвычайно высокими или низкими среди этой группы населения.
  • Вам нужно хорошее рабочее определение для всего, что вы хотите измерить в тесте.
  • Стандартизация преследует две большие цели: сбор средних баллов населения и принятие решения по административным деталям теста .

Стандартные тесты | Психология Вики

Оценка | Биопсихология | Сравнительный | Познавательный | Развивающие | Язык | Индивидуальные различия | Личность | Философия | Социальные |
Методы | Статистика | Клинический | Образовательные | промышленный | Профессиональные товары | Мировая психология |

Социальные процессы: Методология · Виды теста


Эта статья нуждается во внимании психолога/академического эксперта по предмету .
Пожалуйста, помогите нанять одного из них или улучшите эту страницу самостоятельно, если вы квалифицированы.
Этот баннер появляется на слабых статьях, к содержанию которых следует подходить с академической осторожностью.

Стандартизированное тестирование — это любой тест, который используется в различных школах или в других ситуациях. Разработчики таких тестов должны указать дискретный правильный ответ на каждый вопрос. Этот тип теста включает в себя как тесты достижений (которые измеряют уже известные знания), так и тесты способностей (которые пытаются предсказать будущие результаты или потенциал), которые проводятся для учащихся начальных классов, экзамены GCSE по английскому языку и американские тесты SAT. Эти тесты должны пройти психометрическую процедуру стандартизации тестов, установить нормы, конкретные инструкции по проведению и подсчету баллов, а их надежность и валидность должны быть научно продемонстрированы.

Стандартные тесты обычно включают по крайней мере несколько вопросов с несколькими вариантами ответов и вопросов «верно-неверно». Они могут быть оценены компьютером или людьми, которые не понимают материала глубоко, если у них есть список правильных ответов. Один потенциальный недостаток таких тестов заключается в том, что испытуемый может случайно пропустить строку, а затем получить отметку «неправильно» на материале, на который он или она знал правильный ответ.

Стандартные тесты часто также включают письменные части; они оцениваются людьми, которые используют рубрики или рекомендации относительно того, каким будет хорошее эссе по теме.

Некоторые считают, что стандартизированные тесты позволяют сравнивать достижения учащихся из разных школ, устраняя предвзятость из-за завышенных оценок и влияния репутации школ на приемных комиссий университетов. Другие утверждают, что стандартизированные тесты усиливают предвзятость в образовании, потому что учащиеся, чьи семьи имеют доступ к возможностям обогащения, лучше справляются с такими тестами, чем учащиеся из других слоев общества. Такие тесты, какими бы объективными они ни пытались быть, являются инструментами культуры и коренятся в том культурном или философском понимании, которое их породило.

Стандартные тесты дают полезную информацию только в том случае, если каждый вопрос дает соотношение правильных и неправильных ответов. Таким образом, если почти все испытуемые дают правильный ответ, тестовый вопрос необходимо исключить из теста. Точно так же, если почти все испытуемые неправильно ответили на какой-то вопрос, тестовый вопрос необходимо исключить. Стандартизированные объективные тесты создают некоторый смысл, сравнивая правильные ответы с неправильными.

Чаще всего тесты назначаются людям одного возраста или класса на определенном этапе развития. Эта практика позволяет исследователям изучать соотношение правильных и неправильных ответов для 3-классников (например) с течением времени или от региона к региону. Широкий спектр испытуемых в конкретной группе генерирует данные для установления нормативной классификации для группы. Эти данные могут служить руководством для того, что конкретный тест находит в качестве нормативного ответа для этого теста. По этой причине многие стандартизированные тесты также называются «отнесенными к норме».

Большинство стандартных тестов представляют собой тесты достижений и, следовательно, не имеют большой прогностической ценности для учащихся, учителей или школ. Они генерируют хорошие данные только для узких наборов навыков или тем. Однако многие школьные системы используют стандартизированное тестирование в качестве инструмента проверки, в качестве основы для учебной программы или в качестве общего сравнения между учащимися. Стандартизированные тесты имеют ограниченную ценность и должны рассматриваться только как один из способов измерения производительности, потенциала или интеллекта.

Первоначально 9Стандартизированный тест 0245 был просто стандартным тестом академических достижений или знаний в конкретной академической или профессиональной области. С тех пор он приобрел значение письменного теста, результаты которого интерпретируются со ссылкой на баллы стандартной группы, сдавшей тест и обычно считающейся репрезентативной для населения, сдавшего тест. Например, стандартизированные тесты успеваемости предоставляют таблицы преобразования, показывающие процентные ранги в группе нормы всех возможных необработанных баллов. Некоторые стандартизированные тесты теперь анализируются с помощью теории ответов на вопросы.

Содержание

  • 1 История
    • 1.1 США
  • 2 Дизайн и оценка
    • 2.1 Проблемы с подсчетом очков
    • 2,2 Балл
  • 3 стандарта
    • 3.1 Стандарты оценки
    • 3.2 Стандарты испытаний
  • 4 Преимущества
  • 5 Недостатки и критика
  • 6 Потеря информации при подсчете очков Верно-неправильно
  • 7 Образовательные решения
  • 8 См. также
    • 8.1 Основные темы
    • 8.2 Другие темы
  • 9 Каталожные номера
  • 10 Внешние ссылки

История

Самые ранние свидетельства стандартизированного тестирования, основанного на заслугах, появились в Китае во времена династии Хань. Концепция государства, управляемого способными и добродетельными людьми, была продуктом конфуцианской философии. Имперские экзамены охватывали шесть искусств, включая музыку, стрельбу из лука и верховую езду, арифметику, письмо и знание ритуалов и церемоний как общественной, так и частной частей. Позже к тестированию были добавлены пять предметов (военная стратегия, гражданское право, доходы и налогообложение, сельское хозяйство и география).

Стандартизированное тестирование традиционно не было частью европейской педагогики. Основываясь на скептической и открытой традиции дебатов, унаследованной от Древней Греции, западные академические круги одобрили это эссе.

Соединенные Штаты Америки

Использование стандартизированного тестирования в Соединенных Штатах Америки — явление 20-го века, зародившееся во время Первой мировой войны. Оно также получило значительный импульс во время холодной войны. Совсем недавно это было частично обусловлено простотой компьютерной оценки стандартизированных тестов и сравнительной сложностью оценки эссе с помощью компьютера. В Соединенных Штатах потребность федерального правительства в проведении значимых сравнений в высоко децентрализованной (контролируемой на местном уровне) системе государственного образования также способствовала дебатам о стандартизированном тестировании.

Первое крупномасштабное использование стандартизированных методов оценки, связанных с тестом IQ, впервые было применено в США во время Первой мировой войны (около 1914-18).

Базирующаяся в США Служба образовательного тестирования (ETS), основанная в 1948 году, является крупнейшей в мире частной организацией по тестированию и измерению в сфере образования, годовой бюджет которой составляет около 900 миллионов долларов.

Закон о начальном и среднем образовании 1965 г. требовал стандартизированного тестирования в государственных школах. Государственный закон США 107-110, известный как Закон «Ни одного отстающего ребенка» от 2001 г., дополнительно увязывает финансирование государственных школ со стандартизированным тестированием.

Дополнительная информация: Список стандартных тестов в США

Дизайн и оценка

На практике стандартизированные тесты могут состоять из вопросов с несколькими вариантами ответов, ответов «верно-неверно» и/или вопросов-эссе. Такие элементы можно протестировать недорого и быстро, оценивая специальные листы ответов с помощью компьютера или с помощью адаптивного компьютерного тестирования. В некоторых тестах также есть компоненты краткого ответа или написания эссе, которым баллы присваиваются независимыми оценщиками, которые используют рубрики (правила или рекомендации) и эталонные документы (примеры документов для каждой возможной оценки), чтобы определить оценку, которая будет присвоена ответу. Однако большинство оценок выставляются не людьми; люди привыкли оценивать предметы, которые не могут быть легко оценены компьютером (например, эссе). Например, Graduate Record Exam — это компьютерно-адаптивное оценивание, которое не требует оценки людьми (за исключением письменной части). [1]

Проблемы с подсчетом очков

Могут возникнуть проблемы с подсчетом очков человеком, поэтому предпочтение отдается компьютерному подсчету. Например, газета «Сиэтл Таймс» сообщила, что в WASL штата Вашингтон временные сотрудники, которым платили 10 долларов в час, тратили всего 20 секунд на каждую математическую задачу и 2,5 минуты на сочинения, которые могли определить, закончит ли учащийся среднюю школу, что некоторые верить, вызывает беспокойство, учитывая характер таких тестов с высокими ставками. Аналогично Пирсон получает многие другие государственные тесты. [2] Согласие между оценщиками может варьироваться от 60 до 85 процентов в зависимости от теста и сеанса подсчета очков. Иногда штаты платят за то, чтобы два или более оценщиков читали каждый документ, чтобы повысить надежность, хотя это не исключает того, что ответы на тесты получают разные оценки. [3] Обратите внимание, однако, что открытые компоненты теста часто составляют лишь небольшую часть теста.

Score

Существует два типа интерпретации результатов стандартизированного теста: интерпретация результатов на основе нормы или интерпретация результатов на основе критериев. Интерпретация результатов на основе нормы сравнивает испытуемых с выборкой сверстников. Интерпретация оценок на основе критериев сравнивает испытуемых с критерием (формальным определением содержания) независимо от оценок других испытуемых. Их также можно охарактеризовать как оценки на основе стандартов, поскольку они соответствуют движению за реформу образования на основе стандартов. [4] Интерпретация результатов тестов, основанная на нормах, связана с традиционным образованием, которое измеряет успех путем ранжирования учащихся с использованием различных показателей, включая оценки и результаты тестов, в то время как оценки, основанные на стандартах, основаны на убеждении, что все учащиеся могут преуспеть, если они оцениваются по высоким стандартам, которые требуются от всех учащихся, независимо от способностей или экономического положения. [Как сделать ссылку и ссылку на резюме или текст]

Стандарты

Соображения валидности и надежности обычно рассматриваются как важные элементы для определения качества любого стандартизированного теста. Тем не менее, профессиональные и практические ассоциации часто помещают эти проблемы в более широкий контекст при разработке стандартов и вынесении общих суждений о качестве любого стандартизированного теста в целом в данном контексте.

Стандарты оценки

В области оценки, в частности, оценки образования, Объединенный комитет по стандартам оценки образования [5] опубликовал три набора стандартов для оценок. Стандарты оценки персонала [6] опубликованы в 1988 г., Стандарты оценки программ (2-е издание) [7] опубликованы в 1994 г., Стандарты оценки учащихся [8] опубликованы в 2003 году.

Каждая публикация представляет и разрабатывает набор стандартов для использования в различных образовательных учреждениях. Стандарты содержат рекомендации по разработке, внедрению, оценке и совершенствованию определенной формы оценки. Каждый из стандартов был помещен в одну из четырех основных категорий, чтобы продвигать образовательные оценки, которые являются правильными, полезными, осуществимыми и точными. В этих наборах стандартов вопросы валидности и надежности рассматриваются в разделе о точности. Например, стандарты точности учащихся помогают гарантировать, что оценки учащихся будут предоставлять достоверную, точную и достоверную информацию об обучении и успеваемости учащихся.

Стандарты тестирования

В области психометрии Стандарты для образовательных и психологических тестов [9] устанавливают стандарты валидности и надежности, а также ошибок измерения и лиц с ограниченными возможностями. Третья и последняя основная тема охватывает стандарты, связанные с тестированием приложений, аттестацией, а также тестированием при оценке программ и государственной политике.

Преимущества

Одним из основных преимуществ стандартизированного тестирования является то, что результаты могут быть эмпирически задокументированы, поэтому можно показать, что результаты тестов имеют относительную степень достоверности и надежности, а также результаты, которые можно обобщить и воспроизвести. [10] . Это часто контрастирует с оценками в школьной стенограмме, которые выставляются отдельными учителями. Может быть трудно объяснить различия в образовательной культуре в разных школах, сложность учебной программы данного учителя, различия в стилях преподавания, а также методы и предубеждения, влияющие на выставление оценок. Это делает стандартизированные тесты полезными для целей приема в высшие учебные заведения, когда школа пытается сравнить студентов со всей страны или со всего мира.

Еще одним преимуществом является агрегация. Хорошо разработанный стандартизированный тест обеспечивает оценку мастерства человека в области знаний или навыков, которые на определенном уровне агрегирования могут предоставить полезную информацию. То есть, хотя индивидуальные оценки могут быть недостаточно точными для практических целей, средние баллы классов, школ, филиалов компании или других групп вполне могут предоставить полезную информацию благодаря уменьшению ошибки за счет увеличения размера выборки.

Недостатки и критика

«Стандартные тесты не могут измерить инициативу, креативность, воображение, концептуальное мышление, любопытство, усилие, иронию, суждение, приверженность, нюансы, добрую волю, этическое мышление или множество других ценных склонностей и То, что они могут измерить и подсчитать, — это отдельные навыки, конкретные факты и функции, содержательные знания, наименее интересные и наименее значимые аспекты обучения».

Билл Эйерс [11]

Хотя многие преподаватели признают, что стандартизированные тесты занимают место в арсенале инструментов, используемых для оценки успеваемости учащихся, критики считают, что чрезмерное и неправильное использование этих тестов имеет серьезные негативные последствия для преподавания и обучения. По данным группы FairTest, [12] , когда стандартизированные тесты являются основным фактором подотчетности, возникает искушение использовать тесты для определения учебного плана и направления обучения. То, что не проверяется, не изучается, и то, как предмет проверяется, становится образцом того, как преподавать этот предмет. Критики говорят, что это не способствует обучению более высокого порядка. Конечно, это также можно использовать, чтобы сфокусировать обучение на желаемых результатах [13] , такие как базовое чтение и математика. Более того, Popham [14] указывает, что результаты стандартизированных тестов являются проблематичными инструментами для подотчетности школы, потому что на результаты экзаменующихся влияют три фактора: то, что дети узнают в школе, что дети узнают вне школы, и врожденный интеллект. Были предложены новые модели добавленной стоимости, чтобы справиться с этой критикой путем статистического контроля врожденных способностей и внешкольных контекстуальных факторов. [15]

Хотя можно использовать стандартизированный тест и не позволять его ограничениям контролировать учебную программу и обучение, это может привести к тому, что школа подвергнет себя риску получения более низких результатов теста с негативными политическими последствиями. Например, в соответствии с федеральным законом США «Ни одного отстающего ребенка» низкие результаты тестов означают, что школы и округа могут быть помечены как «нуждающиеся в улучшении» и наказаны. Если тест является единственным методом подотчетности, то родители и общество с меньшей вероятностью узнают, насколько хорошо дети учатся в непроверенных областях.

Сторонники стандартизированного тестирования отвечают, что это не причины отказываться от тестирования, а скорее критика плохо разработанных режимов тестирования. Они утверждают, что тестирование сосредотачивает образовательные ресурсы на наиболее важных аспектах образования — передаче заранее определенного набора знаний и навыков — и что другие аспекты либо менее важны, либо должны быть добавлены в схему тестирования. Если «знания и навыки» включают в себя, например, способность написать эссе, то это явно выходит за рамки стандартизированного тестирования.

Некоторые критики говорят

  1. REDIRECT Template:Who  

Имя этого шаблона перенаправляет на {{who}}, которое можно редактировать с помощью [edit|https://psychology.fandom.com/wiki/Template:Who?action=edit edit] .

См. также
  1. :категория:Перенаправления
  2. :Категория:Перенаправления с другого шаблона
  3. Википедия:Редирект
  4. Википедия:Шаблоны сообщений/Перенаправление страниц
 о том, что некоторые дети плохо справляются со стандартными тестами, несмотря на усвоение материала, из-за беспокойства при тестировании, отсутствия управления временем или навыков сдачи тестов. Это отражает тот факт, что тесты не могут напрямую измерять знания учащихся, а только способность учащихся применять знания в стрессовой ситуации. Тревога при тестировании была связана с чертой невротизма, которая связана с генерализованной тревогой. 
 

Некоторых беспокоит растущее влияние подготовки к тестам. По мере того, как важность стандартизированного тестирования возрастает, многие студенты пытаются подготовиться к тесту либо с помощью бесплатных образцов тестов и программ, покупая книги, предназначенные для подготовки студента к тесту, либо с помощью частных занятий с репетиторами. Некоторые родители готовы платить тысячи долларов за подготовку своих детей к тестам, [16] финансовый барьер, который может дать детям более состоятельных родителей преимущество по сравнению с менее обеспеченными семьями. Однако эта критика, вероятно, еще больше применима к тестированию альтернатив, таких как портфолио или эссе. Многие исследования также показывают, что инструктаж по тестированию мало влияет на результаты хорошо построенных тестов 9.0368 [Как ссылаться и ссылаться на сводку или текст] . Способность богатых семей платить за более качественное образование не связана конкретно со стандартизированным тестированием.

Потеря информации из-за подсчета очков

Верно-неверно

Когда тесты выставляются верно-неверно , было сделано важное предположение об обучении. Предполагается, что количество правильных ответов или сумма баллов по пунктам (где дается частичный зачет) является подходящей и достаточной мерой текущего состояния успеваемости. Кроме того, делается вторичное предположение об отсутствии значимой информации в неверные ответы.

Во-первых, правильный ответ может быть получен путем запоминания без глубокого понимания основного содержания или концептуальной структуры поставленной задачи. Во-вторых, когда для решения требуется более одного шага, часто существует множество подходов к ответу, которые приведут к правильному результату. Тот факт, что ответ правильный, не указывает, какая из нескольких возможных процедур использовалась. Когда учащийся дает ответ (или показывает работу), эта информация легко доступна из оригинальных документов.

Во-вторых, если бы неправильных ответов были слепыми предположениями, среди этих ответов не было бы никакой информации. С другой стороны, если неправильных ответов отражают отклонения интерпретации от ожидаемого, эти ответы должны демонстрировать упорядоченную связь с тем, что измеряет общий тест. Это отклонение должно зависеть от уровня психолингвистической зрелости учащегося, выбирающего или дающего ответ на родном языке, на котором написан тест.

Во втором случае должна быть возможность извлечь этот порядок из ответов на тестовые задания [17] . Такие процессы извлечения, например модель Раша, являются стандартной практикой для разработки предметов среди профессионалов. Однако, поскольку неправильных ответов отбрасываются в процессе подсчета очков, попытки интерпретировать эти ответы для получения информации, которую они могут содержать, предпринимаются редко. Пример вопроса, на который учащийся может выбрать неправильный ответ: «Вы выпили чашку кофе и бросили в нее кусочек сахара. Чтобы подсластить кофе, требуется определенное время. Теперь разделите кубик пополам. Станет ли ваш кофе слаще быстрее?» Подразумеваемая, но не заявленная часть: «Вы кладете обе половинки в кофе». Но, возможно, студент думает, что используется только одна из половинок. Это может привести к «неправильному» ответу.

В-третьих, несмотря на то, что иногда приводятся баллы по тематическому субтесту, более распространенной практикой является отчет об общем балле или его измененной версии. Это масштабирование предназначено для сравнения этих оценок с каким-либо стандартом. Этот дальнейший схлопывание результатов тестирования систематически удаляет всю информацию о том, какие именно элементы были пропущены.

Таким образом, при оценке теста правильно-неправильно теряется 1) то, как учащиеся получили свои правильные ответы, 2) что привело их к недопустимым ответам и 3) где в тексте теста произошло это отклонение от ожиданий.

Этот комментарий предполагает, что действующая процедура подсчета очков скрывает динамику процесса сдачи теста и затемняет способности оцениваемых учащихся. Текущая практика оценки чрезмерно упрощает эти данные на начальном этапе оценки. Результатом этой процедурной ошибки является сокрытие диагностической информации, которая могла бы помочь учителям лучше обслуживать своих учеников. Это также не позволяет тем, кто усердно готовит эти тесты, наблюдать информацию, которая в противном случае предупредила бы их о наличии этой ошибки.

В настоящее время разрабатывается решение этой проблемы, известное как анализ спектра отклика (RSA) [3], которое, по-видимому, способно восстановить все три из этих форм потери информации, в то же время предоставляя числовую шкалу для определения текущей производительности. статус и отслеживать изменение производительности.

Ошибка тестирования возникает, когда тест систематически отдает предпочтение одной группе над другой, даже если обе группы равны по характеристике, которую измеряет тест. Критики утверждают, что составители тестов и фасилитаторы, как правило, представляют средний класс, белый фон. Критики утверждают, что стандартизированное тестирование соответствует ценностям, привычкам и языку создателей тестов [Как ссылаться и ссылаться на сводку или текст] . Однако, поскольку большинство тестов исходят от белого населения среднего класса, важно отметить, что группы с наивысшими баллами не являются людьми этого происхождения, а, как правило, выходцами из азиатского населения. [18]

Не все тесты хорошо написаны, например, содержат вопросы с несколькими вариантами ответов с неоднозначными ответами или плохо охватывают желаемую учебную программу. Некоторые стандартизированные тесты включают вопросы для эссе, а некоторые подвергают критике эффективность методов оценивания. Недавно для некоторых тестов была введена частичная компьютеризированная оценка эссе, что вызывает еще больше споров. [19]

Образовательные решения

Результаты тестов в некоторых случаях используются в качестве единственного, обязательного или основного критерия для приема или сертификации. Например, в некоторых штатах США требуются выпускные экзамены в средней школе. Адекватные баллы на этих выпускных экзаменах необходимы для окончания средней школы. Тест на общеобразовательное развитие часто используется в качестве альтернативы аттестату об окончании средней школы.

Другие приложения включают отслеживание (решение, должен ли студент быть зачислен на «быструю» или «медленную» версию курса) и присуждение стипендий. В Соединенных Штатах многие колледжи и университеты автоматически переводят баллы по тестам Advanced Placement в зачет колледжа, соответствие выпускным требованиям или размещение на более продвинутых курсах. Обобщенные тесты, такие как SAT, чаще используются в качестве одной из нескольких мер при принятии решения о приеме. В некоторых государственных учреждениях есть предельные баллы для SAT, GPA или класса для создания классов абитуриентов для автоматического принятия или отклонения.

Сильная зависимость от стандартизированных тестов для принятия решений часто вызывает споры по причинам, указанным выше. Критики часто предлагают подчеркивать кумулятивные или даже нечисловые показатели, такие как классные оценки или краткие индивидуальные оценки (написанные прозой) от учителей. Сторонники утверждают, что результаты тестов обеспечивают четкий, объективный стандарт, который сводит к минимуму возможность политического влияния или фаворитизма.

Национальная академия наук рекомендует, чтобы основные решения в области образования не основывались исключительно на результатах тестов. [20] Использование минимальных баллов для поступления или выпуска не предполагает единого стандарта, поскольку результаты тестов почти всегда сочетаются с другими минимальными критериями, такими как количество кредитов, предварительные курсы, посещаемость и т. д. часто воспринимаются как «единственные критерии» просто потому, что они наиболее трудны, или автоматически предполагается выполнение других критериев. Единственным исключением из этого правила является GED, который позволил многим известным людям получить признание своих навыков, даже если они не соответствовали традиционным критериям.

См. также

Основные темы

  • Оценка
  • Оценка
  • Список стандартизированных тестов в США
  • Психометрия
  • Оценка на основе стандартов
  • Тест (оценка учащихся)

Другие темы

  • Альтернативная оценка
  • Закон Кэмпбелла
  • Критериальный тест
  • Выпускной экзамен средней школы
  • Стандартный тест
  • Реформа образования на основе стандартов
  • Оценка на основе стандартов
  • Стандартизированное тестирование и государственная политика
  • Нормы испытаний
  • Стандартизация испытаний
  • Volvo Effect

Каталожные номера

  1. ↑ Интернет-страница ETS о подсчете баллов GRE.
  2. ↑ [1] Воскресенье, 27 августа 2000 г. «Темпы тратят всего несколько минут, чтобы пройти государственный тест. Математическая задача WASL может занять 20 секунд; эссе — 2,5 минуты». Джолейн Хаутц, Сиэтл Таймс. Временная зарплата 10 долларов в час присваивает баллы тесту вашего ребенка».
  3. ↑ Почему WASL ужасен
  4. ↑ Where We Stand: Standard-Based Assessment and Accountability (Американская федерация учителей) [2]
  5. ↑ Объединенный комитет по стандартам оценки образования
  6. ↑ Объединенный комитет по стандартам оценки образования. (1988). Стандарты оценки персонала: как оценивать системы оценки преподавателей. Ньюбери-Парк, Калифорния: Sage Publications.
  7. ↑ Объединенный комитет по стандартам оценки образования. (1994). Стандарты оценки программ, 2-е издание. Ньюбери-Парк, Калифорния: Sage Publications.
  8. ↑ Комитет по стандартам оценки образования. (2003). Стандарты оценивания учащихся: как улучшить оценивание учащихся. Ньюбери-Парк, Калифорния: Corwin Press.
  9. Стандарты образовательного и психологического тестирования
  10. ↑ Кунцел, Н. Р., и Хезлетт, С. А. (2007). Наука, 315 , 1080-81.
  11. ↑ Лидерство в образовании: знание пути, указание пути, движение по пути, Кэролин С. Карр и Конни Л. Фулмер, Роуман и Литтлфилд, 2004, ISBN 1578861721, стр. 135-136
  12. ↑ FairTest (Национальный центр справедливого и открытого тестирования)
  13. ↑ Оценка готовности к работе в колледже. http://www.cae.org/content/pro_collegework.htm
  14. ↑ Popham, WJ (1999). Почему результаты стандартизированных тестов не измеряют качество образования. Лидерство в образовании, 56 (6) 8-15.
  15. ↑ Хассел, Б. и Рош, Дж. (2008) «Учебник по добавленной стоимости в Огайо». Фонд Фордхэма. http://www.edexcellence.net/doc/Ohio_Value_Added_Primer_FINAL_small.pdf
  16. Associated Press (4 августа 1998 г.). Справляетесь с SAT? Помощь в подготовке к тесту имеется в изобилии. Christian Science Monitor 90 (175): B3.
  17. ↑ Пауэлл, Дж. К. и Шклов, Н. (1992) Журнал образовательных и психологических измерений , 52, 847-865
  18. ↑ Раса и интеллект (данные тестов)#Разрыв в результатах теста IQ в США
  19. ↑ Взвешивание элементов эссе Джея Мэтьюза. Вашингтон Пост, 1 августа 2004 г., с. А01.
  20. ↑ «Высокие ставки: тестирование для отслеживания, повышения и выпуска»

Внешние ссылки

  • Объединенный комитет по стандартам оценки образования
  • Стандартизированное тестирование в школе
  • Стандарты педагогического и психологического тестирования
Реформа образования на основе стандартов
Теоретики : Джон Дьюи • Уильям Спэди • Жан Пиаже • Бенджамин Блум • Роберт Каркхафф • Марк Такер

Теории : Реформа образования, основанная на стандартах  • Образование, основанное на результатах  • Практика, соответствующая развитию  • Холизм  • Конструктивизм (теория обучения)  • Блочное планирование  • Целостное оценивание  • NCEE  • Активное обучение  • Открытое обучение  • Наука, основанная на запросах  • Изобретательное правописание  • Открытая школа  • Движение малых школ Ценности : Совершенство и справедливость  • Значимый аттестат о среднем образовании  • Высокие стандарты  • Высокие ожидания  • Постоянное совершенствование  • Подотчетность  • Сокращение разрыва в достижениях 9Стандарты 0241: Весь язык • Национальные стандарты естественнонаучного образования • Математика, основанная на стандартах • Национальные стандарты истории
Федеральный закон: ни один отстающий ребенок • Цели на 2000 год  • Переход от учебы к работе
Оценка: тест, основанный на критериях  • Тест, основанный на норме • Оценка на основе стандартов
Государственная оценка: AIMS  • CLAS  • WASL  • MCAS
Диплом: сертификат начального мастерства  • выпускной экзамен в средней школе
Традиционное образование: Традиционное образование  • Традиционная математика  • Прямое обучение  • Фоника  • Декодируемый текст  • Зубрение  • Оценка (образование)  • Лекция  • Отслеживание (образование)  • Стандартные алгоритмы  • Правильный ответ

На этой странице используется лицензированный Creative Commons контент из Википедии (просмотр авторов).

Стандартный тест | Психология Вики

Оценка | Биопсихология | Сравнительный | Познавательный | Развивающие | Язык | Индивидуальные различия | Личность | Философия | Социальные |
Методы | Статистика | Клинический | Образовательные | промышленный | Профессиональные товары | Мировая психология |

Социальные процессы: Методология · Виды теста


Стандартизированный тест — это тест, проводимый и оцениваемый стандартным образом. Тесты разработаны таким образом, чтобы «вопросы, условия проведения, процедуры оценки и интерпретации были согласованы» (Sylvan Learning, 2006 [1] ) и «вводятся и оцениваются заранее определенным стандартным образом» ( Popham, 1999 [2] ).

Содержимое

  • 1 История
    • 1.1 США
  • 2 Дизайн и оценка
    • 2.1 Проблемы с подсчетом очков
    • 2.2 Ссылка для оценки
  • 3 стандарта
    • 3. 1 Стандарты оценки
    • 3.2 Стандарты испытаний
  • 4 Преимущества
  • 5 Недостатки
  • 6 Образовательные решения
  • 7 Каталожные номера
  • 8 См. также
    • 8.1 Основные темы
    • 8.2 Другие темы
  • 9 Внешние ссылки

История

Эта статья кажется необъективной или не имеет ссылок.
Вы можете помочь Psychology Wiki, цитируя соответствующие ссылки.
См. соответствующее обсуждение на странице обсуждения.


Самые ранние свидетельства стандартизированного тестирования, основанного на заслугах, появились в Китае во времена династии Хань. Концепция государства, управляемого способными и добродетельными людьми, была продуктом конфуцианской философии. Имперские экзамены охватывали так называемые Шесть искусств, которые включали музыку, стрельбу из лука и верховую езду, арифметику, письмо и знание ритуалов и церемоний как общественной, так и частной частей. Позже к тестированию были добавлены пять исследований (военная стратегия, гражданское право, доходы и налогообложение, сельское хозяйство и география). [Как сделать ссылку и ссылку на резюме или текст]

США

Первое широкомасштабное использование теста IQ в США было во время Первой мировой войны (около 1914-18). Образовательная служба тестирования (ETS), созданная в 1948 году, является крупнейшей в мире частной организацией по тестированию и измерению в сфере образования, годовой бюджет которой составляет около 900 миллионов долларов.

Закон о начальном и среднем образовании от 1994 г. требует стандартизированного тестирования в государственных школах. Государственный закон США 107-110, известный как Закон «Ни одного отстающего ребенка» от 2001 г., дополнительно увязывает финансирование государственных школ со стандартизированным тестированием.

Система образования США оценивает академическую квалификацию абитуриентов по результатам их стандартных тестов, стандартизированных вступительных испытаний в колледжи и аспирантуру:

  • ACT — тест американского колледжа
  • DAT — Стоматологический вступительный экзамен
  • GRE — выпускной экзамен для аспирантуры
  • GMAT — Вступительный тест для выпускников бизнес-школ
  • HSPT — вступительный экзамен в среднюю школу для поступления в среднюю школу
  • IELTS — Международная система тестирования английского языка
  • LSAT — вступительный экзамен в юридическую школу
  • MAT — Тест аналогий Миллера
  • MCAT — Вступительный экзамен в медицинский колледж
  • РОВ — для медицинской школы,
  • PCAT — Вступительный экзамен в фармацевтический колледж
  • PSAT/NMSQT — предварительный квалификационный тест SAT/National Merit Scholarship
  • SAT — SAT Reasoning Test, разработанный в 1926 году для колледжа
  • .
  • SSAT — Вступительный экзамен в среднюю школу для подготовительной школы
  • TOEFL — Тест по английскому языку как иностранному
  • TOEIC — Тест по английскому языку для международного общения
  • TSE — Тест разговорного английского
  • TWE — Письменный тест английского языка

Дизайн и подсчет баллов

На практике стандартные тесты могут состоять из вопросов с несколькими вариантами ответов и ответов «верно-неверно». Такие элементы можно протестировать недорого и быстро, оценивая специальные листы ответов с помощью компьютера или с помощью адаптивного компьютерного тестирования. Некоторые тесты также содержат компоненты краткого ответа или написания эссе, которым независимые оценщики присваивают баллы. Они могут быть оценены оценщиками, которые используют рубрики (правила или рекомендации) и опорные документы (примеры документов для каждого возможного балла), чтобы определить оценку, которую следует присвоить ответу. Однако ряд оценок выставляется не людьми. Например, Graduate Record Exam — это компьютерно-адаптивное оценивание, которое не требует оценки людьми (за исключением письменной части). [3]

Проблемы с подсчетом очков

Могут возникнуть проблемы с подсчетом очков человеком. Например, газета Seattle Times сообщила, что в WASL штата Вашингтон временным работникам платили 10 долларов в час. Они потратили всего 20 секунд на каждую математическую задачу, 2 и 1/2 минуты на эссе по вопросам, которые могут определить, окончит ли ученик среднюю школу, что, по мнению некоторых, вызывает беспокойство, учитывая высокие ставки таких тестов. . Аналогично Пирсон получает многие другие государственные тесты. [4] Согласие между экспертами может варьироваться от 60 до 85 процентов в зависимости от теста и сеанса подсчета очков. Иногда штаты платят за то, чтобы два или более оценщиков читали каждый документ, чтобы повысить надежность, хотя это не исключает того, что ответы на тесты получают разные оценки. [5]

Эталонный показатель

Существует два типа стандартизированных тестов: тесты, основанные на норме, и тесты, основанные на критериях, [1] , дающие оценку, основанную на норме или критерий, соответственно. Оценки, основанные на норме, сравнивают испытуемых с выборкой сверстников. Оценки, основанные на критериях, сравнивают испытуемых с критерием, и их также можно описать как оценку на основе стандартов, поскольку они соответствуют движению за реформу образования на основе стандартов. [6] Тесты, основанные на нормах, связаны с традиционным образованием, которое измеряет успех путем ранжирования учащихся, в то время как оценки, основанные на стандартах, основаны на эгалитарной вере в то, что все учащиеся могут добиться успеха, если они оцениваются по высоким стандартам, которые требуются все студенты, независимо от способностей или экономического положения. [Как сделать ссылку и дать ссылку на резюме или текст]

Стандарты

Соображения валидности и надежности обычно рассматриваются как важные элементы для определения качества любого стандартизированного теста. Тем не менее, профессиональные и практические ассоциации часто помещают эти проблемы в более широкий контекст при разработке стандартов и вынесении общих суждений о качестве любого стандартизированного теста в целом в данном контексте.

Стандарты оценивания

В области оценивания, в частности оценивания образования, Объединенный комитет по стандартам оценивания образования [7] опубликовал три набора стандартов оценивания. Стандарты оценки персонала [8] опубликованы в 1988 г., Стандарты оценки программ (2-е издание) [9] опубликованы в 1994 г. и Стандарты оценки учащихся [10] был опубликован в 2003 году.

Каждая публикация представляет и разрабатывает набор стандартов для использования в различных образовательных учреждениях. Стандарты содержат рекомендации по разработке, внедрению, оценке и совершенствованию определенной формы оценки. Каждый из стандартов был помещен в одну из четырех основных категорий, чтобы продвигать образовательные оценки, которые являются правильными, полезными, осуществимыми и точными. В этих наборах стандартов вопросы валидности и надежности рассматриваются в разделе о точности. Например, стандарты точности учащихся помогают гарантировать, что оценки учащихся будут предоставлять достоверную, точную и достоверную информацию об обучении и успеваемости учащихся.

Стандарты тестирования

В области психометрии Стандарты для образовательного и психологического тестирования [11] помещают стандарты валидности и надежности, а также ошибки измерения и связанные с этим соображения в общую тему построения теста, оценки и документация. Вторая основная тема охватывает стандарты, касающиеся справедливости при тестировании, включая справедливость при тестировании и использовании тестов, права и обязанности тестируемых, тестирование лиц с разным языковым образованием и тестирование лиц с ограниченными возможностями. Третья и последняя основная тема охватывает стандарты, связанные с тестированием приложений, включая обязанности тестируемых пользователей, психологическое тестирование и оценку, образовательное тестирование и оценку, тестирование при приеме на работу и аттестацию, а также тестирование при оценке программ и государственной политике.

Преимущества

Одно из основных преимуществ стандартизированного тестирования заключается в том, что оно позволяет давать психометрически достоверные и надежные оценки, а также результаты, которые можно обобщать и воспроизводить [12] .

Еще одним преимуществом является агрегация. Хорошо разработанный стандартизированный тест обеспечивает оценку мастерства человека в области знаний или навыков, которые на определенном уровне агрегирования могут предоставить полезную информацию. То есть, хотя индивидуальные оценки могут быть недостаточно точными для практических целей, средние баллы классов, школ, филиалов компании или других групп вполне могут предоставить полезную информацию благодаря уменьшению ошибки за счет увеличения размера выборки.

Хотя стандартизированные тесты часто критикуют как несправедливые, психометрические стандарты, применяемые при разработке стандартизированных тестов, могли бы обеспечить более справедливое тестирование, если бы применялись в других типах тестирования. В частности, должна быть продемонстрирована эффективность каждого элемента теста в достижении цели теста.

Недостатки

Хотя педагоги признают, что стандартизированные тесты занимают место в арсенале инструментов, используемых для оценки достижений учащихся, многие считают, что чрезмерное и неправильное использование этих тестов имеет серьезные негативные последствия для преподавания и обучения. Согласно FairTest, [13] , когда стандартные тесты являются основным фактором подотчетности, возникает искушение использовать тесты для определения учебного плана и целенаправленного обучения. То, что не проверяется, не изучается, а то, чему учат, не включает в себя обучение более высокого порядка. То, как предмет проверяется, становится образцом того, как преподавать предмет. В крайнем случае школа становится программой подготовки к экзаменам — и эта крайность уже существует. Конечно, можно использовать стандартизированный тест и не позволять его ограничениям контролировать учебную программу и обучение. Однако это может привести к тому, что школа рискует получить более низкие результаты тестов — в соответствии с федеральным законом «Ни одного отстающего ребенка» низкие результаты тестов означают, что школы и округа могут быть помечены как «нуждающиеся в улучшении» и наказаны. Это также означает, что родители и общественность не информируются систематически о непроверенных областях, если только школа или школьный округ не прилагают больших усилий. Чтобы улучшить обучение и обеспечить значимую подотчетность, школы и школьные округа не могут полагаться исключительно на стандартизированные тесты. Врожденные ограничения инструментов позволяют им генерировать только информацию, которая неадекватна как по широте, так и по глубине. Таким образом, штаты, округа и школы должны найти способы усилить оценивание в классе и использовать информацию, полученную в результате этих расширенных мер, для информирования общественности.

Образовательные решения

Результаты тестов все чаще используются для принятия важных образовательных решений, но они могут быть ограниченным основанием для принятия решений, таких как повышение успеваемости, отслеживание успеваемости, окончание средней школы, поступление в колледж или получение стипендии. Некоторые утверждают, что важные решения должны основываться на нескольких показателях, включая оценки в классе. Стандарты тестирования и основные исследовательские группы, такие как Национальная академия наук, четко заявляют, что основные решения в области образования не должны основываться исключительно на результатах тестов. [14] Однако использование каждой меры, дополняющей стандартизированный тест, должно эмпирически демонстрировать валидность, которая увеличивает валидность использования только теста.

Ссылки

  1. 1.0 1.1 Sylvan Learning glossary
  2. ↑ Пофам, Дж. (1999). Почему стандартизированные тесты не измеряют качество образования. Лидерство в образовании, 56 (6), 8-15.
  3. ↑ Сайт ETS о подсчете баллов GRE.
  4. ↑ [1] Воскресенье, 27 августа 2000 г. «Темпы тратят всего несколько минут, чтобы пройти государственный тест. Математическая задача WASL может занять 20 секунд; эссе — 2,5 минуты». Джолейн Хаутц, Сиэтл Таймс. Временная зарплата 10 долларов в час присваивает баллы тесту вашего ребенка».
  5. ↑ Почему WASL ужасен
  6. ↑ Where We Stand: Standard-Based Assessment and Accountability (Американская федерация учителей) [2]
  7. ↑ Объединенный комитет по стандартам оценки образования
  8. ↑ Объединенный комитет по стандартам оценки образования. (1988). Стандарты оценки персонала: как оценивать системы оценки преподавателей. Ньюбери-Парк, Калифорния: Sage Publications.
  9. ↑ Объединенный комитет по стандартам оценки образования. (1994). Стандарты оценки программ, 2-е издание. Ньюбери-Парк, Калифорния: Sage Publications.
  10. ↑ Комитет по стандартам оценки образования. (2003). Стандарты оценивания учащихся: как улучшить оценивание учащихся. Ньюбери-Парк, Калифорния: Corwin Press.
  11. Стандарты образовательного и психологического тестирования
  12. ↑ Кунцел, Н. Р., и Хезлетт, С. А. (2007). Стандартизированные тесты предсказывают успехи аспирантов. Наука, 315 , 1080-81.
  13. ↑ FairTest (Национальный центр справедливого и открытого тестирования)
  14. ↑ «Высокие ставки: тестирование для отслеживания, повышения, ~~~~ и выпуска»

См. также

Основные темы

  • Стандартный балл
  • Оценка
  • Оценка
  • Тест (оценка учащихся)
  • Выпускной экзамен средней школы

Другие темы

  • Альтернативное оценивание
  • Реформа образования на основе стандартов
  • Оценка на основе стандартов
  • Критериальный тест
  • Перечень вступительных испытаний
  • Стандартный тест
  • Стандартизированное тестирование и государственная политика

Внешние ссылки

  • Объединенный комитет по стандартам оценки образования
  • Стандартизированное тестирование в школе
  • Стандарты педагогического и психологического тестирования
На этой странице используется лицензионный контент Creative Commons из Википедии (просмотр авторов).

Несколько слов о стандартизации в лонгитюдных исследованиях: не делайте

«Как правило, вы не хотите проводить полную стандартизацию z-оценки каждой переменной, потому что тогда вы теряете показатель ковариации, который необходим для процедуры SEM, и вы теряете любую информацию об изменениях среднего уровня с течением времени».

(Литтл, 2013, стр. 18)

В этой статье обсуждаются риски стандартизации и ипсатизации в лонгитюдных исследованиях. Во-первых, в нем обобщаются некоторые общие цели стандартизации в психологических исследованиях. Во-вторых, это объясняет, почему и когда стандартизация и ипсатизация проблематичны при анализе лонгитюдных данных и профилей. В-третьих, он показывает альтернативные способы достижения аналогичных целей, избегая при этом рисков.

Определения и цели Z-стандартизации и ипсатизации

Z-стандартизация и ипсатизация — это процедуры преобразования абсолютных значений или рейтингов (например, 1 = совсем не согласен в 7 = полностью согласен ) в относительные оценки, отражающие ранг каждого ответа по сравнению с рангами всех ответов в этой выборке. При z-стандартизации средний балл выборки вычитается из каждого отдельного наблюдения, а затем эта разница делится на стандартное отклонение выборки. Результатом является шкала, где оценка 0 означает, что это наблюдение было на среднем уровне выборки, а z-оценка 1 отражает наблюдение, на одно стандартное отклонение превышающее среднее значение выборки. Ипсатизация также преобразует абсолютные оценки в относительные ранги, но связывает каждый ответ со средним значением отдельного человека, а не со средним значением выборки. Ответы человека искажаются путем вычитания среднего балла человека из каждого ответа, который человек дал в анкете. Положительный ипсатизированный балл означает, что человек оценил этот пункт выше (что часто означает: утвердил более сильно), чем среднее значение других пунктов в этой анкете.

Стандартизация и ипсатизация применяются для следующих целей:

(1) Стандартизация используется для приведения переменных с различными шкалами ответов (например, шкала от 1 = совсем не согласен до 7 = полностью согласен а другой от 0 = совсем не согласен до 10 = полностью согласен) к сопоставимому показателю.

(2) Z-стандартизированные баллы отображаются на графиках, чтобы подчеркнуть различия среднего уровня между группами или профилями наблюдений.

(3) Ипсатизация используется для учета систематических ошибок в ответах, таких как молчаливое согласие (=тенденция подтверждать все пункты). Например, в кросс-культурных сравнениях элементы часто ипсатизируются, чтобы учесть предвзятость ответов, характерную для конкретной культуры (Tweed and DeLongis, 2006). С той же целью внутриличностная стандартизация применяется в интенсивных лонгитюдных исследованиях с многочисленными наблюдениями на человека в короткие промежутки времени (например, метод выборки опыта, см. Csikszentmihalyi and Schneider, 2000). В то время как ипсатизация относится к среднему баллу человека по всем переменным, внутрииндивидуальная стандартизация относится к среднему значению одной переменной по нескольким наблюдениям. Полученные ипсатизированные и внутрииндивидуальные z-показатели отражают, был ли ответ «высоким» по сравнению с другими ответами того же человека. В регрессионном анализе предикторная переменная часто ипсатируется по среднему значению выборки или группы, чтобы сделать пересечение осмысленно интерпретируемым (= «центрирование», см. Эндерс и Тофиги, 2007).

Проблемы, возникающие из-за стандартизации и ипсатизации

Хотя стандартизация и ипсатизация просты и широко распространены, существует множество сочетаний, в которых эти процедуры бесполезны или вводят в заблуждение. Для перекрестных исследований эти вопросы уже давно обсуждаются (например, Fischer and Milfont, 2010), но дополнительные проблемы возникают при изучении лонгитюдных данных или профилей. Причинами дополнительных проблем стандартизации лонгитюдных и вложенных данных являются многочисленные дополнительные возможности соотнесения рейтингов с различными системами отсчета и распределениями. В лонгитюдных исследованиях возникают вопросы: должны ли мы стандартизировать в пределах временных точек или между ними? Стандартизировать внутри или между отдельными людьми? Стандартизировать внутри или между возрастными группами/когортами? В результате проблемы:

(1) Стандартизация повторных измерений у отдельных индивидуумов препятствует изучению различий среднего уровня между индивидуумами, поскольку средний балл каждого индивидуума становится равным нулю. Стандартизированные средства не сообщают, различались ли люди в своем первоначальном опыте.

(2) Стандартизация среди отдельных лиц в моменты времени измерения препятствует изучению изменений среднего уровня от одного момента времени к другому, потому что все средние значения во все моменты времени становятся равными нулю, в то время как средние значения необработанных баллов могли бы показать уменьшение измеряемой переменной, такие как интерес (см., например, Denissen et al., 2007).

(3) Стандартизация индивидуумов в разные моменты времени скрывает информацию об относительном ранге индивидуума в заданные моменты времени и препятствует распутыванию порядка рангов и стабильности среднего уровня. Например, у Анны мог быть относительно высокий интерес к первому и третьему классу по сравнению с другими в тот же момент времени. Однако, поскольку интерес часто снижается со временем, абсолютный интерес Анны был намного ниже в 3-м классе, чем в 1-м, как и у всех остальных. При стандартизации по временным точкам и отдельным лицам информация об относительном порядке ранжирования для конкретной временной точки смешивается с изменением среднего уровня, и это будет выглядеть так, как будто Анна проявляла высокий интерес в первый раз, но несколько низкий или средний интерес в другое время. два.

(4) Стандартизация отдельных лиц внутри возрастных групп/когорт препятствует изучению возрастных различий в определенные моменты времени. Например, в исследовании, в котором изучались три когорты (6-й, 8-й и 10-й классы) за 3 года (1992, 1995, 1997; см. Csikszentmihalyi and Schneider, 2000), балл изменился с 6-го на 8-й класс или с 1992 на 1995 год, потому что все они стали нулевыми.

(5) Вероятна неправильная интерпретация различий между профилями и группами, когда для сравнения этих профилей используются z-стандартизированные показатели, особенно если переменные различались по своим средним значениям и дисперсии до преобразования. Две проблемы усложняют интерпретацию групповых различий на основе z-показателей: во-первых, z-показатели представляют ранги по отношению к другим людям, а не степень, в которой пункт был подтвержден данным человеком. Если элемент имел низкий средний балл по выборке, то «высокий» z-показатель выше 0 (выше среднего по выборке) может представлять утверждение «скорее нет» ниже средней точки исходной шкалы ответов (см. Moeller et al., в Нажмите). Во-вторых, построение групповых различий с использованием z-показателей часто приводит к тому, что в конечном итоге небольшие различия выглядят большими по сравнению с графиком, отображающим полную исходную шкалу ответов и необработанные оценки. Причина в том, что графики на основе z-показателей часто показывают только ту часть распределения, где профили различаются, а не полный диапазон возможных ответов (например, Tuominen-Soini et al., 2011). Это похоже на график с усеченной осью Y, который считается вводящим в заблуждение (например, Rovezzi Carroll and Carroll, 2002).

(6) Стандартизация отдельных лиц не должна выполняться с использованием ипсатизированных показателей, поскольку это запутывает внутрииндивидуальную систему отсчета (ипсатизация) и межиндивидуальную систему отсчета (стандартизация) и ее трудно интерпретировать.

(7) Ипсатизация изменяет ковариационную матрицу таким образом, что данные становятся непригодными для корреляционных методов, таких как исследовательский и подтверждающий факторный анализ, моделирование структурными уравнениями, и многомерных методов, таких как множественная регрессия и многомерный дисперсионный анализ (Корнуэлл и Данлэп, 19). 94; Клосс, 1996; Чан, 2003).

Из-за сложности лонгитюдных данных и анализа вышеописанные проблемы часто возникают одновременно. Например, стандартизация повторяющихся показателей, специфичных для конкретной ситуации, для отдельных лиц увеличивает риск неверной интерпретации средних различий z-показателей между профилями показателей состояния на уровне ситуации, потому что индивидуальное распределение этих переменных (см. задачу № 5) и межиндивидуальное распределение этих переменных (см. задачи 2–5). Это делает почти невозможным интерпретацию того, представляет ли относительно высокий ранг (z-показатель) переменную, которая была оценена как «высокая» по исходной шкале ответов конкретным человеком в конкретной ситуации. Пример взаимосвязанных проблем стандартизации см. в Denissen et al. (2007), которые применили две разные стратегии стандартизации (внутри отдельных лиц в разные моменты времени измерения и среди отдельных лиц в определенные моменты времени), а затем сравнили профили стандартизированных переменных в определенные моменты времени. Эта стратегия включает в себя три риска: риски, связанные со стандартизацией внутри отдельных лиц (проблема 1), связанные со стандартизацией во временных точках (проблемы 3 и 4) и связанные с неправильной интерпретацией средних показателей профиля (проблема 5).

Альтернативы стандартизации и ипсатизации

Для приведения различных измеряемых элементов к одной и той же метрике доступны несколько простых альтернативных монотонных преобразований шкалы, которые, в отличие от стандартизации, не изменяют многомерное распределение и ковариационную матрицу преобразованных переменных. Одним из решений является метод пропорции максимального масштабирования («POMS») (Little, 2013), который преобразует каждую шкалу в показатель от 0 (=минимально возможный) до 1 (=максимально возможный), сначала делая диапазон шкалы от 0 до наибольшего значения, а затем разделить баллы на наибольшее значение.

POMS=[(наблюдаемый-минимум)/(максимум-минимум)]

Например, для шкалы, которая изначально находилась в диапазоне от 1 до 7, сначала из каждого наблюдения вычитается значение 1, чтобы шкала изменилась от 0 до 6, а затем каждый балл делится на 6, чтобы шкала менялась от 0 до 1. В отличие от стандартизации, при этом сохраняются пропорции абсолютных расстояний между наблюдаемыми вариантами ответов.

Другим вариантом является метод процента от максимально возможного («POMP») (Cohen et al., 19).99), в результате чего каждая шкала находится в диапазоне от 0 (=минимально возможный) до 100 (=максимально возможный) путем умножения результата преобразования POMS на 100. Полученные в результате преобразования POMP баллы можно интерпретировать как проценты от возможного максимального балла. Синтаксисы SPSS для этих преобразований можно загрузить бесплатно (Moeller, 2015).

Для изучения различий среднего уровня между профилями и группами можно использовать необработанные баллы или шкалы, преобразованные с помощью метода POMS или POMP. Преимущество этого заключается в том, что баллы отражают степень индивидуального одобрения/отвержения пунктов, а групповые различия отображаются в правильных пропорциях. Обсуждение дополнительных преимуществ и альтернативных преобразований см. в Little (2013) и Cohen et al. (1999).

Чтобы учесть однообразное смещение ответов, такое как молчаливое согласие, можно смоделировать фактор общего метода в моделях структурных уравнений (Billiet and McClendon, 2000; Geiser and Lockhart, 2012). Например, латентная переменная с одинаковыми факторными нагрузками на все наблюдаемые ответы в вопроснике может объяснить тенденцию ответов, которая была общей для всех наблюдаемых ответов. Преимущество перед ипсатизацией заключается в том, что метрика ковариации остается полезной для всех поисковых и подтверждающих факторных анализов (EFA, CFA) и моделирования структурными уравнениями (SEM). Процедура может быть адаптирована для учета неоднородных систематических ошибок в ответах (например, комбинированная систематическая ошибка подтверждения положительно воспринимаемых вопросов и систематическая ошибка отрицания негативно воспринимаемых вопросов, что имеет значение при оценке достоверности симптомов). Если вместо этого используется ипсатизация с EFA, CFA или SEM, то процедура ипсатизации должна быть изменена (см. Chan and Bentler, 19).93; Чунг и Чан, 2002). Для учета погрешностей ответов при анализе профилей факторы метода и необработанные или POMS-показатели могут быть объединены в модели сочетания факторов (Lubke and Muthén, 2005; Leite and Cooper, 2010).

С учетом факторов ипсатизации и метода по-прежнему трудно отделить предвзятые стили ответов от подлинного опыта. Например, некоторые люди действительно интересуются широким спектром тем (=подтвердить все интересующие их темы) и не демонстрируют явного профиля интересов с высоким интересом к одним и низким интересом к другим темам (Раундс и Трейси, 19).93). Чтобы отделить использование шкалы от подлинного опыта, полезно включить в анкету противоречащие элементы и конструкции или использовать шкалы достоверности, например, для оценки тенденции в целом подтверждать элементы, не обращая внимания на их содержание, или для оценки социальной желательности. Исследование «неоднородности использования масштаба» предоставляет дополнительные инструменты для этой цели (Rossi et al. , 2001, 2005).

Резюме

Z-стандартизация — это широко используемая процедура, применяемая для избавления от склонности к согласию и других искажений ответов, приведения переменных разных показателей к одному показателю и подчеркивания различий между группами на графиках.

В продольных данных и анализе подгрупп наблюдений z-стандартизация приводит к ряду проблем. Он часто нежелательным образом изменяет расстояния между наблюдениями и многомерное распределение поперечных и продольных данных. Психологическая литература богата примерами неправильной интерпретации z-показателей, некоторые из которых описаны в этой статье. В то время как перекрестные исследования известны многими ловушками, лонгитюдные исследования добавляют дополнительные проблемы из-за смешанных систем отсчета (исходная шкала ответов, внутрииндивидуальное распределение, межиндивидуальное распределение в заданные моменты времени, межиндивидуальное распределение). в разные моменты времени, вариации внутри и между когортами и любые их комбинации). Как правило, нецелесообразно сначала стандартизировать переменные внутри единиц (отдельных лиц, когорт, штатов, организаций), а затем сравнивать средние баллы по этим единицам, которые дали основу для стандартизации. Это должно быть тривиально, но часто можно наблюдать в текущих исследованиях, и легко уследить или неправильно обработать, чем больше единиц и систем отсчета добавляется в структуру данных.

Моделирование факторов общего метода является полезной альтернативой для учета предвзятости ответов, избегая при этом недостатков ипсатизации. Доступны альтернативные простые преобразования монотонной шкалы для получения элементов с разными шкалами ответов для одной и той же метрики (Cohen et al., 1999; Little, 2013). Учитывая легкость и широкое распространение стандартизации в психологической литературе, кажется необходимым подчеркнуть риски и возможные неверные толкования во время методологического обучения, написания и рецензирования в психологии. Как отметил Литтл (2013), кажется разумным избегать стандартизации в лонгитюдном анализе данных и личностно-ориентированном анализе, если только исследователь полностью не осведомлен о нежелательных последствиях и не способен их избежать. Есть много хороших применений для этих процедур, но также и много рисков.

Заявление о конфликте интересов

Автор заявляет, что исследование проводилось в отсутствие каких-либо коммерческих или финансовых отношений, которые могли бы быть истолкованы как потенциальный конфликт интересов.

Благодарности

Я благодарю Катарину Салмела-Аро за ее поддержку, а также Жаклин С. Экклз, Анну-Лену Дике, Мелани Кейнер и Джулию Дитрих за предложения и поддержку и Ариэль Уайт за корректуру. Эта работа была поддержана грантом Фонда Джейкобса в рамках постдокторской программы «Пути к взрослой жизни». Эта статья была написана, когда автор работал в Хельсинкском университете, и была переработана и повторно представлена ​​после того, как автор перешел в Йельский университет.

Ссылки

Billiet, J., and McClendon, M.J. (2000). Моделирование согласия с моделями измерения для двух сбалансированных наборов элементов. Структура. Экв. Модель. 7, 608–628. doi: 10.1207/S15328007SEM0704_5

Полный текст CrossRef | Google Scholar

Чан, В. (2003). Анализ ipsatized данных в психологических исследованиях. Поведенческая метрика 30, 99–121. doi: 10.2333/bhmk.30.99

PubMed Abstract | Полный текст перекрестной ссылки | Академия Google

Чан В. и Бентлер П. М. (1993). Ковариационный структурный анализ ипсативных данных. Соц. Методы Рез. 22, 214–247. doi: 10.1177/00493022002003

CrossRef Full Text | Google Scholar

Cheung, MWL, and Chan, W. (2002). Уменьшение однородной систематической ошибки ответа с помощью ипсативного измерения в множественном групповом подтверждающем факторном анализе. Структура. Экв. Модель. 9, 55–77. doi: 10.1207/S15328007SEM0901_4

Полный текст CrossRef | Академия Google

Клосс, С.Дж. (1996). О факторинге и интерпретации ипсативных данных. Дж. Оккуп. Орган. Психол. 69, 41–47. doi: 10.1111/j.2044-8325.1996.tb00598.x

Полный текст CrossRef | Google Scholar

Коэн П. , Коэн Дж., Айкен Л.С. и Уэст С.Г. (1999). Проблема единиц и обстоятельств для ПОМП. Многомерное поведение. Рез. 34, 315–346. doi: 10.1207/S15327906MBR3403_2

Полный текст CrossRef | Google Scholar

Корнуэлл, Дж. М., и Данлэп, В. П. (1994). О сомнительной надежности факторизации ипсативных данных: ответ на Saville & Willson (1991). Дж. Оккуп. Орган. Психол. 67, 89–100. doi: 10.1111/j.2044-8325.1994.tb00553.x

Полный текст CrossRef | Google Scholar

Чиксентмихайи М. и Шнайдер Б. (2000). Становление взрослым . Нью-Йорк, штат Нью-Йорк: Основные книги.

Google Scholar

Дениссен, Дж. Дж. А., Зарретт, Н. Р., и Экклс, Дж. С. (2007). Мне нравится это делать, я умею и знаю, что умею: продольные связи между достижениями в предметной области, самооценкой и интересом. Ребенок Дев. 78, 430–447. doi: 10.1111/j.1467-8624.2007.01007.x

PubMed Abstract | Полный текст перекрестной ссылки | Google Scholar

Эндерс, К. К., и Тофиги, Д. (2007). Центрирование предикторных переменных в кросс-секционных многоуровневых моделях: новый взгляд на старую проблему. Психология. Методы 12, 121–138. doi: 10.1037/1082-989X.12.2.121

PubMed Abstract | Полный текст перекрестной ссылки | Google Scholar

Фишер Р. и Милфонт Т. Л. (2010). Стандартизация в психологических исследованиях. Междунар. Дж. Психол. Рез. 3, 88–96.

Реферат PubMed | Google Scholar

Гейзер, К., и Локхарт, Г. (2012). Сравнение четырех подходов к учету эффектов метода в анализе скрытых признаков состояния. Психология. Методы 17, 255–283. doi: 10.1037/a0026977

PubMed Abstract | Полный текст перекрестной ссылки | Google Scholar

Лейте, В.Л., и Купер, Л.А. (2010). Выявление предвзятости социальной желательности с использованием моделей сочетания факторов. Многомерное поведение. Рез. 45, 271–293. doi: 10.1080/00273171003680245

CrossRef Full Text | Google Scholar

Литтл, Т. Д. (2013). Моделирование продольных структурных уравнений (методология социальных наук) . Нью-Йорк, штат Нью-Йорк: GuilfordPress.

Любке, Г. Х., и Мутен, Б. (2005). Исследование неоднородности населения с помощью моделей смеси факторов. Психология. Методы 10, 21–39. doi: 10.1037/1082-989X.10.1.21

PubMed Abstract | Полный текст перекрестной ссылки | Академия Google

Меллер, Дж. (2015). SPSS-синтаксис для POMS- и POMP-преобразования . Доступно в Интернете по адресу: https://osf.io/eaxgb

Moeller, J., Keiner, M., and Grassinger, R. (в печати). Две стороны одной медали: описывают ли двойственные типы страсти отдельные подгруппы людей? J. Личностно-ориентированный Res. 2 .

Росси, П.Е., Алленби, Г.М., и Маккаллох, Р. (2005). Байесовская статистика и маркетинг Чичестер: John Wiley & Sons, Ltd.

Google Scholar

Росси П.Е., Гилула З. и Алленби Г.М. (2001). Преодоление неоднородности использования масштаба: байесовский иерархический подход. Дж. Ам. Стат. доц. 96, 20–31. doi: 10.1198/016214501750332668

CrossRef Full Text | Google Scholar

Rounds, J. and Tracey, TJ (1993). Размерное представление Предигера циркумплекса Холланда RIASEC. J. Appl. Психол. 78, 875–890. doi: 10.1037/0021-9010.78.6.875

CrossRef Full Text | Академия Google

Ровецци Кэрролл С. и Кэрролл Д. Дж. (2002). Упрощенная статистика для руководителей школ: принятие решений на основе данных . Оксфорд, Великобритания: Scarecrow Education Inc.

Google Scholar

Туоминен-Сойни, Х., Салмела-Аро, К., и Ниемивирта, М. (2011). Стабильность и изменение ориентации на достижение цели: личностно-ориентированный подход. Контемп. Образовательный Психол. 36, 82–100. doi: 10.1016/j.cedpsych.2010.08.002

CrossRef Полный текст | Академия Google

Твид, Р. Г., и Делонгис, А. (2006). «Проблемы с оценочными шкалами в исследованиях совладания в разных культурах», в Handbook of Multicultural Perspectives on Stress and Coping , eds PTP Wong и LCJ Wong (Нью-Йорк, штат Нью-Йорк: Springer), 133–154.

Стандартизированные психологические тесты

Психология — это наука, основанная на исследованиях, она в значительной степени зависит от научного процесса. Невозможно использовать научный метод без использования стандартизированных тестов. Это очень верно в психологии, которая часто оценивает индивидуальные особенности и возможности. Тестирование личности дает конкретный взгляд на общие функции и черты человека, взаимодействующие с окружающей средой. Что такое стандартизированные психологические тесты и почему они важны?

Суть дела – психологическая оценка

Weiner (2003) и Groth-Marnat (2009) объяснили, что психологическая оценка дает важную информацию для понимания характеристик и способностей. Это делается путем сбора, интеграции и интерпретации данных. Такие данные могут быть получены с помощью различных методов и мер из соответствующих источников в зависимости от конкретных целей.


Психологическое тестирование – что это?

Стандартизированная процедура психологического теста измеряет количественно или качественно один или несколько аспектов черты с помощью образца вербального или невербального поведения. Анастази и Урбина (1997) определили его как объективную и стандартизированную меру образца поведения человека. Куллари (1998) сказал, что психологический тест представляет собой стандартизированную процедуру выборки поведения и его описания в баллах или категориях.


Роль стандартизации

Термин «стандартизация» отделяет формальные тесты от неформальных. Проще говоря, стандартизированные тесты — это тесты, которые были стандартизированы. Чтобы считаться «стандартизированным», должны быть выполнены следующие условия —

  • Должен существовать стандартный способ предоставления инструкций, чтобы можно было поддерживать единообразие во время оценки тестируемого. Некоторые процедуры включают в себя спокойную обстановку без отвлекающих факторов, точное чтение записанных инструкций, предоставление необходимых стимулов и т. д.
  • Должны быть единообразие подсчета очков и показатель честности правильных ответов посредством процедуры анализа заданий.
  • Необходимо установить надежность и достоверность теста. Также следует упомянуть, для кого это сделано.
  • Самое главное условие – стандартизированный тест должен иметь нормы. Подавляющее большинство психологов твердо убеждены в том, что нормы необходимы, несмотря на их противоречивый характер.
  • Специалисты по тестированию должны построить эти тесты и получить результаты, которые можно законно сравнивать. Элементы в этих тестах фиксированы и не могут быть изменены!

Компоненты хорошего психологического теста

Чтобы тест был научно обоснованным, он должен иметь следующие компоненты: −


  • Объективность − Стандартные тесты должны быть свободны от субъективных суждений относительно способностей, навыков, знания или качества, подлежащие оценке. Должны быть два аспекта: объективность предметов и объективность системы подсчета очков. Объективность заданий означает, что вопросы должны быть сформулированы и интерпретированы одинаково всеми, кто проходит тест, а объективность подсчета баллов относится к единообразию метода подсчета баллов.
  • Надежность — Надежность относится к степени, в которой тесты дают согласованные результаты. Это один из важнейших компонентов психологического теста. Надежные тесты дают одни и те же баллы при проведении одного и того же образца более одного раза в течение разумного промежутка времени. Чем надежнее тест, тем больше он заслуживает доверия. Существует несколько способов проверки надежности.
  • Валидность — Еще одним важным компонентом является валидность. Это относится к степени, в которой тест измеряет то, что он намеревается измерить. Этот компонент показывает, выполняет ли тест свою цель или нет. Критерий, измеряемый тестом, должен быть независимым и рассматриваться как лучший показатель измеряемой черты или способности. Как правило, валидность зависит от надежности, потому что тест, дающий ненадежные результаты, не должен коррелировать с каким-либо внешним независимым критерием.
  • Нормы — они относятся к средней производительности репрезентативной выборки в любом заданном тесте. Это представляет собой средний стандарт конкретного образца в конкретном аспекте. В зависимости от цели теста администраторы теста используют разные нормы. Эти нормы помогают интерпретировать оценки; без них к полученным болячкам никакого смысла не прибавить. Соответствующие нормы выбираются в зависимости от размера и репрезентативности выборки. Каждый человек в предполагаемой тестовой популяции должен иметь равные шансы попасть в выборку для стандартизации.
  • Практичность − Тесты должны быть практичными, и они должны быть выполнимыми в отношении таких аспектов, как время, необходимое для завершения, длина, количество элементов, оценка и т. д. Ни тест, ни оценка не должны быть слишком длинными и сложными. Без практического применения данные загрязняются, и их трудно правильно интерпретировать.

Заключение

Стандартные психологические тесты полезны во многих отношениях. Они помогают выявить слабые и сильные стороны, поддерживают индивидуальные планы уроков, отслеживают прогресс, выявляют инвалидность и профессиональные способности и т. д. Важно отметить, что для получения точных результатов тесты должны проводиться среди нужных людей. Когда тесты применяются к лицам, не входящим в нормальную группу, это увеличивает вероятность неправильного толкования. Понимание важности психологического тестирования является основой исследований. Администраторы тестирования должны понимать нюансы инструментов, которые они используют, чтобы получить наиболее полные и точные результаты, особенно для тестирования личности. Таким образом, стандартизированные тесты закладывают основу для оценки индивидуальных различий и предоставляют важную информацию для дальнейшего анализа!

Психологическая оценка | Аномальная психология

Цели обучения

  • Описать типы и цели психологической оценки

Психологические тесты

Психологические тесты — это письменные, визуальные или вербальные тесты, применяемые для оценки когнитивных и эмоциональных функций клиентов или пациентов. Эти тесты могут включать анкеты и интервью, которые также предназначены для измерения ненаблюдаемых конструктов. Как мы упоминали ранее, полезный психологический тест/шкала должен быть как достоверным (т. внутренне непротиворечивы или дают согласованные результаты с течением времени, между оценщиками и т. д.). Следовательно, тест должен соответствовать критерию стандартизации.

Рисунок 1 . Критическая часть процесса лечения включает в себя использование оценок для сбора информации, которая может указать, как двигаться дальше с клиентом.

Одним из основных преимуществ стандартизированного тестирования является то, что результаты могут быть эмпирически задокументированы; поэтому можно показать, что результаты тестов имеют относительную степень достоверности и надежности , , а также результаты, которые можно обобщить и воспроизвести.   Стандартизированный тест  – это тест, который проводится и оценивается согласованным или «стандартным» способом. Стандартизированные тесты разработаны таким образом, что вопросы, условия проведения, процедуры оценки и интерпретации являются согласованными и проводятся и оцениваются заранее определенным стандартным образом.

Психологическая оценка чаще всего используется в психиатрических , медицинских , юридических , образовательных или психологическая клиника настройки. Этот тип клинической оценки можно рассматривать как широкий спектр методов измерения, каждый из которых включает предоставление людьми поддающейся оценке информации о своем психологическом функционировании. Типы оценок и цели для них различаются в зависимости от этих настроек.

В психиатрических учреждениях общие потребности в оценке заключаются в том, чтобы определить риски, следует ли человека госпитализировать или выписать, место содержания пациентов и какую терапию пациент должен получать. В этих условиях психологи должны знать о юридических обязанностях, которые они могут нести по закону в каждой ситуации.

В медицинских учреждениях психологическая оценка используется для выявления возможного основного психологического расстройства, эмоциональных факторов, которые могут быть связаны с медицинскими жалобами, оценки нейропсихологического дефицита, психологического лечения хронической боли и лечения химической зависимости. Нейропсихологическому статусу пациента придается большее значение, поскольку нейропсихологи все больше интересуются функционированием мозга.

Психологическое освидетельствование также играет важную роль в правовой сфере. Психологов могут попросить оценить надежность свидетеля, качество показаний, которые дает свидетель, компетентность обвиняемого или определить, что могло произойти во время преступления. Они также могут помочь поддержать заявление о невменяемости или отвергнуть заявление. Судьи могут использовать отчет психолога для изменения приговора осужденному, а надзиратели работают с психологами над созданием программы реабилитации условно-досрочно освобожденных. К проблемным областям для психологов относится прогнозирование того, насколько опасным будет человек. В настоящее время нет точной меры для этого прогноза; однако это предсказание часто необходимо для предотвращения возвращения опасных людей в общество.

Психологов также могут вызывать для оценки различных аспектов образовательной среды. Их могут попросить оценить сильные и слабые стороны детей, испытывающих трудности в школьной системе (с помощью тестирования интеллекта), оценить поведенческие трудности, оценить реакцию ребенка на вмешательство или помочь составить план обучения для ребенка. Оценка детей также позволяет психологам определить, захочет ли ребенок использовать ресурсы, которые могут быть предоставлены.   Благодаря неустанным усилиям по разработке норм, а также разработке мер надежности и достоверности, некоторые меры, такие как шкалы интеллекта Векслера, как для взрослых, так и для детей, рассматриваются как самые сильные психологические инструменты.

В условиях психологической клиники психологическая оценка может использоваться для определения характеристик клиента, которые могут быть полезны для разработки плана лечения. В этих условиях психологи часто работают с клиентами, у которых могут быть медицинские или юридические проблемы, или иногда со студентами, которых направил школьный психолог.

Некоторые психологические оценки были одобрены для использования при проведении через компьютер или Интернет. Однако к этим результатам теста следует относиться с осторожностью, поскольку при оценке с помощью электронных средств возможна подделка. Многие электронные оценки на самом деле не измеряют то, что заявлено, например, личностный тест Мейерса-Бриггса. Хотя это одна из самых известных оценок личности, многие психологические исследования признали ее недействительной и ненадежной, и ее следует использовать с осторожностью. [1] [2]

Типы психологической оценки

Психологические показатели обычно относятся к одной из нескольких категорий, включая следующие:

  • Тесты интеллекта и достижений виды когнитивного функционирования (часто называемые IQ) по сравнению с нормирующей группой. Эти тесты, такие как WISC-IV и WAIS, пытаются измерить такие черты, как общие знания, вербальные навыки, память, продолжительность концентрации внимания, логическое мышление и визуальное/пространственное восприятие. Было показано, что несколько тестов точно предсказывают определенные виды успеваемости, особенно успеваемость.
  • Тесты личности — Тесты личности предназначены для описания моделей поведения, мыслей и чувств. Обычно они делятся на две категории: объективные и проективные. Объективные показатели, такие как MMPI , основаны на ограниченных ответах, таких как да/нет, правда/ложь или рейтинговая шкала, которые позволяют вычислять баллы, которые можно сравнить с нормативной группой. Проективные тесты, такие как тест чернильных пятен Роршаха , позволяют давать открытые ответы, часто основанные на неоднозначных стимулах. Другие часто используемые меры оценки личности включают PAI и NEO-PI-R.
  • Нейропсихологические тесты — Нейропсихологические тесты состоят из специально разработанных задач, используемых для измерения психологических функций, о которых известно, что они связаны с определенной структурой мозга или проводящими путями. Они обычно используются для оценки нарушений после травмы или болезни, которые, как известно, влияют на нейрокогнитивные функции, или при использовании в исследованиях для сопоставления нейропсихологических способностей в экспериментальных группах.
  • Инструменты для диагностических измерений — Клинические психологи способны диагностировать психологические расстройства и связанные с ними расстройства, описанные в DSM-5 и МКБ-10 . Многие оценочные тесты были разработаны в дополнение к клиническому наблюдению клиницистов и другим оценочным мероприятиям. Некоторые из них включают SCID-5 , наиболее широко используемый.
  • Клиническое наблюдение — Клинические психологи также обучены собирать данные путем наблюдения за поведением. Клиническое интервью является жизненно важной частью оценки, даже при использовании других формализованных инструментов, которые могут использовать как структурированный, так и неструктурированный формат. Такая оценка касается определенных областей, таких как общий внешний вид и поведение, настроение и аффекты, восприятие, понимание, ориентация, понимание, память и содержание общения. Одним из психиатрических примеров официального интервью является обследование психического состояния , которое часто используется в психиатрии в качестве инструмента скрининга для лечения или дальнейшего тестирования.

Попробуйте

Ссылка на обучение

В этом видеоклипе показано, как врач проводит обследование психического состояния клиента Глена, который борется с употреблением алкоголя и другими симптомами после смерти отца (обратите внимание, что есть некоторые нецензурная брань в клипе). Пока вы смотрите, подумайте о методах, которые использует клиницист, собирая информацию о Глене.

Глоссарий

клиническое интервью: встреча лицом к лицу между специалистом в области психического здоровья и пациентом, при которой первый наблюдает за вторым и собирает данные о поведении человека, его отношении, текущей ситуации, личности и истории жизни.

обследование психического статуса (MSE):  медицинский процесс, при котором врач, работающий в области психического здоровья, систематически исследует психику пациента и то, как он выглядит, думает, чувствует и ведет себя

психологическая оценка : широкий спектр методов измерения, каждый из которых включает в себя предоставление людьми поддающейся оценке информации о своем психологическом функционировании или пациенты

стандартизация: психометрический критерий, четко определяющий инструкции по проведению теста и подсчету баллов

стандартизированный тест:  тест , который проводится и оценивается последовательно или «стандартно»


  1. Питтенгер, Дэвид (декабрь 1993 г.). «Полезность индикатора типа Майерс-Бриггс». Обзор образовательных исследований. 63 (4): 467–488. doi: 10.3102/00346543063004467 ↵
  2. Майкл, Джеймс (февраль 2003 г.). «Использование индикатора типа Майерс-Бриггс в качестве инструмента для развития лидерства? Применять с осторожностью».

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *