В психологии надежность: Надёжность психологического теста — Психологос

Надёжность психологического теста — Психологос

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Надёжность как устойчивость

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

  • Метод расщепления или метод автономных частей
  • Метод эквивалентных бланков
  • Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Надежность психологического теста | это… Что такое Надежность психологического теста?

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Содержание

  • 1 Надёжность как устойчивость
  • 2 Надёжность как внутренняя согласованность
  • 3 См. также
    • 3.1 Надежность и валидность
  • 4 Литература

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков
  3. Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0.

Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

α Кронбаха определяется как

,

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

Надежность — Центр психологии

Надежность:

Надежность означает согласованность.  Результаты исследования являются надежными, если при повторении исследования неизменно обнаруживаются одни и те же результаты.

Это повторение включает в себя повторение исследования точно в ТЕХ ЖЕ УСЛОВИЯХ,  с использованием точно ТЕХ ЖЕ УЧАСТНИКОВ.

Имейте в виду: результаты расследования могут быть надежными, но это не означает, что они действительны. Исследование может быть надежно недействительным (т. е. постоянно давать неточные результаты).

Вопросы надежности (только уровень A)

Психологам необходимо постоянно измерять переменные. Этот аспект исследования известен как надежность. Если вы надежный ученик, вы регулярно приходите на уроки и всегда сдаете работу вовремя. Надежное исследование всегда должно давать одинаковые или похожие результаты при воспроизведении в точно таких же условиях с теми же участниками. Надежность используется для оценки как экспериментальных процедур, так и «инструментов», таких как тесты, анкеты, интервью и поведенческие категории в наблюдениях.

Типы надежности:

Существует два типа надежности:

(1) Внутренняя надежность (непротиворечивость меры внутри себя)

Внутренняя надежность относится к непротиворечивости меры внутри себя. Внутренняя надежность относится к непротиворечивости меры внутри самой себя. Например, пункты анкеты или вопросы в интервью должны проверять одно и то же.

(2) Внешняя надежность (постоянство процедуры от одного случая к другому)

Внешняя надежность относится к постоянству процедуры от одного случая к другому. Например, эксперимент, проведенный в два разных дня, в разных лабораториях или разными исследователями, все же должен давать одинаковые результаты (например, два исследователя, использующие один и тот же формат интервью, оборудование, график поведения или тест, должны получить одинаковые результаты).

Оценка надежности (только уровень A)

Два типа надежности можно тестировать отдельно для оценки уровней внутренней надежности, а также уровней внешней надежности. Тот факт, что тест имеет высокую внутреннюю надежность, не означает, что он также будет иметь высокую внешнюю надежность. По этой причине стоит оценить оба типа.

Внутреннюю надежность можно оценить с помощью:

1. Разделить надежность пополам:

человек за несколько недель. Если бы результаты были одинаковыми по времени (т. е. если бы результаты были непротиворечивыми, вы могли бы предположить, что тест был надежным). Вместо того, чтобы ждать несколько недель, чтобы повторить тест, можно использовать надежность разделенного теста. Например, с тестом IQ, разделите его пополам, дайте обе половины участнику и сравните их результаты по каждой отдельной половине. Если оценки на каждой половине одинаковы, психологи считают тест надежным.

2. Достоверность эквивалентных форм:

Одним и тем же участникам даются два теста, анкеты или структурированные интервью одного типа. Результаты участников по двум формам теста должны сильно коррелировать, если тесты надежны.

Внешнюю надежность можно оценить по:

1. Ретестовая надежность: Участники проходят один и тот же тест дважды, в разное время. Если результаты для двух случаев коррелируют, тест имеет высокую внешнюю надежность. Это может определить отдельные элементы, которые дают противоречивые результаты, или другие факторы, вызывающие различия, например разные настройки или исследователи. Это обычно используется для проверки надежности структурированных интервью или анкет.

2. Надежность между экспертами/наблюдателями:  Два (или более) наблюдателя наблюдают за одной и той же поведенческой последовательностью (например, на видео), используя одни и те же поведенческие категории (в графике поведения), чтобы оценить, достигают ли они идентичных результатов. записи. Хотя это обычно используется для наблюдений, аналогичный процесс можно использовать для оценки надежности интервьюеров.

Надежность и валидность исследований

Цели обучения

  • Дайте определение надежности и валидности

Интерпретация результатов экспериментов

После сбора данных как из экспериментальной, так и из контрольной групп проводится статистический анализ, чтобы выяснить, существуют ли значимые различия между двумя группами. Статистический анализ определяет, насколько вероятно, что любое обнаруженное различие является случайным (и, следовательно, не имеет смысла). Например, если проводится эксперимент по изучению эффективности пищевой добавки, и те, кто принимает таблетку плацебо (а не добавку), имеют тот же результат, что и те, кто принимает добавку, то эксперимент показал, что пищевая добавка неэффективна. . Как правило, психологи считают различия статистически значимыми, если вероятность их наблюдения составляет менее пяти процентов, если группы на самом деле не отличаются друг от друга. Другими словами, психологи хотят ограничить вероятность «ложноположительных» утверждений пятью процентами или меньше.

Самая сильная сторона экспериментов — это возможность утверждать, что любые существенные различия в результатах вызваны независимой переменной. Это происходит потому, что случайный отбор, случайное распределение и план, который ограничивает влияние как предвзятости экспериментатора, так и ожиданий участников, должны создавать группы, схожие по составу и лечению. Следовательно, любое различие между группами можно отнести к независимой переменной, и теперь мы наконец можем сделать вывод о причинно-следственной связи. Если мы обнаружим, что просмотр жестокой телевизионной программы приводит к более агрессивному поведению, чем просмотр ненасильственной программы, мы можем с уверенностью сказать, что просмотр жестокой телевизионной программы вызывает увеличение проявлений агрессивного поведения.

Reporting Research

Когда психологи завершают исследовательский проект, они обычно хотят поделиться своими выводами с другими учеными. Американская психологическая ассоциация (АПА) публикует руководство, подробно описывающее, как написать статью для отправки в научные журналы. В отличие от статьи, которая может быть опубликована в таком журнале, как Psychology Today, , предназначенном для широкой аудитории, интересующейся психологией, научные журналы обычно публикуют рецензируемые журнальные статьи, предназначенные для аудитории профессионалов и ученых, активно участвующих в исследованиях. сами себя.

Ссылка на курс обучения

Онлайн-лаборатория письма (OWL) Университета Пердью поможет вам ознакомиться с рекомендациями по письму APA.

Статья в рецензируемом журнале читается несколькими другими учеными (как правило, анонимно), обладающими знаниями в предметной области. Эти рецензенты предоставляют отзывы — как автору, так и редактору журнала — относительно качества проекта. Рецензенты ищут убедительное обоснование описываемого исследования, четкое описание того, как исследование проводилось, и доказательства того, что исследование проводилось с соблюдением этических норм. Они также ищут недостатки в дизайне исследования, методах и статистическом анализе. Они проверяют, кажутся ли выводы, сделанные авторами, обоснованными с учетом наблюдений, сделанных в ходе исследования. Рецензенты также отмечают, насколько ценно исследование для расширения знаний в дисциплине. Это помогает предотвратить ненужное дублирование результатов исследований в научной литературе и в некоторой степени гарантирует, что каждая исследовательская статья содержит новую информацию. В конечном итоге редактор журнала соберет все отзывы рецензентов и определит, будет ли статья опубликована в ее текущем состоянии (что бывает редко), опубликована с исправлениями или не будет принята к публикации.

Рецензирование обеспечивает некоторую степень контроля качества психологических исследований. Плохо задуманные или выполненные исследования могут быть отсеяны, и даже хорошо спланированные исследования могут быть улучшены с помощью предложенных изменений. Экспертная оценка также гарантирует, что исследование описано достаточно четко, чтобы другие ученые могли повторить его, то есть они могут повторить эксперимент, используя разные образцы, чтобы определить надежность. Иногда повторения включают дополнительные меры, которые расширяют исходный результат. В любом случае каждая репликация служит для предоставления дополнительных доказательств в поддержку первоначальных результатов исследования. Успешные повторения опубликованных исследований делают ученых более склонными к принятию этих результатов, в то время как повторяющиеся неудачи, как правило, ставят под сомнение легитимность оригинальной статьи и заставляют ученых искать в другом месте. Например, было бы большим достижением в области медицины, если бы опубликованное исследование показало, что прием нового препарата помогает людям достичь здорового веса без изменения диеты. Но если другие ученые не смогут воспроизвести результаты, утверждения первоначального исследования будут поставлены под сомнение.

В последние годы растет беспокойство по поводу «кризиса репликации», который затронул ряд научных областей, включая психологию. Некоторые из наиболее известных исследований и ученых провели исследования, которые не удалось воспроизвести другим (как обсуждалось в Shrout & Rodgers, 2018). Фактически, даже известный ученый, лауреат Нобелевской премии, недавно отозвал опубликованную статью, потому что ей было трудно воспроизвести свои результаты (лауреат Нобелевской премии ученый Фрэнсис Арнольд отзывает статью, 3 января 2020 г.). Подобные результаты побудили некоторых ученых начать совместную и более открытую работу, а некоторые утверждают, что нынешний «кризис» на самом деле улучшает способы ведения науки и то, как ее результаты делятся с другими (Aschwanden, 2018). ).

Копнуть глубже: миф о прививках и аутизме и опровержение опубликованных исследований

Некоторые ученые утверждают, что обычные детские вакцины вызывают у некоторых детей развитие аутизма, и, по сути, несколько рецензируемых публикаций опубликовали исследования, подтверждающие эти утверждения. С момента появления первоначальных отчетов крупномасштабные эпидемиологические исследования показали, что прививки не являются причиной аутизма и что вакцинировать ребенка гораздо безопаснее, чем не прививать. Кроме того, несколько первоначальных исследований, в которых делалось это утверждение, с тех пор были отозваны.

Опубликованная часть работы может быть аннулирована, если данные поставлены под сомнение из-за фальсификации, фабрикации или серьезных проблем с дизайном исследования. После отмены научное сообщество информируется о серьезных проблемах с оригинальной публикацией. Опровержение может быть инициировано исследователем, руководившим исследованием, его сотрудниками, учреждением, нанявшим исследователя, или редакционной коллегией журнала, в котором статья была первоначально опубликована. В случае с вакциной и аутизмом опровержение было сделано из-за серьезного конфликта интересов, в котором ведущий исследователь имел финансовую заинтересованность в установлении связи между детскими вакцинами и аутизмом (Offit, 2008). К сожалению, первоначальные исследования привлекли такое внимание средств массовой информации, что многие родители во всем мире стали сомневаться в необходимости вакцинации своих детей (рис. 2.19).). Дальнейшее использование таких опровергнутых исследований имеет серьезные последствия. Например, в период с января по октябрь 2019 года в Соединенных Штатах было зарегистрировано 22 вспышки кори и более тысячи случаев заболевания корью (Patel et al., 2019). Вероятно, это связано с движениями против вакцинации, которые возникли в результате развенчанных исследований. Для получения дополнительной информации о том, как разворачивалась история вакцины/аутизма, а также о последствиях этой истории, ознакомьтесь с книгой Пола Оффита «Лжепророки аутизма: плохая наука, рискованная медицина и поиск лекарства».

Рисунок 1 . Некоторые до сих пор думают, что прививки вызывают аутизм. (кредит: модификация работы UNICEF Sverige)

Надежность и валидность

Надежность и валидность — два важных аспекта, которые необходимо учитывать при сборе данных любого типа. Надежность относится к способности последовательно производить заданный результат. В контексте психологических исследований это означало бы, что любые инструменты или инструменты, используемые для сбора данных, делают это последовательными и воспроизводимыми способами. Существует несколько видов надежности. Некоторые из них включают межоценочную надежность (степень, в которой два или более разных наблюдателя согласны с тем, что наблюдалось), внутреннюю согласованность (степень, в которой различные элементы опроса, измеряющие одно и то же, коррелируют друг с другом) и надежность повторного тестирования (степень, в которой результаты конкретной меры остаются неизменными при многократном введении).

К сожалению, постоянство в измерениях не обязательно означает, что вы что-то измерили правильно. Чтобы проиллюстрировать эту концепцию, рассмотрим кухонные весы, которые будут использоваться для измерения веса хлопьев, которые вы едите утром. Если весы не откалиброваны должным образом, они могут постоянно занижать или завышать количество измеряемых злаков. Хотя весы очень надежны и дают стабильные результаты (например, одно и то же количество хлопьев, высыпанных на весы, каждый раз дает одинаковые показания), эти результаты неверны. Здесь в игру вступает справедливость. Валидность относится к степени, в которой данный инструмент или инструмент точно измеряет то, что он должен измерять, и, опять же, существует несколько способов, которыми можно выразить валидность. Экологическая валидность (степень, в которой результаты исследования применимы к реальным приложениям), конструктивная валидность (степень, в которой данная переменная фактически отражает или измеряет то, что она предназначена для измерения) и грань валидности (степень, в которой данная переменная кажется достоверным на первый взгляд) — это всего лишь несколько типов, которые рассматривают исследователи. В то время как любая действующая мера по необходимости надежна, обратное не обязательно верно. Исследователи стремятся использовать инструменты, которые являются одновременно высоконадежными и валидными.

Попробуйте

 

Everyday Connection: Насколько действительны SAT и Act?

Предполагается, что стандартные тесты, такие как SAT и ACT, измеряют способность человека к обучению в колледже, но насколько надежны и достоверны такие тесты? Исследования, проведенные Советом колледжей, показывают, что результаты SAT имеют высокую прогностическую достоверность для среднего балла студентов первого курса колледжа (Kobrin, Patterson, Shaw, Matter, & Barbuti, 2008). В этом контексте прогностическая валидность относится к способности теста эффективно предсказывать средний балл первокурсников колледжа. Учитывая, что многие высшие учебные заведения требуют для поступления SAT или ACT, такая высокая степень прогностической достоверности может быть утешительной.

Однако акцент, сделанный на баллах SAT или ACT при поступлении в колледж, вызвал некоторые разногласия по ряду направлений.

Во-первых, некоторые исследователи утверждают, что эти тесты необъективны и ставят маргинализированных учащихся в невыгодное положение и несправедливо снижают вероятность поступления этих учащихся в колледж (Santelices & Wilson, 2010). Кроме того, некоторые исследования показали, что прогностическая достоверность этих тестов сильно преувеличена в том, насколько хорошо они могут предсказать средний балл первокурсников колледжа. На самом деле было высказано предположение, что прогностическая ценность SAT может быть завышена на целых 150% (Rothstein, 2004). Многие высшие учебные заведения начинают рассматривать вопрос о снижении значения результатов SAT при принятии решения о приеме (Rimer, 2008).

Недавние примеры громких скандалов с мошенничеством как внутри страны, так и за рубежом только усилили контроль за этими типами тестов, и по состоянию на март 2019 года более 1000 высших учебных заведений либо ослабили, либо отменили требования к SAT или Тестирование ACT при поступлении (Штраус, 19 марта 2019 г.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *