Надежность это в психологии: Надёжность психологического теста — Психологос

Содержание

Надёжность психологического теста — Психологос

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Надёжность как устойчивость

Устойчивость результатов теста – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток МР – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

Надёжность как внутренняя согласованность

Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест.

Для проверки внутренней согласованности применяются:

  • Метод расщепления или метод автономных частей
  • Метод эквивалентных бланков
  • Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине)

Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0. Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

Помимо надежности тестов, есть также надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Надежность психологического теста | это… Что такое Надежность психологического теста?

Надёжностью называется один из критериев качества теста, его устойчивость по отношению к погрешностям измерения. Различают два вида надёжности — надёжность как устойчивость и надёжность как внутреннюю согласованность.

Содержание

  • 1 Надёжность как устойчивость
  • 2 Надёжность как внутренняя согласованность
  • 3 См. также
    • 3.1 Надежность и валидность
  • 4 Литература

Надёжность как устойчивость

Устойчивость результатов теста или ретестовая надежность (англ — test-retest reliability) – возможность получения одинаковых результатов у испытуемых в различных случаях.

Устойчивость определяется с помощью повторного тестирования (ретеста):

В данном методе предлагается провести несколько замеров с некоторым промежутком времени (от недели до года) одним и тем же тестом. Если корреляция между результатами различных замеров будет высокой, следовательно, тест достаточно надежный. Наименьшим удовлетворительным значением для ретестовой надежности является 0,7. Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Еще один недостаток повторного тестирования – это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.

В связи с выше сказанным возможно исследование надежности психодиагностических методик с использованием параллельных форм, при которых конструируются эквивалентные или параллельные наборы заданий. Получается, что испытуемые выполняют совершенно другой тест при аналогичных условиях. Однако, имеются трудности в доказательстве того, что обе формы являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.

Надёжность как внутренняя согласованность

Внутренняя согласованность(англ. — self-consistent) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты, разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.

Однако существует и противоположная точка зрения. Кэттелл говорит о том, что высокая внутренняя согласованность на самом деле является противоположностью валидности: каждый вопрос должен затрагивать меньшую область или иметь более узкое значение, чем критерий, подвергающийся измерению. Если все вопросы являются согласованными в высокой степени, они сильно коррелируют, и, следовательно, надежный тест будет измерять только лишь сравнительно «узкую» переменную с малыми отклонениями. По рассуждениям Кэттелла, максимум валидности существует, когда все задания теста не коррелируют друг с другом, а каждое из них имеет положительную корреляцию с критерием. Однако, такой тест будет характеризоваться низкой надежностью по внутренней согласованности.

Для проверки внутренней согласованности применяются:

  1. Метод расщепления или метод автономных частей
  2. Метод эквивалентных бланков
  3. Альфа Кронбаха
Метод расщепления (Split-half reliability)

Этот метод заключается в расщеплении/разделении теста на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным.

Метод эквивалентных бланков

МЭБ состоит в применении двух сопоставимых друг с другом форм теста для большой выборки (например, формы L и M для измерения в шкале интеллекта Стэнфорда-Бине) Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен. Недостаток этого метода в том, что он подразумевает такой длительный и трудоемкий процесс, как создание двух эквивалентных форм.

Альфа Кронбаха

В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, следовательно, каждый отдельный вопрос направлен на исследование одного и того же признака, свойства или явления. Они вырабатывают значение, которое можно считать истинным. Если такое значение выработать нельзя, то есть получается случайный разброс при ответе на вопросы, тест не надежен и коэффициент альфа Кронбаха будет равен 0.

Если же все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха в этом случае будет равен 1.

α Кронбаха определяется как

,

где N — число элементов в шкале, — дисперсия общего тестового балла, и — дисперсия элемента i.

См. также

Помимо надежности тестов, есть так же надежность наблюдения – межнаблюдательская надежность. МН – это процент совпадения результатов наблюдения экспертов друг с другом.

Надежность и валидность

Надежность показывает, что результаты проводимого исследования близки к истине, а валидность показывает, что результаты действительно относятся к тому явлению, которое изучается исследователем. Валидное исследование автоматически является надежным, однако обратное следствие не обязательно. Надежное исследование может и не быть валидным.

Литература

Пол Клайн. «Справочное руководство по конструированию тестов», Киев, 1994.

Надежность — Центр психологии

Надежность:

Надежность означает согласованность.  Результаты исследования являются надежными, если при повторении исследования неизменно обнаруживаются одни и те же результаты.

Это повторение включает в себя повторение исследования точно в ТЕХ ЖЕ УСЛОВИЯХ,  с использованием точно ТЕХ ЖЕ УЧАСТНИКОВ.

Имейте в виду: результаты расследования могут быть надежными, но это не означает, что они действительны. Исследование может быть надежно недействительным (т. е. постоянно давать неточные результаты).

Вопросы надежности (только уровень A)

Психологам необходимо последовательно измерять переменные. Этот аспект исследования известен как надежность. Если вы надежный ученик, вы регулярно приходите на уроки и всегда сдаете работу вовремя. Надежное исследование всегда должно давать одинаковые или похожие результаты при воспроизведении в точно таких же условиях с теми же участниками. Надежность используется для оценки как экспериментальных процедур, так и «инструментов», таких как тесты, анкеты, интервью и поведенческие категории в наблюдениях.

Типы надежности:

Существует два типа надежности:

(1) Внутренняя надежность (непротиворечивость меры внутри себя)

Внутренняя надежность относится к непротиворечивости меры внутри себя. Внутренняя надежность относится к непротиворечивости меры внутри самой себя. Например, пункты анкеты или вопросы в интервью должны проверять одно и то же.

(2) Внешняя надежность (постоянство процедуры от одного случая к другому)

Внешняя надежность относится к постоянству процедуры от одного случая к другому. Например, эксперимент, проведенный в два разных дня, в разных лабораториях или разными исследователями, все же должен давать одинаковые результаты (например, два исследователя, использующие один и тот же формат интервью, оборудование, график поведения или тест, должны получить одинаковые результаты).

Оценка надежности (только уровень A)

Два типа надежности можно тестировать отдельно для оценки уровней внутренней надежности, а также уровней внешней надежности. Тот факт, что тест имеет высокую внутреннюю надежность, не означает, что он также будет иметь высокую внешнюю надежность. По этой причине стоит оценить оба типа.

Внутреннюю надежность можно оценить с помощью:

1. Разделить надежность пополам:

человек за несколько недель. Если бы результаты были одинаковыми по времени (т. е. если бы результаты были непротиворечивыми, вы могли бы предположить, что тест был надежным). Вместо того, чтобы ждать несколько недель, чтобы повторить тест, можно использовать надежность разделенного теста. Например, с тестом IQ, разделите его пополам, дайте обе половины участнику и сравните их результаты по каждой отдельной половине. Если оценки на каждой половине одинаковы, психологи считают тест надежным.

2. Достоверность эквивалентных форм:

Одним и тем же участникам даются два теста, анкеты или структурированные интервью одного типа. Результаты участников по двум формам теста должны сильно коррелировать, если тесты надежны.

Внешнюю надежность можно оценить по:

1. Ретестовая надежность: Участники проходят один и тот же тест дважды, в разное время. Если результаты для двух случаев коррелируют, тест имеет высокую внешнюю надежность. Это может определить отдельные элементы, которые дают противоречивые результаты, или другие факторы, вызывающие различия, например разные настройки или исследователи. Это обычно используется для проверки надежности структурированных интервью или анкет.

2. Надежность между экспертами/наблюдателями:  Два (или более) наблюдателя наблюдают за одной и той же поведенческой последовательностью (например, на видео), используя одни и те же поведенческие категории (в графике поведения), чтобы оценить, достигают ли они идентичных результатов. записи. Хотя это обычно используется для наблюдений, аналогичный процесс можно использовать для оценки надежности интервьюеров.

Надежность и валидность: смысл, проблемы и важность

Представьте, что однажды вечером вы играете в боулинг, и каждый раз, когда вы делаете ход, вы пропускаете все кегли. Хотя вы не набрали ни одного очка за всю ночь, у вас все еще есть надежный результат из-за ваших постоянных потерь. Это всего лишь один пример того, как что-то может быть надежным, но не действительным. Если бы вы сбивали все кегли каждый раз, когда поднимались вверх, это показывало бы и надежность, и валидность, потому что вы постоянно достигали цели, намеченной для игры.

В научном методе психологических исследований надежность и валидность имеют важное значение при использовании любых инструментов измерения или тестов. В этом тексте будут даны определения обоих терминов, указаны их различия и рассмотрены общие вопросы в научных исследованиях, касающиеся надежности и валидности.

  • Что такое надежность и валидность?
  • Какие проблемы с надежностью и достоверностью?
  • Как надежность и достоверность используются в исследованиях?
  • Каковы примеры надежности и валидности?

Значение Надежность и валидность

На первый взгляд может показаться, что эти термины имеют очень простые определения; однако каждое из их значений может быть все более запутанным и значимым с точки зрения психологических исследований . Обе концепции имеют основополагающее значение для понимания при изучении экспериментов и научного метода.

Надежность

С точки зрения научных исследований надежность определяется наличием стабильного и постоянного результата после повторного измерения (Jackson, 2014). Чтобы представить это в перспективе, подумайте о любой форме психологического исследования, использующего тесты для измерения конкретных результатов. Тест, который считается надежным , будет показывать одинаковые результаты каждый раз, когда его проводят. Эти c постоянство и надежность повышают ценность тестов, используемых в исследованиях. 9. Другими словами, действительный тест или инструмент измеряет точную единицу, которую он утверждает для измерения . Есть примеры действительности в повседневной жизни. Подумайте о водительских правах и о том, что они действительны только , если вся информация о водителе верна и точна. В психологических исследованиях тест может рассматриваться только как действительный если результат точный соответствует тому, что тест утверждает для измерения.

Фг. 1 Надежность и валидность, commons.wikimedia.org

Проблемы с надежностью и валидностью

В области методов психологических исследований любые ошибки в надежности и валидности теста или эксперимента очень пагубно влияют на ценность исследования. Прежде чем опубликовать любую научную статью, журнал или эксперимент, результаты должны сначала соответствовать стандартам надежности и достоверности. К сожалению, случаи несоблюдения этих стандартов могут привести к неэтичным исследованиям и ложным или вводящим в заблуждение утверждениям.

Талидомид Трагедия

В 1950-х и 60-х годах талидомид считался лекарством от тошноты у беременных женщин; однако это вызвало серьезные врожденные нарушения у младенцев (Kim, 2011).

Это всего лишь один разрушительный пример того, что может произойти, если определенные стандарты обучения будут скомпрометированы. Эти знаменательные моменты в истории научных исследований сделали акцент на важность надежности и достоверности в сфере научных исследований.

Ошибки в надежности

Существуют распространенные ошибки, допускаемые в методах психологических исследований, которые могут повлиять на надежность исследования. Эти типы проблем включают:

Ошибка метода

Ошибка метода может возникнуть из-за действий экспериментатора или атмосферы тестирования.

Вопросы об ошибке метода включают:

Ошибка признака

Из ошибок признака проблем надежности связаны с реальными субъектами экспериментов.

Вопросы, заданные об ошибке признака, включают:

Представьте, что проводится тест для измерения атлетизма в различных спортивных командах; однако в тот же день у одной из тестируемых команд было пищевое отравление. Это может повлиять на достоверность результатов.

Ошибки в достоверности

Подобно проблемам надежности, определенные типы ошибок в исследованиях могут также поставить под угрозу 9 эксперимента.0004 годность. Некоторые из этих ошибок известны:

Созревание

Созревание может повлиять на достоверность результатов длительных исследований. Может ли течение времени повлиять на первоначальное выполнение теста? Как это может повлиять на участника или тестируемого в течение отведенного времени?

Предубеждения

Предубеждения , которые могут возникнуть при отборе участников, могут негативно повлиять на достоверность исследования. Когда выбор участников происходит с предубеждением, возможность обобщения результатов исследования среди населения становится недоступной.

Эффекты взаимодействия

Эффекты взаимодействия могут повлиять на достоверность в случаях, когда в одном исследовании участвуют предварительные или несколько тестов. Применение предварительного теста может помешать другому последующему измерению или тесту.

Рассмотрим тест, целью которого является измерение понимания прочитанного. Тестируемого просят прочитать пять статей за один сеанс. Каждая часть состоит из десяти страниц. На достоверность результатов в отношении их понимания могут повлиять факторы, вызванные применением нескольких длинных статей.

Как видите, многие вопросы могут повлиять на ценность и достоверность любого научного исследования или исследования. Анализ ошибок, которые могут снизить надежность и достоверность исследования, является одним из самых приоритетных направлений научного метода.

Надежность и достоверность исследований

Научный метод применяется во всех аспектах научных исследований и исследований. В этом процессе используются строгие эмпирические методы для получения надежного и достоверного результата . Есть несколько примеров надежности и валидности в методах исследования психологии . Оценка этих примеров поможет вам лучше понять тип надежности и валидности для каждой ситуации в психологическом исследовании.

Примеры надежности и достоверности

Существует четыре типа надежности в психологии исследований, все они указывают на уровни согласованности в различных ситуациях. Три типа валидности измеряют правдивость и точность тестов разными способами.

Надежность тестирования/повторного тестирования

Этот тип надежности в исследованиях проверяет согласованность результатов с течением времени путем проведения одного и того же теста более одного раза.

Надежность альтернативных форм

Используя несколько форм аналогичных тестов , исследователь может указать, является ли измерение надежным в зависимости от постоянства результата. Вот почему метод называется альтернативных форм.

Надежность с разделением пополам

Это когда исследование разделяет тест на две части и измеряет стабильность между элементами измерения в обеих половинах теста. Хотя это не учитывает постоянство с течением времени, оно измеряет надежность содержимого в самом тесте .

Надежность между оценщиками

Это относится к измерению надежности путем оценки согласованности наблюдений между оценщиками/судьями.

Вы можете отличить типы надежности по их названиям! (например, Интер оценщик = измеренная надежность промежуточных оценщиков )

Валидность контента

Тест с валидностью контента направлен на измерение релевантности всех элементов контента / в данном тесте, а не только в одной области.

Критерий достоверности

Анализ точности теста при прогнозировании способностей или результатов участников.

Конструктивная валидность

Одной из наиболее важных форм измерения валидности является конструктная валидность. Это потому, что он является одним из наиболее часто используемых в психологии, поскольку он анализирует степень, в которой тест измеряет конструкция заявленных размеров.

В рамках качественных методов исследования валидность и надежность могут быть определены на основе согласованности и целей результатов данных, участников, типов тестов и наблюдений исследователя.

Надежность и валидность – основные выводы

  • Надежность – это наличие стабильного и постоянного результата после повторного измерения и v валидность используется для описания теста или указания на инструмент измерения верно и точно .
  • Общие проблемы с надежностью включают ошибки измерения, такие как ошибки признаков и ошибки метода .
  • Вопросы действительности — это созревание, предубеждения и эффекты взаимодействия.
  • Четыре типа надежности : проверка/повторная проверка , альтернативные формы, разделение пополам и межэтапная надежность.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *