Тесты способностей. Часть 3. Надежность и валидность
30.10.2019
Надежность и валидность — ключевые характеристики психометрического теста
Надежность показывает, что результаты проводимого исследования близки к истине.
Валидность – признак того, что результаты действительно относятся к тому явлению, которое изучается исследователем.
1. НАДЕЖНОСТЬ
НАДЕЖНОСТЬ КАК УСТОЙЧИВОСТЬ
Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторов
Устойчивость определяется с помощью повторного тестирования (ретеста)
1.1. Метод повторного тестирования (ретеста)
Ретестовая надежность определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76
Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
1.2. Метод параллельных форм
Проверяется с помощью взаимозаменяемых форм теста (т.е. одни и те же обследуемые сначала обследуются с помощью одного теста, затем (через определенный интервал) с помощью другого теста). Метод эффективен, когда изначально разрабатываются параллельные варианты теста с целью ротации.
Имеются трудности в доказательстве того, что обе формы — параллельные наборы заданий — являются действительно эквивалентными. Несмотря на это, на практике параллельные формы тестов оказываются полезными в установлении надежности тестов.
НАДЕЖНОСТЬ КАК СОГЛАСОВАННОСТЬ
Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Для проверки внутренней согласованности применяются различные методы:
1. 3. Метод расщепления или метод автономных частей
Характеристика надежности осуществляется путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста. Для этого тест расщепляется/ разделяется на две равные части (например, четные и нечетные вопросы, первая и вторая половина), а затем находится корреляция между ними. Если корреляция высокая, тест можно считать надежным. Другие названия — одномоментная надежность, надежность-согласованность.
1.4. Метод эквивалентных бланков
Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.
1.5. Метод альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.
2. ВАЛИДНОСТЬ ТЕСТА
Валидность теста (от англ. valid – актуальный, подходящий, действительный) – понятие, указывающее, что именно тест измеряет и насколько хорошо он это делает. Это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.
Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Проверка валидности методики называется валидизацией.
2.1. Концептуальная валидность
Понимается как обоснование с позиции соответствия авторским представлениям об особенностях диагностируемых свойств, как мера соответствия заданий теста авторской концепции этих свойств.
2.2. Содержательная (логическая) валидность
Под содержанием понимается фактический материал, входящий в пункты тестов. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) той реальной деятельности, в которой проявляется измеряемое в методике свойство.
Например, чтобы тест математических способностей имел достаточный уровень содержательной валидности, его пункты не должны иметь таких формулировок, при которых для испытуемого решающими оказываются вербальные способности, необходимые для того, чтобы понять, о чём спрашивается в этом пункте.
Содержание должно быть уравновешено таким образом, чтобы все тестируемые аспекты были представлены. Тест не должен быть перегружен, допустим, пунктами на умножение в ущерб пунктам на сложение.
Установление содержательной валидности есть в значительной степени субъективная операция, основанная на мнениях «экспертов» относительно уместности используемых материалов.
2.3. Конструктная валидность (концептуальная, понятийная, внутренняя валидность)
Под конструктом понимают психологический феномен, который невозможно наблюдать непосредственно, но можно вывести из поведения человека, например, экстраверсия, общий интеллект, открытость, умения и т.д.
Конструктная валидность определяет наличие взаимосвязи между новым и ранее существующим тестом-эталоном, изучающим тот же конструкт, валидность которого была ранее определена. Она указывает на то, что разрабатываемый тест измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика
При анализе конструктной валидности методики формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми.
Конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями эталонного теста, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.2.4. Операциональная валидность
Определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента
2.5. Очевидная (доверительная) валидность
Очевидная валидность показывает в какой степени содержание теста и его заданий (пунктов) выглядит в глазах тестируемого подходящим для данной ситуации. Именно она в первую очередь определяет отношение испытуемых к обследованию. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.
Наличие очевидной валидности способствует воспринимаемой целесообразности психологического теста и создает у тестируемого впечатления, что тест учитывает его индивидуальность и опыт работы.
Недостаток очевидной валидности (независимо от технической валидности, или точности, теста) может вызывать у тестируемых чувства раздражения, неудовлетворенности и обманутости, создавать негативное общественное мнение.
Хотя очевидная валидность, на первый взгляд, кажется подобной содержательной валидности, смысл этих показателей различен.
2.6. Критериальная (прагматическая, эмпирическая) валидность
Такая валидность показывает ее практическую полезность. Для этого используется независимый внешний относительно самого теста критерий – показатель проявления изучаемого свойства в повседневной жизни.
Критериальная (прагматическая, эмпирическая) валидность позволяет выяснить насколько высокие или низкие результаты теста соответствуют высокой или низкой оценке того поведенческого проявления — критерия, которое он должен предсказать
Например, практическая задача теста – выявить тех, кто будет эффективен в будущей работе. Критерий «эффективность» определен как % выполнения плана продаж. В таком случае, валидный тест позволяет с определенной вероятностью отделить «выполняющих план» от «не выполняющих план».
Важно можно ли с помощью теста разделить испытуемых на эти две группы. Обладает ли тест дискриминативностью. Важно, что тест или отдельное его задание успешно (с высокими баллами) проходят «эффективные», а неуспешно (с низкими баллами) «неэффективные». В случае, когда группы отличаются друг от друга только по одной переменной, причина дифференциации бывает понятна. Но это не важно. Важно, чтобы тест умел хорошо разделять группы по целевому критерию.
Для вычисления коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Виды критериальной валидности:
- «Прогностическая» (предсказательная) валидность показывает возможность экстраполирования результатов на будущее. Определяется также по достаточно надежному внешнему критерию, но информация по нему собирается некоторое время спустя после испытания. Внешним критерием обычно бывает выраженная в каких-нибудь оценках способность человека к тому виду деятельности, для которой он отбирался по результатам диагностических испытаний.
- «Ретроспективная» валидность определяется на основе критерия, отражающего события или состояние качества в прошлом. Может быть использована для быстрого получения сведений о предсказательных возможностях методики.
А. К. Болотова, И. В. Макарова ПРИКЛАДНАЯ ПСИХОЛОГИЯ Допущено Министерством образования Российской Федерации в качестве учебника для студентов высших учебных заведений, обучающихся по направлению и специальностям «Психология» Москва 2001 УДК 159.9 ББК 88.4 Б 79 Рецензенты: зам. директора Института дошкольного образования и семейного воспитания РАО, доктор психол. наук А. Б. Орлов, профессор кафедры возрастной психологии МГУ им. М. В. Ломоносова, доктор психол. наук Л. Ф. Обухова Болотова А. К., Макарова И. В. Б79 Прикладная психология: Учебник для вузов. -* М.: Аспект Пресс, 2001.– 383 с; ISBN 5-7567-0150-8. университетской подготовки практических психологов в самых различных областях – от возрастного консультировния и диагностико-коррскционной работы до маркетинга, рекламы и вправления персоналом. Для студентов психологических и педагогических специальностей высших учебных заведений. УДК 159.9 ББК 88.4 «Аспект Пресс», 2001. Все учебники издательства «Аспект Пресс» на сайте www. aspectpress.ru ПРЕДИСЛОВИЕПрикладная психология – это воплощение в реальной практике достижений психологической науки. Не вызывает сомнения, что оказание психологической помощи поддержки личности является одним из важнейших предназначений прикладной психологии*. Сегодня, в век коллизий и стреми- тельных темпов социальных изменений, практическая психология помогает человеку адаптироваться к социуму, отыскать возможные пути и средства сбережения собственных личностных ресурсов жизнедеятельности, сохранить психическое здоровье. Это интенсивно развивающаяся область психологии нуждается не только в теоретическом и методическом обеспечении, но и в разработке организационных основ деятельности психологов, в формировании принципов и требований к подготовке и условиям их работы на местах. Учебник, подготовленный А. К. Болотовой и И. В. Макаровой, представляет собой первую попытку обобщения и систематизации опыта, накопленного в психологической практике у нас и за рубежом. В нем дается широкая панорама многоаспектной проблематики, с которой придется столкнуться в своей работе практическому психологу. Речь идет о таких проблемах, как требования к подготовке практических психологов, профессиональные и этические принципы работы, отбор методического инструментария и рекомендации пользователям, а также вопросы рекламы психологических услуг, мера профессиональной и юридической ответственности, правомочность использования психологических тестов в средствах массовой информации и т.д. Все эти многочисленные проблемы либо вообще не затрагивались раньше в учебной литературе, либо освещались весьма фрагментарно. Появлению этого издания предшествовал ряд опубликованных авторами работ. Особая ценность учебника состоит в том, что авторы сумели раскрыть и содержательно насытить не только основные направления и виды работ практического психолога, но и досконально разработать проект организации и оснащения необходимым инструментарием рабочего места психолога – модель психологического кабинета, который имеет свою специфику и в то же время может быть создан на базе любого учреждения, не требуя для этого специальных площадей, дорогостоящего оборудования и значительных материальных затрат. Знание и учет этих специфических условий работы снимает многие проблемы профессиональной адаптации начинающих практических психологов. Книга А. К. Болотовой и И. В. Макаровой – первый учебник, в котором представлены в доступной форме и в соответствии с нормами государственного образовательного стандарта организационные основы прикладной психологии, обобщены принципы деятельности практических психологов, дано новое осмысление проблем, областей и методов, перспектив развития практической психологии, отвечающее сегодняшнему состоянию науки. Здесь не только раскрываются современные тенденции и направления прикладного применения психологического знания, но и содержатся сведения, необходимые как для начинающего психолога, так и для опытного преподавателя. Учебник будет полезен специалистам самого широкого профиля, так как знакомство с методами практической психологии будет способствовать формированию управленческой команды, повышению коммуникативной активности личности в различных сферах деятельности. * *В данном контексте термины «прикладная психология» и «практическая психология» используются как близкие, но не тождественные (см. «Введение в практическую социальную психологию». М., 1994). Характерной особенностью учебника является четкое изложение процедурных особенностей применения различных психодиагностических методов, которые заданы спецификой объекта исследования. Представленная систематизация методического арсенала, диагностического инструментария, применяемого в прикладной психологии, во всей полноте отражает концептуальные принципы и гуманистическую направленность позиции авторов, обеспечивает цельность книги, придает учебнику определенную дидактическую функцию, когда знания не только систематизируются, но и открывают для изучения новые проблемные области психологии. Все это предопределяет своевременность и целесообразность выхода учебника, его настоятельную необходимость в подготовке будущих психологов-практиков, школьных психологов, работников социальных и кадровых служб. Доктор психол. наук, почетный профессор МГУ, член-корр. РАО Л. А. Петровская ВведениеПредназначение прикладной психологии – оказать помощь человеку в сложных жизненных ситуациях, будь то подростковые, детско-родительские, супружеские проблемы или жесткий профессиональный отбор и конкуренция в деловом мире. Вместе с тем возможности оказания психологической помощи и поддержки населения получили реальное воплощение лишь несколько десятилетий назад в связи с созданием в нашей стране психологической службы. Психология становится одной из «помогающих» профессий, основная цель которой — помочь человеку адаптиро-ваться в сложных условиях социальной нестабильности, посмотреть на ситуацию с разных сторон, найти альтернативные пути ее решения, возможности изменения. Следствием социально-экономического развития страны в настоящее время являются растущие потребности в социальной и психологической поддержке населения. Создание развернутой системы психологической службы ставит немало задач: необходимость разработки организационных основ работы психологической службы вообще и практических психологов в частности, обеспечение их методическими материалами, необходимым инструментарием, проектирование специально оснащенного рабочего места. Данный учебник есть результат одной из первых попыток исследования и систематизации опыта, накопленного в области организации службы практических психологов, научно-теоретической, методической и диагностико-коррекционной деятельности как у нас, так и за рубежом. В последнее время во многих странах проводится масштабные исследования по прикладной психологии, появились десятки международных психологических обществ, выпускающих свои журналы по различным актуальным проблемам мировой психологии, организующих регулярные симпозиумы и международные конгрессы. Такого рода исследования, с одной стороны, отражают потребности современного общества в психологическом анализе реальностей жизни и бытия людей, в поиске путей решения их проблем, с другой стороны, они могут составить базу специальных, научных кросскультурных данных для расширения методологических основ практической психологии. В связи с этим важно отметить, что практическая психология за рубежом, например в США, имеет давние и сложившиеся принципы и традиции, но в силу определенных причин не всегда может быть принята за основу и эталон развивающейся и формирующейся только сейчас в нашей стране практической психологии. Принципиальным моментом, не допускающим прямого заимствования в этой области, могут быть расхождения в ментальности и особенностях развития, например, детско-родительских отношений: в русских семьях они характеризуются симбиозом детей и родителей, в то время как этим отношениям в американской и европейской культурах присуща некоторая автономия развития. Следует учитывать и то, что, несмотря на высокую техническую обеспеченность и широкие возможности, представители западных школ практической психологии, по их собственному признанию, испытывают значительные трудности в решении многих актуальных проблем [Бурменская, Карабанова, Лидере, 1990]. Достижения, свидетельствующие о преимуществах той или иной теоретической позиции или метода, во многих случаях далеко не бесспорны. Считаем уместным об этом упомянуть в связи с примерами некритичного преувеличения успехов западной психологии и чрезмерного увлечения и калькирования, прямого перенесения опыта работы западных коллег, благо сейчас опубликовано достаточное количество книг и учебников по зарубежной психологии. Естественно предположить, что при существенных отличиях форм психологического воздействия отличается и подготовка соответствующих специалистов. В нашей стране работа по подготовке практических психологов только начата, нет еще выработанных единых принципов и требований, реализация которых является обязательной для специалистов, работающих в области практической психологии. Специальная подготовка практических психологов должна быть основана на системном длительном обучении на базе комплексной фундаментальной программы, отвечающем принципам Государственного образовательного стандарта. Выполнение такого социального заказа невозможно осуществить без хорошо организованной научно-методической базы, интегрирующей достижения в самых различных областях прикладной психологии – от возрастно-психологического консультирования и диагностико-коррекционной работы до маркетинга, рекламы и психологии управления персоналом. В настоящее время все эти области практической психологии весьма фрагментарно и дисциплинарно раздробленно представлены в целом потоке книг и брошюр «психологизированного» толка, написанных зачастую психологами-дилетантами, не имеющими ничего общего с достижениями фундаментальной психологии и практики. Такое положение дел еще острее обнаруживает недостаток учебной и научной литературы по проблемам прикладной психологии, что во многом тормозит организацию подготовки специалистов в области прикладной психологии. Прикладная психология позволяет начинающему психологу приобретать базовые навыки оказания психологической помощи и поддержки, осваивать методы психопрофилактической, психокоррекционной и психотерапевтической работы. В предлагаемом учебнике представлены интеграция и обобщение и обширного эмпирического и прикладного материала, анализ накопленного опыта психологической помощи, теоретических и методических основ ее организации, что в какой-то мере поможет восполнить недостаток учебно-методической литературы в области подготовки практических психологов. Это одна из первых попыток систематического изложения основных организационных принципов, задач и направлений деятельности практического психолога, включая необходимый диагностический и методический инструментарий, а также рекомендации по организации рабочего места – кабинета практического психолога и его оснащения. Цель подготовки настоящего учебника состояла в том, чтобы разработать организационные основы практической психологии, привлечь внимание начинающих практических психологов к проблематике различных областей и направлений прикладной психологии, очертить предмет, обозначить основные принципы работы и ее специфику применительно к социальному заказу и тенденциям общественно-экономического развития страны. Отсюда некоторые особенности изложения материала: его зачастую обзорный характер, ограниченный набор методического инструментария и психодиагностических методик, представленных в их классическом и адаптированном вариантах с соблюдением норм валидности, надежности, статистической достоверности и условий практического использования психодиагностических процедур. Статус данного учебного издания для высшей школы предопределил структуру и логику его содержания и построения глав. Оно включает три части, в которых изложены основные разделы прикладной психологии. Первая часть раскрывает организационные основы практической психологии, включая проблемы профессиональной этики, рекламы психологических услуг и квалификационные требования, предъявляемые к профессиональной подготовке практического психолога. Вторая часть ориентирована на описание основных направлений и методов диагностики в прикладной психологии. При этом в каждой отдельной главе этой части учебника представлены конкретные предметные области практической психологии, обзор существующих методик и более подробное изложение тех из них, которые составляют исходный методический инструментарий начинающего практического психолога. Предлагаемые к применению методики подробно изложены в определенной последовательности: сначала дается краткое описание диагностируемого конструкта, излагаются цели и задачи данных методик исследования,далее приводятся подробные инструкции, условия и процедуры проведения, тексты личностных опросников или тестов, а затем описываются способы подсчета тестовых показателей, ключи и тестовые нормы. В необходимых случаях даются дополнительные пояснения и возможные интерпретации полученных результатов. Среди представленного психодиагностического инструментария – адаптации таких широко известных методик, как тесты Амтхауэра и Витцлака. Третья часть представляет собой основные организационные принципы, направления и области деятельности практического психолога в сфере психологического консультирования, психотерапии и психологической коррекции. Обосновывается необходимость теоретического и методического обеспечения консультативной и психотерапевтической практики в работе практического психолога. Учитывая, что значительное число применяемых у нас в стране методов и техник коррекционной и психотерапевтической работы заимствовано из арсенала зарубежной психологии, мы полагаем уместным раскрыть их теоретические истоки, анализ которых поможет их наилучшей адаптации к условиям использования в нашей стране. В словаре даны определения основных современных психологических понятий и терминов, встречающихся в тексте. Данный учебник предназначен студентам психологических отделений университетов, будущим педагогам, социальным работникам и рассчитан как на аудиторную, осуществляемую под руководством преподавателя, так и на самостоятельную, внеаудиторную работу. Содержание, структура и логика построения учебного материала позволяют использовать его в качестве основного учебника для студентов колледжей, институтов и университетов, а также как руководство для преподавателей психологических, педагогических и управленческих дисциплин. Каталог: book -> common psychology Скачать 4,85 Mb. Поделитесь с Вашими друзьями: |
Валидность психологического теста
Идея валидности теста в первую очередь связана с «фундаментальной честностью» теста — честностью в смысле выполнения того, что заявлено. Фундаментальное значение имеет связь между установленной целью и приложенными усилиями, используемыми методами и тем, чего достигают эти усилия и средства. В частности, валидность относится к тому, насколько хорошо инструмент измеряет то, что он должен измерять.
Валидность теста
Согласно Гуду и Хэтту, измерительный инструмент (весы, тест и т. д.) имеет силу, когда он действительно измеряет то, что обещает измерить. Тема валидности сложна и важна в исследованиях развития, поскольку именно здесь больше, чем где бы то ни было, ставится под вопрос природа реальности.
Надежность можно исследовать, не вникая в природу и значение переменной. Валидность не является проблемой при измерении некоторых физических черт и относительно простых качеств людей. Антропометрические параметры ребенка дошкольного возраста, такие как окружность головы и груди, можно измерить с помощью измерительного оборудования с заданным числом сантиметров или дюймов.
Предположим, специалист по развитию детей хочет изучить взаимосвязь между недоеданием и интеллектуальным развитием детей дошкольного возраста. В этом случае не существует ни правил для измерения степени недоедания, ни весов или четких физических признаков для измерения интеллектуального развития. В таких случаях жизненно важно разработать косвенные методы измерения определенных свойств. Эти методы часто настолько косвенны, что валидность измерений и их результатов ставится под сомнение.
Подходы к валидации измерительного прибора
Каждый измерительный прибор, чтобы быть полезным, должен иметь некоторые признаки достоверности. Существует четыре подхода к валидации средств измерений —
Логическая валидность
Это один из самых популярных подходов. Он относится либо к теоретическому анализу, либо к анализу здравого смысла, который просто обнаруживает, что при данных элементах природа континуума не может быть ничем иным, кроме того, что утверждается. Логическая проверка, также известная как внешняя достоверность, используется почти всегда, поскольку она естественным образом возникает в результате тщательного описания континуума и выбора элементов.
Мера с логикой/лицевой достоверностью фокусируется непосредственно на типе поведения, в котором заинтересован тестировщик. Пример: способность решать математические задачи проверяется успехом в решении выборки таких задач, в то время как скорость чтения измеряется путем подсчета того, какую часть главы человек прочитывает с пониманием за определенное время. Хотя есть ограничение, полагаться на логическое подтверждение и здравый смысл неразумно. Такие заявления о достоверности в лучшем случае спекулятивны и редко являются окончательными. В дополнение к логической правильности важно правильно использовать измерительный прибор.
Мнение жюри
Это расширение подхода к логической валидации, за исключением того, что в этом случае обоснование подтверждается группой специалистов по предмету, в котором используется измерительное устройство. Например, если разработана шкала для оценки умственной отсталости у детей дошкольного возраста, для определения достоверности шкалы может быть сформировано жюри, состоящее из психологов, психиатров, педиатров, клинических психологов, социальных работников и учителей. Однако есть ограничение. Эксперты тоже люди, и этот метод может привести только к логической легитимности. В результате проверка жюри лишь незначительно превосходит логическую проверку.
Known-Group
Это расширение подхода к логической валидации, за исключением того, что в этом случае обоснование подтверждается группой специалистов по предмету, в котором используется измерительное устройство. Например, если разработана шкала для оценки умственной отсталости у детей дошкольного возраста, для определения достоверности шкалы может быть сформировано жюри, состоящее из психологов, психиатров, педиатров, клинических психологов, социальных работников и учителей.
Однако есть ограничение. Эксперты тоже люди, и этот метод может привести только к логической легитимности. В результате проверка жюри лишь незначительно превосходит логическую проверку. Другие различия между группами, в дополнение к их известной религиозной практике, могут объяснить расхождения в баллах по шкале.
Независимые критерии
Хотя это отличная теоретическая стратегия, ее практическое применение обычно проблематично. Критериальная мера должна иметь четыре характеристики. Они перечислены в порядке убывания важности —
Релевантность — Мы считаем критерии релевантными, если стоящая на критериях мера соответствует баллам по шкале.
Без предвзятости — Это означает, что метрика должна быть такой, в которой у всех равные шансы на хороший результат. Переменные смещения включают различия в качестве оборудования или условий труда производственных рабочих и в качестве образования, получаемого учащимися разных классов.
Надежность — Если оценка критериев колеблется изо дня в день, так что человек, который хорошо работает на одной неделе, может плохо работать на следующей, или человек, получивший хорошую оценку от одного руководителя, получает ужасную оценку от другого, тогда нет способа создать тест, который предсказал бы этот результат. Ничто другое не может предсказать меру, которая сама по себе совершенно нестабильна.
Доступность — Наконец, при выборе меры критерия мы постоянно сталкиваемся с практическими вопросами удобства и доступности.
Любая выбранная мера критерия должна иметь реалистичный предел учета. Однако, когда независимые критерии хороши, это становится мощным инструментом и может быть наиболее успешной процедурой проверки.
Факторы, влияющие на достоверность
Большое количество факторов влияет на достоверность инструмента оценки. Gronlund (1981) предложил следующие факторы —
Факторы в самом тестеВ каждом тесте есть пункты. Подробное изучение тестовых заданий покажет, оценивает ли тест материал предмета и умственные функции, которые желает оценить инструктор. Следующие проблемы в тесте могут помешать правильной работе элементов теста и снизить достоверность.
Неопределенное направление — Если учащемуся нужна помощь в понимании того, как потратить предметы, если ему разрешено угадывать и как записывать ответы, достоверность пострадает.
Трудности в чтении терминологии и структуры предложений − Сложный язык и структура фраз, предназначенные для учащихся, сдающих экзамен, могут мешать измерению элементов успеваемости ребенка, снижая достоверность.
Недостаточный уровень сложности тестовых заданий — Действительность инструмента снижается, когда тестовые задания имеют несоответствующий уровень сложности. Например, несоответствие сложности, обусловленной результатом обучения, в оценках, основанных на критериях, снижает достоверность.
Плохо подготовленные вопросы теста − Тестовые задания, содержащие случайные подсказки к ответу, как правило, оценивают осведомленность учащихся в выявлении подсказок и факторов успеваемости учащихся, которые в конечном итоге влияют на достоверность.
Неоднозначность — Неоднозначность в утверждениях элементов теста приводит к неправильному толкованию, противоречивым интерпретациям и путанице. Иногда это может сбивать с толку лучших учеников больше, чем худших, что приводит к негативной дискриминации. В результате валидность теста скомпрометирована.
Тестовые задания, не подходящие для измеряемых результатов — Обычно пытаются оценить некоторые сложные виды достижений, понимания, мышления, способностей и т. д. с помощью тестовых форм, которые подходят только для проверки фактической информации.
При оценке эффективности функциональное содержание тестовых заданий не может быть определено только путем изучения структуры и содержания теста. Прежде чем включить задачу в тест, учитель должен тщательно научить, как ее решать. Сложные тесты результатов обучения являются законными, если тестовые задания выполняются в соответствии с планом. Предположим, что у студентов есть предыдущий опыт решения проблемы, содержащейся в экзамене. В этом случае такие тесты перестают быть надежными для оценки более сложных психических процессов, и в результате страдает их достоверность.
Факторы проведения теста и подсчета очковМетодика проведения теста и подсчета очков также может повлиять на достоверность интерпретации результатов. Например, в экзаменах, созданных учителем, такие переменные, как недостаточное время для завершения теста, несправедливая помощь конкретным учащимся, мошенничество во время экзамена и неправильная оценка ответов на эссе, могут снизить достоверность. Точно так же на стандартизированных экзаменах отсутствие следования общепринятым указаниям и времени, несанкционированная поддержка студентов и ошибки в подсчете баллов снижают достоверность. Будь то тест, составленный учителем, или стандартизированный экзамен, неприятные физические и психологические обстоятельства во время тестирования могут повлиять на достоверность
Факторы, влияющие на реакцию учащихсяОпределенные личностные характеристики влияют на реакцию учащихся на тестовые ситуации, делая интерпретацию теста неправильной. Студенты, которые эмоционально расстроены, лишены мотивации или напуганы сценарием экзамена, могут не ответить правильно, что может снизить достоверность. Настройка Response также влияет на результаты теста. На оценку ученика влияют его привычки сдавать тесты. Набор ответов — это постоянная склонность одинаково реагировать на элементы теста.
Природа группы и критерийРанее было заявлено, что легитимность всегда принадлежит данной группе. Возраст, пол, уровень способностей, образовательный опыт и культурное происхождение — все это факторы, влияющие на результаты теста. В результате тип группы проверки должен быть отмечен в руководствах по тестированию.
Другим важным фактором при расчете коэффициента достоверности является характер используемого критерия. Например, результаты теста на научную пригодность, скорее всего, будут более точным предиктором успеваемости в курсе изучения окружающей среды. При прочих равных, чем сильнее коэффициент достоверности, тем больше сходство между показателями, оцениваемыми тестом, и показателями, указанными в критериях.
Заключение
Степень, в которой тест измеряет то, что он обещает измерить, называется его достоверностью. Тест является законным, если его выводы приемлемы, понятны и ценны. События вне лаборатории, созревание, эффекты тестирования, эффект регрессии, отбор и смерть — все это способствует внутренней валидности эксперимента. Проблемы, возникающие из-за обобщения на другие предметы, временные рамки или контексты, являются примерами внешних угроз достоверности. Предвзятость экспериментатора можно уменьшить, не позволяя экспериментатору знать обстоятельства или цель эксперимента и стандартизируя процесс, насколько это возможно.
Валидность психолого-педагогических тестов | by Rafael Valdece Sousa Bastos
Как убедиться, что ваша оценка психологических характеристик верна 8 минут чтения
·
14 января 2021 г. Photo by Celpax on UnsplashВ физике у нас часто есть инструмент, который существует физически и измеряет физические свойства. Например, инструмент, измеряющий длину, использует это свойство (то есть длину) для измерения длины другого объекта. Поэтому нет необходимости доказывать, что это свойство конгруэнтно такому же свойству измеряемого объекта.
Однако в некоторых случаях это не так однозначно. Например, если мы измеряем скорость с помощью эффекта Доплера, где инструментом является приближение/расстояние спектральных линий галактических огней. В этом случае у нас возникает проблема валидности инструмента, потому что нам нужно знать, правда ли, что расстояние между спектральными линиями связано со скоростью. Для этого надо доказать эмпирически. Валидность распространена в областях знаний, в которых используются косвенные меры. То же самое, что происходит с эффектом Доплера, очень распространено в психосоциальных науках (например, в психологии, образовании), особенно если мы используем концепцию латентной черты (например, счастья, беспокойства, влечения).
С психологической точки зрения мы можем думать о скрытой черте (или конструкции) как о характеристике, которая находится у нас в голове. Эти характеристики, такие как чья-то личность, не могут быть оценены прямыми средствами. Вместо этого мы измеряем поведение человека и делаем вывод, что оно исходит из одного и того же места (т. е. характеристики нашего мозга).
Конечно, у нас есть много способов измерить латентные черты, самый распространенный способ — анкеты/опросы, где люди отвечают, например, по шкале от 1 (полностью согласен) до 5 (полностью не согласен). Допустим, мы собираемся измерить самоэффективность на рабочем месте. Мы разрабатываем элементы на основе определения самоэффективности, а дальше что? Как мы можем узнать, что означают результаты наших тестов? Является ли самоэффективность единым фактором или ее можно разделить на несколько аспектов? Это роль поиска достоверности, чтобы правильно измерить то, что мы хотим.
1900–1950: гегемония достоверности содержания
В то время в моде были теории личности. Большинство теорий (таких как психоаналитическая, гештальт и феноменология) в целом имели мало эмпирических рассуждений. В этом контексте тесты личностных черт считались действительными, поскольку содержание тестов соответствовало содержанию черт, определенных теоретически.
1950–1970: Преобладание валидности критерия
Бихевиоризм оказал большое влияние на психологию и, конечно же, на психометрию. Тесты были сделаны как образец поведения, который должен был предсказать другое поведение или будущее поведение. Эти тесты были валидными, если они точно предсказывали поведение в будущем (или в другом случае), становясь новым путем валидности (называемым валидностью критерия). Неважно, почему тест предсказал поведение, лишь бы они его предсказывали, и этого было достаточно для его достоверности. Как мы можем себе представить, это был побег от размышлений о теории, чтобы сосредоточиться на статистике. Вместо создания теста для измерения латентного признака элементы были выбраны из набора элементов, которые выглядело как , они ссылались на то, что хотели измерить, используя, в основном, статистический анализ для решения своих проблем.
1970 — Сегодня: рост конструктной валидности
После статьи Кронбаха и Миля 1955 г. о тринитарной модели валидности (содержание, критерий и конструкт) произошло изменение в способе мышления о валидности. Теория вернулась в игру из-за таких факторов, как:
- Желание разработать теорию личности и интеллекта на эмпирических основаниях, используя факторный анализ.
- Исследования когнитивных процессов.
- Исследования информационных процессов.
- Неудовлетворенность результатами тестирования Использование в учебных и рабочих ситуациях.
- Влияние теории отклика предметов.
Основное внимание в отношении валидности психологических инструментов уделялось конструктной валидности. Итак, содержание и валидность критерия — это просто аспекты валидности конструкции.
Классическое определение валидности: «когда тест измеряет то, что предполагается измерять, что тест измеряет и насколько хорошо он измеряет». Однако классическое определение делает тесты похожими на действительные или недействительные. Чтобы изменить эту дихотомическую парадигму, действующее определение валидности — это «степень, в которой теория и фактические данные подтверждают интерпретацию результатов тестов. Таким образом, для каждого контекста/цели использования тестов и для каждой предполагаемой интерпретации необходимо, чтобы результаты тестов имели доказательства достоверности». Теперь мы можем сказать, что каждая мера имеет свою собственную степень достоверности.
Доказательства, основанные на содержании
Собирать данные о представлении элементов теста, выясняя, являются ли они образцами предметной области, которую они хотят измерить. Набор пунктов оценивается по его объему с учетом оценки предлагаемого построения. Как правило, это делается на основе оценки специалистов, где они оценивают важность элементов с учетом их связи с оцениваемыми аспектами. Можно использовать некоторые статистические тесты, такие как процент согласия и коэффициент Каппа.
Пример: В представленной статье Bastos et al. (2021) создали меру самоощущения предрассудков и дискриминации для различных социальных групп. Авторы использовали следующую процедуру для поиска достоверности на основе содержания:
- Обзор литературы о существующих мерах предрассудков и дискриминации.
- Предубеждение о себе определяется как представление о том, что человек является жертвой негативного отношения к себе, основанного на его социальной группе; и самовоспринимаемая дискриминация как представление о том, что человек является жертвой негативного и неоправданного поведения по отношению к себе на основании своей социальной группы.
- На основе этих определений и предыдущих измерений авторы разработали новые элементы для других социальных групп.
- После создания предметов они отправляли их экспертам (то есть психологам и специалистам по психометрии), чтобы они могли их оценить.
- На основании доли согласия авторы выбрали девять вопросов для последующего анализа.
Доказательства, основанные на процессах реагирования
Собирать данные о психических процессах, связанных с выполнением заданных задач. Обычно речь идет об индивидуальном процессе реакции, и исследователи спрашивают оцениваемого человека о когнитивном пути, использованном для достижения данного результата. В качестве примера мы можем видеть, что Noble et al. (2014) искали такую достоверность в своем исследовании. Они обнаружили, что у изучающих английский язык (ELL) были более низкие результаты в тестах с высокими ставками по сравнению с не изучающими английский язык. На основе интервью они обнаружили, что
Взаимодействие учащихся ELL со специфическими языковыми особенностями тестовых заданий часто приводило к альтернативным интерпретациям заданий, что приводило к неправильным ответам.
Доказательства на основе внутренней структуры
Собирать данные о структуре корреляции элементов, оценивая один и тот же конструкт. Статистические тесты, которые часто используются, — это исследовательский факторный анализ (EFA), подтверждающий факторный анализ (CFA), исследовательское моделирование структурных уравнений.
В качестве примера можно использовать Selau et al. (2020) бумага. Авторы хотели измерить умственную отсталость детей в возрасте от 7 до 15 лет. Они исследовали внутреннюю структуру шкалы с помощью EFA и CFA следующей структуры:
Изображение автора.Где элементы делятся на социальные, концептуальные и практические факторы, которые объясняются фактором более высокого порядка, называемым адаптивной функцией.
Данные, основанные на их связи с внешними переменными
Соберите данные о характере корреляции между результатами теста и другими переменными, измеряющими ту же или разные конструкции. Обычно для получения такой валидности исследователи используют корреляцию результатов теста с другими переменными. Этот тип валидности может быть:
- Свидетельство способности инструмента прогнозировать оцениваемую конструкцию.
- Когда у нас есть тесты, измеряющие одно и то же построение , мы ожидаем, что они тесно связаны.
- Когда у нас есть тесты, которые измеряют связанных конструкций , мы ожидаем, что они умеренно связаны.
- Когда у нас есть тесты, измеряющие различных конструкций , мы ожидаем, что они не связаны между собой.
Беймер и др. (2021) разработали шкалу восприятия стоимости студентами колледжей. Они соотнесли элементы шкалы с представлениями и ценностями учащихся. Они ожидали (и обнаружили), что «затраты» отрицательно коррелируют с «ожиданиями» и «стоимостью» (вы можете увидеть определение каждой переменной в их статье).
Доказательства, основанные на последствиях тестирования
Изучить преднамеренные или непреднамеренные социальные последствия использования теста, чтобы проверить, дает ли его использование желаемый эффект в зависимости от причины, по которой он был создан. Тесты имеют этот тип валидности, если они используются по той же причине, для которой они были созданы. Хотя вы не можете предсказать, что люди будут делать с разработанным вами инструментом, необходимо обсудить обязанности авторов инструмента.
В качестве примера мы можем подумать о показателях IQ. Его целью является измерение интеллекта людей. Однако мы можем видеть, что иногда в истории IQ использовался для оправдания расизма.
Мы можем видеть, что существует много шагов, чтобы гарантировать, что наша мера психологических черт имеет степень достоверности. Следуя этим процедурам, мы с большей уверенностью можем делать выводы о связи между психологическими чертами и другими переменными. На практике люди часто ищут только три типа достоверности: содержание, внутреннюю структуру и отношения с другими переменными. Я думаю, что есть две причины, почему это происходит:
- Сложность поиска достоверности на основе процесса реагирования и последствий тестирования. Чтобы найти достоверность на основе процесса ответа, исследователи должны вкладывать больше времени и денег, опрашивая достаточное количество участников. Искать достоверность, основанную на последствиях тестирования, сложно. От авторов требуется думать и предсказывать его использование в ближайшем и отдаленном будущем, а некоторые последствия могут быть (почти) невозможными предсказать.
- Авторы не считают своей работой поиск этих двух типов достоверности, потому что они оба: а) не считают своей обязанностью то, что люди делают со своей работой; б) считают, что их мера великолепна и не имеет недостатков, что может быть правдой, но есть много вещей, которые нужно рассмотреть, прежде чем сделать такой вывод, и эта вещь гарантирует, что некоторые другие предубеждения не влияют на результаты.
В заключение я ожидаю, что теперь вы немного больше убеждены в том, что психологические и педагогические исследования имеют свою степень достоверности, основанную на эмпирических и теоретических основаниях. Я ожидаю, что за всем было легко следить, спасибо, что читали до сих пор.
Не стесняйтесь обращаться ко мне по телефону
Gmail: rafavsbastos@gmail.