Валидность в педагогике это: Валидность — это… Что такое Валидность?

Содержание

Валидность — это… Что такое Валидность?

  • валидность — одна из важнейших характеристик психодиагностических методик и тестов, один из основных критериев их качества. Это понятие близко к понятию достоверности, но не вполне тождественно. Проблема валидности возникает в ходе разработки и практического… …   Большая психологическая энциклопедия

  • валидность — достоверность Словарь русских синонимов. валидность сущ., кол во синонимов: 8 • адекватность (18) • …   Словарь синонимов

  • Валидность —  Валидность  ♦ Validité    Употребляемый в логике синоним истины, точнее говоря, ее формальный эквивалент. Вывод считается валидным (верным), если представляет собой переход от истинного к истинному (от истинности посылок к истинности заключения) …   Философский словарь Спонвиля

  • Валидность — от фр. valide в статистике законность и достоверность исходной информации, надежность методики сбора, получения данных, в том числе и для экономических исследований.

    Словарь бизнес терминов. Академик.ру. 2001 …   Словарь бизнес-терминов

  • ВАЛИДНОСТЬ — [Словарь иностранных слов русского языка

  • ВАЛИДНОСТЬ — (от лат. validus сильный, крепкий) англ. validity; нем. Validitat/Gulltigkeit. Обоснованность и адекватность исследовательских инструментов (операционализированных понятий, измерительных операций и экспериментов). Antinazi. Энциклопедия… …   Энциклопедия социологии

  • Валидность — Надежность информации, отсутствие в ней ошибок из за неточности выбранной методики сбора данных. Терминологический словарь банковских и финансовых терминов. 2011 …   Финансовый словарь

  • ВАЛИДНОСТЬ — (от франц. valide законный, действительный) применительно к исходной статистической информации, используемой в экономических исследованиях: надежность информации, отсутствие в ней ошибок из за неточности выбранной методики сбора данных. Райзберг… …   Экономический словарь

  • валидность — и, ж. validité f. <лат. validus. Действительность, законность, весомость, обоснованность; обладание юридической силой. Комлев 1992. || Способность образовать связную знаковую систему. Барт Что такое критика? // Б. 272. Качество исходной… …   Исторический словарь галлицизмов русского языка

  • Валидность — (англ. validity) мера соответствия того, насколько методика и результаты исследования соответствуют поставленным задачам. В частности, валидность считается фундаментальным понятием экспериментальной психологии и психодиагностики. Как в… …   Википедия

  • Валидность — качество метода психологического исследования, выражающееся в его соответствии тому, для изучения и оценки чего он изначально был предназначен. * * * (лат. validus крепкий, здоровый) надёжность в плане соответствия истине, действительности,… …   Энциклопедический словарь по психологии и педагогике

  • Валидность — это… Что такое Валидность?

    — качество метода психологического исследования, выражающееся в его соответствии тому, для изучения и оценки чего он изначально был предназначен.


    * * *
    (лат. validus — крепкий, здоровый) — надёжность в плане соответствия истине, действительности, правилам, нормам. Например, валидность теста есть его способность выявлять то, на что он расчитан. В области тестов и измерений разработано немалое число процедур оценки валидности инструментов тестирования. Например, валидность априорная (предварительная, интуитивная оценка содержательной валидности теста), валидность содержательная (степень соответствия формулировок теста той теории, на которой он основан), валидность выборки (вариация содержательной валидности, основана на оценке степени, в которое то, что измеряется, представлено в вопросах теста, валидность прогностическая (способность теста выявлять данные, позволяющие предсказать какие-либо последствия данного расстройства, например, суицида при депрессии). И др.


    * * *
    одна из важнейших характеристик Психодиагностических методик и тестов, один из основных критериев их качества.


    * * *

    (от англ. valid – пригодный) – комплексная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности исследуемой по отношению к ней диагностической процедуры; один из основных критериев качества теста, понятие, указывающее нам, 1 – что тест измеряет и 2 – насколько хорошо он это делает.

    · дифференциальная . (differential validiti) – один из компонентов прогностической валидности, отражающий способностью методики дифференцировать испытуемых по отдельным областям проявления исследуемых свойств.

    · инкрементная . (incremental validiti) – один из компонентов прогностической валидности, отражающий практическую ценность методики при проведении отбора.

    · конкурентная . (concurrent validiti) – характеристика теста, отражающая его способность различать испытуемых на основании диагностического признака, являющегося объектом исследования в данной методике; измеряется корреляцией результатов данного теста с измерениями при помощи других тестов, предназначенных для измерения той же самой переменной.

    · конструктная . (construct validiti) – один из основных типов валидности, отражающий степень репрезентации исследуемого психологического конструкта в результатах теста; чем больше результаты теста соответствуют теоретической гипотезе о природе измеряемой переменной, тем выше конструктная валидность теста.

    · очевидная . (face validiti) – представление о тесте, сфере его применения, результативности и прогностической ценности, которое возникает у испытуемого или другого лица, не располагающего специальными сведениями о характере использования и целях методики. Чем более тест выглядит измеряющим то, для измерения чего он предназначен, тем выше его очевидная валидность.

    · прогностическая . (predictive validiti) – информация о тесте, характеризующая степень точности и обоснованности суждения о диагностируемом психологическом качестве по его результату спустя определенное время после измерения; чем лучше тест может прогнозировать критерий, тем выше его прогностическая валидность.


    · содержательная . (content validiti) – один из основных типов валидности, характеризующий степень репрезентативности содержания заданий теста по отношению к измеряемой области психических свойств.


    * * *
    (от англ. valid – действительный, пригодный, действенный) – критерий качества конфликтологического исследования, степень соответствия его результатов целям, достоверность и глубина выводов. Различают два вида В.: внутреннюю и внешнюю. Внутренняя В. показывает, насколько удалось объективно, точно оценить именно то, что ставилось как цель исследования. Напр., конфликтологу необходимо сравнить частоту конфликтов в течение года в разных отделах организации. Для этого он опрашивает сотрудников организации, задавая им вопрос: «Как часто в вашем коллективе происходили конфликты в течение последнего года?». Такое исследование обладает низкой внутренней В., т. к. оценивается не реальная частота конфликтов, а мнение сотрудников о ней.

    Внешняя В. показывает, насколько корректно распространять выводы, полученные в результате исследования, на др. ситуации, конфликты, т. е. насколько результаты будут справедливы вне рамок данного исследования. Напр., эмпирическое исследование показало, что 78 % конфликтов в офицерском коллективе происходит в звене «начальник-подчиненный». Методика изучения обеспечила высокую внутреннюю В. выводов. Однако внешняя В. этих результатов мала, т. к. отношения между офицерами строго регламентированы и распространение данного вывода на заводские, научные и т. п. коллективы неправомерно. При проведении эмпирического конфликтологического исследования необходимо обеспечивать максимально возможную В. на этапе его подготовки, контролировать В. в процессе изучения, тщательно объяснять полученные данные и обосновывать выводы на завершающем этапе работы.


    * * *
    (от англ. valid — пригодный) — совпадение, мера соответствия результатов исследования объективным внешним критериям, соотнесение их с жизненными показателями. Количественная оценка В. осуществляется обычно с помощью коэффициента корреляции. В инженерной психологии понятие В. применяется для оценки качества измерения (В. измерения) или теста (В. теста). В. измерения — соответствие процедуры измерения тому, что должно быть измерено. Напр., В. методики регистрации кожногальванического рефлекса (КГР) как индикатора эмоционального возбуждения может быть оценена с помощью корреляции показателей КГР и субъективных оценок эмоционального состояния. В. теста — его адекватность и действенность, важнейший критерий его доброкачественности, характеризующий точность измерения оцениваемого свойства, а также то, что он должен оценивать. Чем валиднее тест, тем лучше отображается в нем то качество (свойство), ради измерения которого он создавался. В. теста определяется корреляцией его результатов с другими критериями измеряемого свойства. Напр., В. теста способностей определяется корреляцией результатов по тесту с успешностью выполнения соответствующей деятельности.

    Понятие В. теста относится не только к тесту, но и к критерию его качества. Чем больше коэффициент корреляции теста с критерием, тем выше В. Развитие факторного анализа позволило создавать тесты, валидные по отношению к идентифицируемому фактору. Только проверенные на В. тесты могут использоваться в профориентации, профотборе, в научных исследованиях.

    Энциклопедический словарь по психологии и педагогике. 2013.

    Проблема валидности тестов в традиционной и альтернативной педагогике.

    Доказательная медицина ,начиная с 90-ых годов, уже развивается, но того же нельзя сказать о доказательной психотерапии и доказательной педагогике. У меня есть основания предполагать, что российский социум не сразу поймёт необходимость перехода на эти рельсы в силу большой попоболи значительного количества шарлатанов в сфере психотерапии, целительства и даже экспериментальной педагогики.
    Что касается «доказательного маркетинга» или там «доказательной политэкономики», то на этом уровне она уже невозможна. Почему невозможно централизованно вычислить и применить некоторые экспериментально-доказательные принципы к экономике, не «тормозя» людей и не вредя им- хорошо описали Млодинов, Хаек и Талеб.
    Степень фричества в экономической области определятся ,как в большинстве глубоко гуманитарных областей, скорее неочевидными сочетаниями отдельных частных воль в оценках текущих событий, имеющих рефлексивное воздействие на среду и зависимыми от опыта.

    Проблема валидности теста существует как в психологии, так и в педагогике. Не всегда понятно,насколько олученный результат отражает степень овладения учащимся теми или иных наыками.

    Вопрос,который мучает меня лично — это применимость и полезность игровых обучалок с имитационными интеракциями участников.

    С одной стороны, такой академически подкованный автор, как Невеев, отрицает или сводит к иллюзорным плацебо-эффектам эффективность обучения практическим, познавательным и социальным навыкам через ролевую имитацию. Его позиция солидно подкрепляется матчастью по психологическим тренингам, только 10% участников которых обнаруживают в своей жизни предполагаемые тренингом улучшения.

    Нет ли той же проблемы и в таких педагогиках, как гуманистическая педагогика, педагогика Вальдорфской школы, природосообразная педагогика, Бодхо-педагогика(«накопление фрагментов»), деятельностная педагогика Выготского, ТРИЗ-педагогика, (прямо охарактризованная в переписке со мной физиком vsounder, опытным и матёрым бойцом с фричеством и мракобесием, как лженаучная)?

    С другой сторон, кривая эффективности запоминания показывает обратное — именно архаические техники экстаза запоминания и освоения информации через имитацию-подражение и мифопоэтические нарративы дают самую лучшую запоминаемость информации и закрепление её в долговременной памяти.

    Кто же тут вернее? Правда ли,что «Притвориться — не значит,стать«(с.Невеев) или же,что «лучший способ стать — это именно притвориться«?

    Вопрос глубоко непраздный, потому что от его решения в ту или иную сторону сильно зависит объективная и ресурсно-экономическая оценка деятельности целого ряда программ,имеющих прямое отношение к развитию человека. И это ещё самое малое.

    Серьёзные последствия будут для значительной части разработок,связанных с т.н. «дизайном коммуникаций».

    В педагогике валидность тестов определить не легче,чем в психологии. Мне, как рендистке-попперистке-адвайтистке(объективизм, критический рационализм,нон-дуализм субъект-объектный), кажется значимым фокусироваться в своих поисковых быстрых эвристиках в этом вопросе(а возможно,когда осилю Матчасть — и медленных) именно на критериальной валидности, которая ищет в тесте соответствия внешним онтологическим реалиям и имеет предсказательную ценность(то есть отражает вневременную, научно-постижимую, независимую и тождественную себе истину)

    Педагоги ,конечно, с этим в своей практике профессионально столкнулись давно и пилят эту тему ответственно:

    http://uss.dvfu.ru/static/kim_testing_monograph/src/glava_3_9.html
    Высокая надежность теста это необходимое, но недостаточное условие получения высококачественного теста. Тест еще должен быть валидным. Валидность – это важнейшая характеристика теста, без указания которой, его нельзя считать измерительным инструментом.

    Анализируя сложную ситуацию с валидностью педагогических тестов, Е.Михайлычев отмечает, что педагогу, заинтересовавшемуся валидностью, трудно будет разобраться в том, что же это такое.

    Ниже мы приведем несколько определений валидности теста.

    ВАЛИДНОСТЬ означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование (В.Аванесов)17.

    ВАЛИДНОСТЬ — это характеристика способности теста служить поставленной цели измерения (М.Челышкова).

    ВАЛИДНОСТЬ — определяет, насколько тест отражает то, что он должен оценивать (А.Майоров).

    Приведенные определения в целом перекликаются и являются практически равноценными. Мы несколько уточним определение, сделав акцент на цель тестирования. Тестирование как измерительная процедура, дает информацию, на основе которой в дальнейшем должно быть принято то или иное управленческое решение. Обоснованность этих решений, зачастую сильно влияющих на судьбу испытуемых, определяется надежностью и валидностью теста.

    ВАЛИДНОСТЬ – это характеристика теста, отражающая его способность получать результаты, соответствующие поставленной цели и обосновывающая адекватность принимаемых решений.

    После создания теста начинается процесс его валидизации. Приведем определение:

    ВАЛИДИЗАЦИЯ – процесс накопления подтверждений для доказательства валидности теста19.

    По нашему мнению ВАЛИДИЗАЦИЯ – это не столько сбор доказательств валидности теста, сколько процесс выполнения действий, повышающих его валидность. Вследствие этого будет расти и доказательная база валидности теста.

    Выделяют три вида валидности – содержательную, критериальную и конструктную.

    КОНСТРУКТНАЯ ВАЛИДНОСТЬ (концептуальная валидность) определяется в случаях, когда представление об измеряемом свойстве существует в форме абстрактного образа, модели. Для объяснения определенных качеств личности создается концептуальная модель, которая с помощью тестов подтверждается или опровергается.

    КРИТЕРИАЛЬНАЯ ВАЛИДНОСТЬ (эмпирическая валидность) предполагает наличие внешнего критерия, корреляция с которым определяет валидность теста.

    Имеется два вида критериальной валидности – текущая и прогностическая.

    Текущая критериальная валидность (concurrent validity) характеризует способность теста измерять некоторые качества личности. Валидность теста подтверждается корреляцией с некоторым внешним критерием, существующим в данное время. Допустим, тест показал для некоторого испытуемого отличные знания по предмету, а школьные отметки, выставленные учителем – неудовлетворительные. Если мы в качестве внешнего, независимого и достоверного критерия выберем школьные отметки, то критериальная валидность теста – низкая, даже если он имеет высокую надежность.

    Прогностическая критериальная валидность (predictive validity) характеризует способность теста предсказывать будущие качества, формирующихся в результате воздействия внешних обстоятельств или целенаправленной собственной деятельности. Этот тип валидности характеризует корреляцию результатов тестирования с внешним критерием, который появится в будущем.

    СОДЕРЖАТЕЛЬНАЯ ВАЛИДНОСТЬ (content validity) характеризует тест по степени его соответствия предметной области.

    Согласно А.Анастази, содержательная валидность означает систематическую проверку содержания теста, с тем чтобы установить, соответствует ли оно репрезентативной выборке измеряемой области поведения. Такая процедура валидизации обычно применяется для тестов достижений20.

    Содержательная валидность необязятельно означает полноту отображения изучаемой дисциплины. Например, для нормативно-ориентированного теста, полнота охвата всех тем может быть меньше, чем для критериально-ориентированного. Здесь важнее глубина проработки отдельных подтем, вопросов. Это позволит с большей эффективность дифференцировать обучаемых. Под содержанием понимается не только совокупность фактов, понятий, терминов, но и умение применять имеющиеся знания, оценивать информацию, выполнять действия, соответствующие верхним уровням таксономии Блума.

    Для обеспечения содержательной валидности необходим детальный анализ учебных программ, на основании чего составляется спецификация теста. Спецификация содержит перечень учебных тем, их важность, количество и тип тестовых заданий. Оценка содержательной валидности выполняется экспертом в данной предметной области.

    Согласно П.Клайну содержательная валидность определяется следующим образом:

    1) указать категорию лиц, для которой предназначен тест;
    2) составить список знаний, умений, навыков, подлежащих тестированию;
    3) выполнить внешнюю экспертизу полученного списка на предмет его полноты и обоснованности;
    4) на основе списка составить перечень заданий;
    5) выполнить внешнюю экспертизу полученных заданий;
    6) после проверки преобразовать их в задания в тестовой форме. В дальнейшем, на этой основе создать тестовые задания, образующие тест, который будет содержательно валидным.

    Проблема валидизации педагогического теста является, видимо, самой сложной в процедуре создания высококачественного измерительного инструмента.

    надежность, валидность, стандартизация (Стандартизация, надежность и валидность теста) [Курсовая №78681]

    Содержание:

    ВВЕДЕНИЕ

    В психодиагностике под тестированием понимают стандартизированное исследование, предназначенное для установления количественных и качественных индивидуально-психологических различий. Метод тестов является одним из основных в современной психодиагностике.

    Актуальность темы работы заключается в том, что метод тестирования на сегодняшний день применяется практически во всех областях деятельности человека. Широкое распространение метод тестирования получил и в педагогике. Даже во время приема в первый класс проверяется готовность к обучению и другие характеристики развития ребенка при помощи рассматриваемого метода.

    Цель работы – проанализировать метода тестирования и его составляющие.

    Задачи работы:

    1)Рассмотреть историю развития метода тестирования;

    2) Рассмотреть классификацию психологических тестов

    3) Дать характеристику основным критериям теста: стандартизации, надежности и валидности. 

    Объект исследования: метод тестирования

    Предмет исследования: основные критерии теста: стандартизация, надежность и валидность. 

    Работа состоит из: Введения, Двух глав, Заключения, Списка использованных источников, Приложения.

    В работе были использованы исследования Анастази А., Акимовой М.К., Бурлачук Л.Ф. и других.

    В работе были рассмотрена характеристика различных психологических методик. В качестве примера была взята Сконструированная методика исследований ценностных ориентаций дошкольников Валявко С.М. и Аверьяновой Е.В.

    Глава 1. Общая характеристика психологического тестирования

    Психологическое тестирование – это метод измерения и оценки психологических характеристик человека с помощью специальных техник. [4]Предметом тестирования могут быть любые психологические характеристики человека: психические процессы, состояния, свойства, отношения и т. п. Основой психологического тестирования является психологический тест. Психологический тест – стандартизированная система испытаний, позволяющая обнаружить и измерить качественные и количественные индивидуально-психологические различия.[5]

    Изначально тестирование рассматривалось как разновидность эксперимента. В настоящее время тестирование выделяют в отдельную категорию, так как у него имеется своя специфика и тест обладает самостоятельным значением.

    Существует наука тестология, которая изучает тесты. Так же психологическая диагностика изучает тестирование. Обе дисциплины занимаются теорией и практикой тестирования. Поясним.

     Психологическая диагностика – это наука о способах выявления и измерения индивидуально-психологических и индивидуально-психофизиологических особенностей человека. [6]

    Тестология – это наука о разработке, конструировании тестов.[]

    Процесс тестирования, как правило, включает в себя три этапа:

    1) выбор методики, адекватной целям и задачам тестирования;

    2) собственно тестирование, т. е. сбор данных в соответствии с инструкцией;

    3) сравнение полученных данных с «нормой» или между собой и вынесение оценки.

    В связи с этим, существуют и два типа психологического диагноза. Первый тип заключается в наличие или отсутствие какого-либо признака. В этом случае данные, полученные от тестирования, сравниваются с определенным критерием.

    Второй тип диагноза позволяет соотносить нескольких тестируемых между собой. Тем самым определяется роль и место каждого из них.

    При изучении и анализе тестов проводится разделение тестируемых на несколько категорий и распределяется по уровням изучаемых особенностей. Их три: высокий, средний и низкий.[10]

    Психологический диагноз определяется при квалифицированной интерпретации с учетом особых факторов. К ним относятся, например, психологическое состояние тестируемого, ситуация, при которой проходит тестирование и прочее.[7]

    Использование тестов – основная часть современной психодиагностики. Результаты психодиагностики используют в практических целях во многих сферах деятельности. К таким сферам можно отнести обучение и воспитание, профотбор и профориентацию, различные области экспертизы, сама психологическая и психотерапевтическая практика.

    1.1. Возникновение и развитие метода тестирования

    Возникновение метода тестирования произошло в конце 19 в. Основой для этого стало развитие экспериментальных методов для изучения психических явлений. Началось накопление знаний об индивидуально-психологических особенностях людей. Появилась возможность количественной оценки психических явлений и сопоставления результатов разных испытуемых между собой. Все это способствовало развитию метода тестирования.

    Разработка психологических тестов велась во многих странах Европы и в США. Первоначально в качестве тестов использовались обычные лабораторные эксперименты, однако был другой смысл применения. В них рассматривали индивидуальные различия в реакциях испытуемого при соблюдении постоянных условий эксперимента.[7]

    Первый тест как таковой разработал французский психолог Бине А. в 1905 г. Это был тест интеллекта для выявления умственно неполноценных детей, не способных обучаться в обычных школах. В 1907 г. этот тест усовершенствовал француз Т. Симон. В последствии он был назван Шкала Бине-Симона. Позже этот тест так же дорабатывался. Так в 1916 г. под руководством американского психолога Л.М. Термена в Стэнфордском университете (США) была данный тест дополнен. После этого начали называть шкалой Стэнфорд – Бине. [2]В 1912 г. немецкий психолог В. Штерном введел понятие коэффициента интеллекта (IQ). Он определялся как отношение   отношение умственного возраста к хронологическому возрасту, выраженное в процентах.

    В начале 20 в. развитие тестирования определялось запросами промышленности и армии. Создавались тесты для отбора в различных отраслях производства и сферы обслуживания. Это тесты Мюнстерберга для профотбора телефонисток, тесты Гута для наборщиков и прочие. Для армии — тесты «Армия Альфа» и «Армия Бета». [2]

    В первой половине 20 в. появился целый ряд методик, направленных на диагностику различных типов патологии. Немецкий психиатр Э. Крепелин преобразовал ассоциативный эксперимент Ф. Гальтона в «метод незаконченных предложений», который используется в работе современных психиатров. В 1921 г. швейцарский психиатр Г. Роршах создал «тест чернильных пятен». Этот тест используют до сих пор.[11]

    В 1935 г. американскими психологами Х. Морган и Г. Мюрреем был разработан тест тематической апперцепции (ТАТ). Данный тест используется и в настоящее время, имеет множество модификаций. Продолжали развивались теоретические основы конструирования тестов, совершенствовались методы математико-статистической обработки. Ч. Спирмен, Т.Л. Кили, Л.Л. Терстон разработали корреляционный и факторный анализ. Это позволяло разрабатывать принципы стандартизации тестов. Появились методики, построенные по факторному принципу. К ним относился, например, опросник Р. Кеттелла 16PF. Возникли новые тесты интеллекта, например тест Векслера. Получили развитие тесты профессионального отбора и клинические тесты.[4]

    В 1950–1960 гг. произошли особые изменения в содержании тестирования. Психодиагностика обратилась к проблемам отдельной личности. Появилось огромное количество личностных опросников. Главное в них — углубленное познание личности, ее особенностей. К таким тестам относятся опросники Г. Айзенка.

    В связи с ростом промышленности и образования появились тесты специальных способностей и достижений. В середине XX столетия появились критериально-ориентированные тесты.

    В настоящее время в арсенале психологов насчитывается более десяти тысяч тестовых методик.

    1.2. Классификация психологических тестов

    Одна из наиболее удачных классификаций предложена американским психологом С. Розенцвейгом в 1950 г. Он разделил методы психодиагностики на три группы: субъективные, объективные и проективные.[15]

    Субъективные методы требуют от субъекта наблюдения за собой как за объектом. К таким методикам ученый отнес опросники и автобиографии.

    Объективные методы требуют исследования через наблюдение за внешним поведением. 

    Проективные методы основываются на анализе реакций испытуемого на кажущийся личностно-нейтральным материал.

    Американский психолог Г.У. Оллпорт предложил различать в психодиагностике прямые и непрямые методы. [12]

    В прямых методах выводы о свойствах и отношениях испытуемого делаются исходя из его сознательного отчета, они соответствуют субъективным и объективным методам Розенцвейга.

    В непрямых методах выводы делаются на основании идентификаций испытуемого, они соответствуют проективным методам в классификации Розенцвейга.

    В отечественной психологии принято подразделять все психодиагностические методики на два типа: методики высокого уровня формализации (формализованные) и малоформализованные методики [2]

    Для формализованных методик характерно точное соблюдение инструкций, строго определенные способы предъявления стимульного материала и т. д. Та же в них предусмотрены нормы или другие критерии оценки результатов. Эти методики позволяют собирать диагностическую информацию в относительно короткие сроки, количественно и качественно сравнивать результаты большого числа испытуемых.[2]

    Малоформализованные методики дают ценные сведения об испытуемом в тех случаях, когда изучаемые явления плохо поддаются обобщению или чрезвычайно изменчивы. Сюда можно отнести личностные смыслы, субъективные переживания, состояния, настроения. Малоформализованные методы требуют высокого профессионализма психолога, значительных затрат времени. Однако полностью противопоставлять эти типы методик не следует, так как в целом они дополняют друг друга.

    Всю группу формализованных методик иногда называют тестами. Они включают в себя четыре класса методик: тесты, опросники, проективные техники и психофизиологические методики. К малоформализованным методикам относятся: наблюдение, беседа, анализ продуктов деятельности.[2]

    Для субъективных психодиагностических методик информация получается на основе самооценок исследуемым своего поведения и личностных особенностей. Поэтому такие методики называют субъективными. Эти методики представлены в основном опросниками.

    Согласно Словаря-справочнике по психодиагностике[4], опросник — психодиагностическая методика, задания которых представлены в виде вопросов. Но это обобщенное название.

    Анкеты и опросники — не одно и тоже, хотя некоторое сходство есть. Определяющим является различие в направленности: анкеты действуют в любой направленности опросники – только в личной. На первый план у опросников выходит измерение личностных качеств. Анкетирование обычно анонимно, тестирование с помощью опросника – персонифицировано. Анкетирование, как правило, формально, тестирование – личностно. Анкетирование более свободно по процедуре сбора информации вплоть до рассылки анкет по почте, тестирование обычно подразумевает непосредственный контакт с тестируемым.[4]

    Опросник, таким образом, включает инструкцию испытуемому, перечень вопросов, ключи для обработки получаемых данных, сведения по интерпретации результатов.

    По принципу построения различают опросники-анкеты и собственно опросники. К опросникам-анкетам относятся методики, несущие в себе элементы анкеты с открытыми и закрытыми вопросами. Обработка закрытых вопросов производится по соответствующим ключам и шкалам, результаты дополняются и уточняются информацией, получаемой с помощью открытых вопросов. Обычно в опросники-анкеты включаются вопросы на выявление социально-демографических показателей: сведений о поле, возрасте, образовании и т. п. Опросник-анкета может целиком состоять из открытых вопросов. Кроме того, к опросникам-анкетам относят методику, имеющую формальные признаки опросника, но не касающуюся личностного исследования. Например, Мичиганский скрининг-тест алкоголизма.[17]

    По сфере преимущественного применения различают

    • узкопрофильные опросники
    • опросники широкого профиля. [10]

    Узкопрофильные опросники, в свою очередь, делятся по сфере преимущественного применения на

    • клинические,
    • профориентационные,
    • сферы обучения,
    • сферы менеджмента и работы с персоналом и др. [10]

    Существуют опросники, созданные для определенной сферы деятельности: вузовской и школьной психодиагностики, психодиагностики в сфере менеджментаи прочие.

    Выделяют опросники состояний и опросники свойств. Они относятся к категории личностных опросников. Они имеют специальные инструкции, в которых подчеркивается, что отвечать нужно в соответствии с актуальными переживаниями, отношениями, настроениями.

    Существуют также комплексные опросники.

    Комплексные опросники сочетают в себе признаки опросника состояний и опросника свойств. Например, опросник Спилбергера – Ханина содержит шкалу реактивной тревожности и шкалу личностной тревожности. Первая диагностирует тревожность как состояние, вторая — для диагностики тревожности как личностного свойства.[5]

    Типологические опросники создаются на основе выделения личностных типов. Описание дается через характеристику усредненного или ярко выраженного представителя типа. Примером типологических опросников являются методики Г. Айзенка., в частности, опросник выявления интроверсии-экстраверсии и нейротизма.

    Диагностика способностей с помощью субъективных опросников проводится редко, так как не дает правильного результата.

    Далее рассмотрим объективные тесты.. Интерпретация в таких тестах определяется на основании информации об особенностях выполнения деятельности и ее результативности. Эти показатели зависят от представлений испытуемого о себе и от мнения лица, проводящего тестирование и интерпретацию. В этом их отличие от субъективных и проективных тестов.

    В зависимости от предмета тестирования существует следующая классификация объективных тестов:[18]

    • тесты личности, направленные на выявление личностных особенностей;

    • тесты интеллекта направлены на оценку уровня интеллектуального развития; бывают вербальные, невербальные, комплексные;

    • тесты способностей, направленные на оценку возможностей человека в овладении знаниями, умениями и навыками;

    • тесты креативности;

    • тесты достижений предназначены для оценки уровня овладения знаниями, умениями и навыками в какой-либо конкретной деятельности; бывают действия, письменные, устные.

    К тестам интеллекта относятся тесты «Логические связи», «Отыскание закономерностей», «Сравнение понятий», «Исключение лишнего», «Пиктограммы», «Классификация картинок», тест «Прогрессивные матрицы» Дж. Равена[14]

    В современных тестах интеллекта в одной методике совмещаются и вербальные, и невербальные задания, например в тестах А. Бине, Р. Амтхауэра, Д. Векслера. Такие тесты являются комплексными. Самый популярный Тест Д. Векслера (WAIS). Сами тесты интеллекта вызывают споры среди ученых.[17]

    Творческие способности стоят отдельно. Совокупность творческих способностей называют креативностью. В группу тестов креативности входят весьма разнообразные методики. Наиболее известны тесты Дж. Гилфорда и Е. Торренса.

    В отдельную категорию выделяют проективные тесты. Здесь получение информации основано на анализе особенностей действий испытуемого с внешне нейтральным материалом, который становится объектом проекции.

    Тестирование с помощью проективных методов имеет особенности. В методиках используется неоднозначный, слабоструктурированный стимульный материал, допускающий большое число вариантов восприятия и интерпретации. [18] Такие тесты должны проходить в естественной форме, испытуемый не должен знать, что это тест. Поэтому они проходят чаще в игровой форме. Такие методики используются в начале психологической работы. Достоинством проективных методик состоит в том, что его можно использовать как для взрослых, так и для детей.

    Классификация проективных методов принадлежит Л.К. Франку. Он предложил различать проективные методы в зависимости от характера реакций испытуемого. В современной классификации проективных методов различают [20]

    • конститутивные,
    • конструктивные,
    • интерпретативные,
    • катартические,
    • экспрессивные,
    • импрессивные,
    • аддитивные методики.

    Конститутивные методики предлагают испытуемому придать смысл и структуру слабоструктурированному материалу. К таким методикам относится тест Г. Роршаха с «кляксами».

    Конструктивные методики подразумевают конструирование,то есть создание из оформленных деталей осмысленного целого. Например, стимульный материал методик «Деревня» и «Тест мира».

    Интерпретативные методики подразумевают истолкование испытуемым какого-либо события, ситуации. Примерами являются тест тематической апперцепции (ТАТ), тесты словесных ассоциаций.

    Катартические методики представляют собой осуществление игровой деятельности в специально организованных условиях. Например, психодрама Я. (Дж.) Морено.[20]

    В экспрессивных методиках происходит получение информации на анализе рисунков испытуемого. Рисунки могут быть на свободную или заданную тему. Это так называемые рисуночные методики. К ним относятся «Несуществующее животное» М.З. Друкаревич, «Дом – дерево – человек» Дж. Бука, «Рисунок семьи» В. Халса, «Нарисуй человека» К. Маховер, и другие.[20]

    Импрессивные методики заставляют испытуемого выбирать стимулы или ставить их по мере возрастания-убывания. Например, тест Л. Сонди. Так же существуют тесты цветового выбора, которые так же относятся к импрессивным методикам. Это тесты А.М. Эткинда, И.Л. Соломина и др.

    Аддитивные методики подразумевают произвольное завершение испытуемым стимульного материала, например завершение предложения. Сюда относятся методики А. Пейна, Д. Сакса и С. Леви, и др.[18]

    Классификация К. Франка подвергается критике.

    Компьютерное тестирование. Это относительно молодое направление психодиагностики. Существуют достоинства таких тестов, но есть и существенные недостатки. Психологи очень осторожно относятся к ним. Можно сказать, что компьютерные тесты имеют будущее.

    Опираясь на классификацию С. Розенцвейга методы психодиагностики разделены на три группы: субъективные, объективные и проективные. К каждой группе отнесены определенные тесты.

    Глава 2. . Стандартизация, надежность и валидность теста

    Основные критерии оценки теста — это стандартизация, надежность и валидность.

    Рассмотрим каждую категорию отдельно.

    В основе психологического тестирования лежит классическая теория погрешности измерений. Считается, что тест – это измерительный прибор, такой же, например, как физический прибор. И здесь существуют такие понятия как «истинный показатель» и величина случайной погрешности. Существует и «систематическая погрешность», которая может влиять на результат теста.[4]

    Надежность теста. Этот параметр характеризуется устойчивостью результатов к воздействию случайных внешних и внутренних факторов. При многократном проведении теста среднее его значение будет являться «истиной » величиной параметра. Тест считается надежным, если результаты первого и последнего тестирования схожи между собой. [5]

    Сам тест – это некоторое число заданий из огромного количества. Из-за этого тест может считаться приблизительно надежным. К этому требованию подходит тест, если у него коэффициент схожести результатов не менее 0,75.

    Как это вычисляется.

    Известно, что существуют отклонения от «истинного» тестового балла. Средняя относительная величина этого отклонения определяется как «стандартная ошибка измерения» — Se. Величина ошибки измерения указывает на неточности или ненадежности тестовой шкалы.

    Исследуем формулу, где ошибка измерения – Se, надежность измерения – R. Формула

    [15]

    где Sx — дисперсия тестовых показателей X.

    В данном случае Se – неизвестная величина, поэтому по этой формуле подсчитать надежность теста нельзя.

    Для подсчета надежности применяют корреляционные методы.

    Нарпимер, метод перетестирования или «ретестовой надежности».

    Как он работает. Приведем пример.

    В тестировании участвуют 30 человек. Сначала проводят первое исследование X, а через 2 недели повторное исследование Y. Интервал в две недели нужен для забывания ответов на тестовые вопросы, и соответственно для чистоты эксперимента.

    Затем для двух рядов значений Х и Y подсчитывается, например, линейный коэффициент корреляции по формуле

    [15]

     — стандартные отклонения Х и Y,

    Cov (X,Y) — ковариация двух переменных Х и Y.

    Для исключения ошибки. Используется следующая формула

    [15]

    Далее высчитывается стандартное отклонение в тесте и сравнивается с корреляцией ретеста. По результатам выделяется ошибка измерения и делается вывод о надежности теста.

    Валидность теста.  Валидность предназначена для измерения принадлежности теста к измерению главного измеряемого свойства. Чем больше на результат выполнения влияет измеряемое свойство, тем тест валиднее.

    Существуют следующие виды валидности теста.[17]

    • Очевидная валидность.
    • Конкретная валидность (конвергентная – дивергентная валидность).
    • Прогностическая валидность.
    • Содержательная валидность.
    • Конструктная валидность.

    При очевидной валидности, у испытуемого складывается впечатление, что он измеряет то, что должен измерять.

    Конкретная валидность характеризуется тестами, которые сходны с тестами, измеряющими похожие свойства.

    Прогностическая валидность. Тест должен соответствовать отдаленным по времени внешними критериями.

    При содержательной валидности тест должен охватывать всю область изучаемого поведения.

    Конструктная валидность предполагает полное описание измеряемой переменной, выдвижение системы гипотез о связях ее с другими переменными, научное экспериментальное подтверждение этих гипотез.

    Для установления «внутренней » валидности теста нужно применить метод факторного анализа. Факторный анализ, позволяет проанализировать структуру связей показателей исследуемого теста с другими известными и скрытыми факторами, выявить общие и специфические для группы сопоставляемых тестов факторы, степень их представленности в результатах, т. е. определить факторный состав и факторные нагрузки результата теста.[17]

    В научных исследованиях для определении валидности используют специальные лабораторные исследования. Они трудоемки.

    На практике очень часто в качестве критерия валидности используются прагматические критерии. К ним относятся показатели эффективности той деятельности, для которой осуществляется тестирование.

    Очень часто в качестве критерия валидности используется экспертная оценка. Например, для того чтобы убедиться, что короткий тест на измерение уровня дисциплинированности валиден, проводится опрос учителей об уровне дисциплинированности. После этого сравниваются результаты теста и экспертный рейтинг учеников по дисциплинированности. Такой метод еще называют статистическим.

    После проведения теста производится расчет, например, простейшей корреляции между тестом и критерием.

    Таблица 1. Простейшая корреляция между тестом и критерием [18]

    Элемент «a» – это число испытуемых, попавших в высокую группу по тесту и по критерию

    элемент «b» – число испытуемых, попавших в высокую группу по тесту, но в низкую группу по критерию.

    При полной валидности теста «b» и «с» должны быть равны 0. Таким образом тест не должен выдавать ошибки.[19]

    Математическое выражение критерия валидности (коэффициент Гилфорда)

    Меру совпадения между крайними группами по тесту и по критерию оценивают с помощью самого простого Фи-коэффициента Гилфорда:

    [19]

    Значимость фи-коэффициента определяется с помощью критерия .[19]

    Если вычисленное значение меньше табличного с одной степенью свободы, пункт признается неустойчивым.

    Использование фи-коэффициента удобно потому, что он одновременно оценивает степень оптимальности данного пункта теста по силе вопроса или трудности задания.

    Определение прогностической валидности осуществляется только крупным научно-методическим центрам. К исследованию привлекают более 300 человек.

    Стандартизация теста заключается в приведении процедуры оценок к общепринятым нормативам. Стандартизация приводит тестовые нормы, в систему шкал с характеристиками распределения тестового балла для различных тестов.

    Линейная стандартизация тестового балла производится по формуле

    [19]

    где Z — стандартный балл на стандартной шкале Z с центром 0 и отклонением 1,

    Х — сырой балл по тесту,

    Х — средний балл по выборке стандартизации,

    S — стандартное отклонение по выборке стандартизации.

    После получения стандартного балла Z можно перевести тестовый балл в любую стандартную тестовую шкалу, принятую в психодиагностике.

    В качестве примера приведем методику исследования ценностных ориентаций дошкольников Валявко С.М. и Аверьяновой Е.В.

    2.1. Краткая характеристика сконструированной методики исследования ценностных ориентаций дошкольников Валявко С.М. и Аверьяновой Е.В.

    На кафедре специальной и клинической психологии ИПССО ГБОУ ВПО МГПУ под руководством кандидата психологических наук, доцента Валявко С.М. была сконструирована методика исследования ценностных ориентаций дошкольников. Были протестированы дети с нормативным и нарушенным речевым развитием. Данный тест относится к группе проективных тестов.

    По данной методике, ребенок должен отвечать на задаваемые вопросы доступным ему способом. Это может быть ответ жестом, при помощи одного слова, словосочетанием, предложением. В данной методике используется предъявление фотографических изображений хорошо знакомых современным дошкольникам предметов, что соответствует особенностям восприятия детей.

    В результате работы был отобран перечень ценностей старших дошкольников, состоящий из 18 позиций. Из них, в результате наблюдения, бесед с детьми и родителями, а также проведения «мозгового штурма» с участием воспитателей, учителей-логопедов и психологов были выбраны те, которые наиболее актуальны для современных детей дошкольного возраста. Было решено сократить набор до 10 предметов, показывающих основные ценности дошкольника: игра, здоровье, общение, получение удовольствия, духовно-нравственные и познавательные ценности. Были использованы наиболее популярные на момент исследования среди детей дошкольного возраста игрушки, диски и книги. Затем предлагался расширенный набор из этих предметов детям для узнавания, оценки и называния. Экспертное оценивание выбранных предметов подтвердило, что они соответствуют ценностям, которые были включены в предложенный перечень.

    Далее были сделаны фотографии отобранных предметов. Фотографии были обработаны, как принято в стандартизированных тестах, например, Векслера, и представлены в черно-белом варианте. Это сделано для недопустимости воздействия на испытуемого художественным образом или цветом. Потом фотографии распечатали в двух форматах – 10 х 15 и 15 х 20 на матовой бумаге, и были показаны детям. Было решено остановиться на на формате 15 х 20. В окончательном варианте все объекты были расположены на плоскости в горизонтальном положении. Следует отметить, что после каждого вносимого изменения проводилась апробация методики. Сконструированная методика получила название исследование ценностных ориентаций детей и прошла первое исследование, в котором приняла участие группа старших дошкольников. Результаты апробации оказались удовлетворительными. Авторы предлагаемой диагностической методики предлагают использовать ее для исследования ценностных ориентаций детей с различными речевыми недостатками и трудностями в общении. А так же и для других возрастных групп.

    Для практического обзора приведем примеры апробации данной методики. Группа детей состояла из 284 дошкольников. Все они были обследованы психолого-медико-педагогической комиссией.

    Были сформированы четыре контрастные группы с различными диагнозами, что обусловливает диагностическую валидность оценки ценностных ориентаций, получаемой с помощью предложенной методики

    Проанализировав общие показатели рейтингов ценностных ориентаций старших дошкольников, был сделан вывод, что для всех исследуемых групп детей старшего дошкольного возраста характерна направленность на развлечения и получение удовольствия. Дети в первую очередь выбирали фотографии с изображением конфет и диска с мультфильмами.

    При использовании методики были выявлены существенные различия между детьми 5 и 7 лет в различных группах, а так же различия в ценностных ориентациях между мальчиками и девочками. Автор методики показывает, что это свидетельствует о диагностической (конкурентной) валидности предложенной методики. [11]

    При проведении исследования дети, выбирая фотографии, непротиворечиво объясняли свой выбор. Следовательно, говорит автор, можно говорить о содержательной валидности предлагаемого инструментария.[11]

    Далее было сравнение результатов с проведенным позднее тестом, через 6 мес. При сравнении были обнаружены совпадения, что свидетельствует в пользу ретестовой надежности. По мнению авторов, «Установление прогностической валидности, …, элиминируется пониманием ценностных ориентаций как динамических личностных конструктов, зависящих от возраста.»[11]

    Для подтверждения результативности теста используют критерии надежности, валидности и стандартизации. Данные критерии обязаны проходить каждые методики психологического тестирования.

    Заключение

    Основателем метода тестирования считается французский психолог Бине. С момента возникновения и до сегодняшного периода происходит развитие метода тестирования. Данный метод применяется практически во всех сферах деятельности: в производстве, в военном деле, в обучении. Очень популярны всевозможные личностные опросники.

    Согласно классификации С. Розенцвейга, методы психодиагностики делятся на три группы: субъективные, объективные и проективные.

    Для субъективных психодиагностических методик информация получается на основе самооценок исследуемым своего поведения и личностных особенностей.  Для таких методик характерно употребление тестов опросников и анкет.

    В интерпретации объективных тестов определяется на основании информации об особенностях выполнения деятельности и ее результативности. Эти показатели зависят от представлений испытуемого о себе и от мнения лица, проводящего тестирование и интерпретацию. В этом их отличие от субъективных и проективных тестов. Сюда относятся тесты личности, интеллекта и прочие.

    В отдельную категорию выделяют проективные тесты. Здесь получение информации основано на анализе особенностей действий испытуемого с внешне нейтральным материалом, который становится объектом проекции.

    Во 2 главе дается характеристика основных критериев оценки теста. К ним относятся стандартизация, надежность и валидность. В качестве примера рассмотрена сконструированная методика исследования ценностных ориентаций дошкольников Валявко С.М. и Аверьяновой Е.В.

    Список использованных источников
    1. Анастази А. Психологическое тестирование Книга 1. – М.: «Педагогика», 1982
    2. Акимова М.К. Психологическая диагностика – СПб: Издательство: Питер, 2005
    3. Белова О.В. Общая диагностика. Методические указания. – Новосибирск: Научно-учебный центр психологии НГУ, 1996
    4. Бурлачук Л. Ф., Морозов С. М. Словарь — справочник по психодиагностике – СПб: Издательство: Питер Ком, 2002
    5. Василюк Ф. Е.. Методологический анализ в психологии. — М.: МГППУ; Смысл, 2003
    6. Глуханюк Н.С. Практикум по психодиагностике. Учебное пособие. – М., 2009
    7. Гуревич К. М., Борисова Е. М.. Психологическая диагностика: Учебное пособие. — М.: Изд-во УРАО.,2000
    8. Демина Л.Д., Ральникова И.А.. Психическое здоровье и защитные механизмы личности – М.,2000
    9. Загвязинский В. И., Атаханов Р.. Методология и методы психолого-педагогического исследования. — М.: Издательский центр «Академия»., 2000
    10. Кирьянова Р. А. Комплексная диагностика и ее использование учителем-логопедом в коррекционной работе с детьми 5-6 лет, имеющими тяжелые нарушения речи. — СПб.: «Каро», 2002
    11. Методика исследования ценностных ориентаций дошкольников: опыт конструирования — Экспериментальная психология — 2012. Том. 5, № 2
    12. Немов Р. С. Психология. В 3-х кн. М.: «Гуманитарный издательский центр ВЛАДОС», 2000
    13. Образцов П. И.. Методы и методология психолого-педагогического исследования. — СПб.: Питер, 2004
    14. Общая психология./Под ред. Петровского А. В. — М.: «Просвещение», 1976
    15. Основы психодиагностики./Под ред. Шмелева А. Г. Ростов-на-Дону: «Феникс», 1996
    16. Платонов К. К. Краткий словарь системы психологических понятий. М.: «Высшая школа», 1981
    17. Психологические тесты./Под ред. Карелина А. А. В 2 кн., М.: «Гуманитарный издательский центр ВЛАДОС», 2002
    18. Райгородский Д. Я. Практическая психодиагностика. Методики и тесты. Учебное пособие.—Самара: Издательский Дом «БАХРАХ-М», 2001
    19. Рогов Е. И. Настольная книга практического психолога. В 2 кн. — М.: «ВЛАДОС – ПРЕСС», 2002
    20. Столяренко Л. Д. Основы психологии. — Ростов-на-Дону: «Феникс», 1997
    21. Циркин С. Ю. Справочник по психологии и психиатрии детского и подросткового возраста. — СПб.: «Питер», 2000

    Приложение

    Приложение 1

    Схема психодиагностического метода

    113297 (Особенности тестирования учащихся) — документ

    Введение

    Тест — в общенаучном смысле это краткое стандартизованное испытание, направленное на получение в сжатый отрезок времени наиболее существенной информации о признаках данного конкретного объекта с целью установления у него наличия или степени выраженности определенного свойства или качества. Тесты бывают не только психологические. Свойства человека подвергаются тестированию в медицине, педагогике, в определенных областях профессиональной деятельности. В этих случаях говорят соответственно о медицинских, ПЕДАГОГИЧЕСКИХ, ПРОФЕССИОНАЛЬНЫХ тестах. Тестированию может подвергаться не только человек, а также, например, и техническое устройство. В этом случае говорят о техническом тесте. В ПСИХОДИАГНОСТИКЕ используется частная разновидность тестов — ПСИХОЛОГИЧЕСКИЕ ТЕСТЫ. ПРЕДМЕТОМ психологического тестирования являются ПСИХИЧЕСКИЕ СВОЙСТВА, a ОБЪЕКТОМ — носитель психических свойств — человек.

    Вопросы интерпретации смысла терминов

    Определенное содержание означает использование в тесте только такого контрольного материала, который соответствует содержанию учебного курса; остальное содержание в педагогический тест не включается ни под каким предлогом.

    Содержание теста проходит экспертизу у опытных педагогов, которые призваны дать ответ на главный вопрос — можно ли с помощью предложенных заданий корректно оценить содержание, уровень и структуру знаний у данного контингента испытуемых? При оценке содержания теста всегда возникают вопросы о цели теста, его содержания и качества. Анализ содержания заданий, а, следовательно, и теста в целом, позволяет определить знания, умения, навыки и представления, требуемые для правильного выполнения задания. При применении заданий в тестовой форме для аттестации выпускников образовательных учреждений важно иметь такие задания, которые позволяют делать вывод о минимально допустимой компетентности выпускников[24]. Принципы и другие вопросы содержания теста рассматривались в главе «Содержание теста и тестовых заданий».

    Трудность теста определяется суммарной трудностью заданий, его образующих. В легком тесте у большинства испытуемых будут высокие баллы, но это тот самый случай, когда цифры становятся обманчивыми, если не знать, как они получены. Здесь уместно напомнить самое короткое (и потому неточное, но удобное) определение педагогического теста — это система заданий возрастающей трудности.

    В ряде образовательных учреждениях из года в год снижается трудность экзаменационных заданий, потому что результаты работы педагогического коллектива нередко оцениваются по количеству отличных и прочих оценок. Но суть не в оценках, а в содержании и уровне трудности заданий, по которым эти оценки получены. Поэтому органы управления образованием пытаются установить образовательные стандарты и проводить уровневый контроль, ниже которых опускаться нельзя.

    Качество педагогического и любого другого теста традиционно сводится к определению меры надежности и валидности полученных результатов[25]. Как и объективным, качественным можно назвать только тот метод измерения, который обоснован научно и способен дать требуемые результаты. В западной литературе традиционно рассматривается два основных критерия качества: валидность и надежность.

    Валидность означает пригодность тестовых результатов для той цели, ради чего проводилось тестирование. Самая главная угроза для снижения валидности результатов – это формулирование двух и более целей применения какого-либо метода оценки уровня подготовленности испытуемых. Тезис …никогда не следует использовать системы оценивания, разработанные в одних целях, для других целей; невозможо эффективно достичь сразу двух целей[26] прямо относится к анонимным авторам некачественного ЕГЭ. [27]

    Валидность зависит от качества заданий, их числа, от степени полноты и глубины охвата содержания учебной дисциплины (по темам) в заданиях теста. Кроме того, валидность результатов зависит также от баланса и распределения заданий по трудности, от метода отбора заданий в тест из общего банка заданий, от интерпретации тестовых результатов, от организации сбора данных, от подбора выборочной совокупности испытуемых.

    Объективность педагогического измерения означает не столько абсолютное достижение этой цели, что желательно, но невозможно, сколько установку тестологов на максимальную объективность процесса создания и применения тестов. Объективности способствуют одинаковые инструкции для всех испытуемых, одинаковая система оценки результатов тестирования, автоматизированный подсчет баллов испытуемых и все остальное, повышающее качество тестирования.

    Условиями повышения объективности тестирования является повышение уровня научной обоснованности как самих тестов, так и методов их разработки, использование современной техники хранения и передачи тестовых материалов, защита информации от недозволенного доступа, последовательная работа по устранению возможностей намеренного искажения результатов и других компонентов тестового процесса. Определение статистических характеристик является главным (после экспертной проверки содержания) средством диагностики качества теста по любой учебной дисциплине.

    Принцип параллельности заданий. Параллельными называется задания, которые основаны на принципе вариативности и однородности, но, кроме того, имеют примерно одинаковую эмпирическую меру трудности всех вариантов задания и коррелируемые результаты. Из данного определения видно, второй принцип вытекает из принципа вариативности и однородности заданий, но по смыслу он шире, включает в себя формальные критерии и опирается на эмпирические данные результатов испытуемых. Различен и статус этих принципов. Первый и все остальные принципы являются по большей части логическими и содержательно-методическими, в то время как принцип параллельности заданий является общетеоретическим, опирающимся на статистику, а потому используется во всех формальных теориях педагогических измерений. Надо подчеркнуть, что параллельность по содержанию является только одним из необходимых условий параллельности тестовых заданий.

    Идея разработки и существования параллельных вариантов тестовых заданий является фундаментальной для теоретически подготовленных разработчиков тестов, тех, кто знает так называемую классическую (статистическую) теорию тестов[28]. Только непониманием важности такого подхода можно объяснить тексты некоторых авторов о преимуществах «современной» математической теории (Item Response Theory) перед другими теориями. На самом деле, ни статистическую, ни педагогическую теорию педагогических измерений[29], где изучаются вопросы содержания теста, не может заменить никакая математическая теория. Для педагогики и практики образования адекватной может быть только педагогическая теория измерений. Все остальные могут быть только дополнительными и сопутствующими. Отсюда легко понять неприемлемость претензий авторов математических теорий на лидерство в вопросах разработки педагогических тестов по различным учебным дисциплинам[30].

    В западной литературе часто ошибочно пишут о «параллельных тестах»; так же ошибочно это переводится и на русский язык. На самом деле тест создаётся один, а к нему делаются параллельные варианты каждого задания. Создание параллельных вариантов создаёт предпосылки для применения теоретически более существенных методом проверки надежности результатов теста. Надежность результатов теста – это мера точности или непогрешимости педагогических измерений.

    Не все вариативные задания могут соответствовать принципу параллельности содержания. Иначе говоря, вариативность есть необходимое и формальное, но не достаточное условие для возникновения феномена параллельности задания.

    Понятие «педагогический тест» можно рассматривать в двух главных смыслах.

    Во-первых, тест – это метод педагогического измерения; состоящий не из «некоторого», а точно определённого множества тестовых заданий возрастающей трудности, образующих систему. При этом сами задания теста должны отвечать требованиям формы и содержания, иметь соответствующую меру трудности и вариации, корреляцию, подходящий геометрический образ, быть частью содержательной и формальной системы. Несистемным заданиям в тесте места нет.

    В гомогенном педагогическом тесте не допускается использование заданий, выявляющих другие свойства. Наличие таких свойств нарушает требование предметной чистоты педагогического теста. Ведь каждый тест измеряет что-то заранее определенное. Например, тест по физике измеряет знания, умения, навыки и представления испытуемых в данной науке. Одна из трудностей такого измерения заключается в том, что физическое знание изрядно сопряжено с математическим. Поэтому в тесте по физике экспертно устанавливается уровень математических знаний, используемых при решении физических заданий. Превышение принятого уровня приводит к смещению результатов; по мере превышения последние все больше начинают зависеть не столько от знания физики, сколько от знания другой науки, математики. Другой важный аспект — стремление некоторых авторов включать в тесты не столько проверку знаний, сколько умение решать физические задачи, вовлекая, тем самым, интеллектуальный компонент в измерение физической подготовленности.

    Уже отмечалось, что в гомогенном педагогическом тесте задания располагаются в порядке возрастающей трудности — от самого легкого, до самого трудного. Иначе говоря, главным формальным[31] системообразующим признаком педагогического теста, после содержания и формы, является различие заданий по степени их трудности.

    Время нередко называется в качестве другого системообразующего фактора. Действительно, одно из соображений, положенных в основу создания тестов — иметь инструмент быстрого и относительно точного оценивания больших контингентов испытуемых. Требование экономии времени становится естественным в массовых процессах, каковым и стало образование. Одно из актуальных направлений современной организации тестового педагогического контроля — это индивидуализация контроля, приводящая к значительной экономии времени тестирования. Контроль ведется с помощью заранее шкалированных, по трудности, заданий[32]. Предельное время тестирования по одному настоящему тесту не может превышать сорока минут.

    Другая сторона вопроса заключается в том, что от времени тестирования существенно зависит качество результатов. Каждый тест имеет оптимальное время тестирования, уменьшение или превышение которого снижает качественные показатели теста. Оптимальное время тестирования определяется эмпирически, по показателю дисперсии тестовых данных. Если по оси абсцисс отложить время тестирования, а по оси ординат — значение дисперсии тестовых результатов, получаемое после каждого пробного контроля, то, соединив точки, получим представление об изменении дисперсии; максимум значения последней укажет на оптимум времени, необходимого для тестового контроля.

    Со временем тестирования связан и вопрос о количестве заданий теста. В классической теории теста исходили из физической, по сути, идеи увеличения точности в зависимости от числа заданий: чем больше, тем точнее. Однако эта идея входила в противоречие с реальными возможностями учебного процесса, с естественным нежеланием студентов отвечать на большое количество заданий. Поэтому время тестирования ограничивается, исходя из фактических соображений удобства тестирования и идеи достаточной дифференциации студентов, показателем чего является дисперсия тестовых баллов.

    Этапы разработки педагогических тестов

    Принцип системности предполагает последовательную организацию всей работы по созданию тестов. При этом может оказаться полезной уточнённая концепция автора поэтапного становления тестового педагогического процесса. В прежних вариантах было три[46] и четыре этапа[47]: 1) формулирование целей и задач, разработка концепции теста, создание заданий в тестовой форме; 2) разработка тестовых заданий; 3) композиция теста, как системы; 4) использование математических моделей измерения.

    Теперь число этапов представляется полезным расширить до пяти.

    Ввиду особой важности композиции заданий в тестовой форме эту часть работы целесообразно выделить в качестве отдельного, второго этапа.

    Разработка тестовых заданий переходит на третий этап, где главное — применение математико-статистических пакетов и моделей математического измерения.

    На четвёртом этапе создаются тесты, определяется их качество и эффективность. Наличие достаточного числа тестовых заданий позволяет перейти к разработке теста как системы, обладающей целостностью, составом и структурой.

    На пятом этапе проводится шкалирование заданий по уровню их трудности и дифференцирующей способности, а также шкалирование испытуемых по уровню их подготовленности Для этой цели рекомендуется использование двух основных статистических пакетов: Winsteps и RUMM-2020. Обе они позволяют получить измерения на одной и той же интервальной шкале натуральных логарифмов.

    В существующих условиях современному человеку необходимо обладать высоким профессионализмом, а так же иметь достаточный интеллект, чтобы принимать правильные решения в различных жизненных ситуациях, в усложнившихся социально-экономических процессах, в разрастающихся информационных потоках. Все это обуславливает высокие требования к выпускникам образовательных учреждений. Важнейшим показателем качества образования является объективная оценка учебных достижений учащихся. Этот показатель важен как для всей системы образования, так и для каждого отдельного ученика.

    Проблема качества педагогических измерений | VIPERSON

    Вадим Аванесов

    [email protected]

    Опубликовано в журнале «Педагогические Измерения» № 2, 2004 г.

    Проблему качества относят к числу фундаментальных, ввиду её погруженности в глубины науки. При измерении исследователи используют методы концептуализации интересующего свойства и операционализации основного понятия, определяют постулаты, аксиомы и формализмы, выдвигают и проверяют гипотезы, разрабатывают модели измерения и определяют правила научной интерпретации получаемых результатов. В отличие от педагогики и других наук, в педагогических измерениях заложена обязательность рефлексивной оценки получаемых результатов. А потому измерение, не содержащее в себе рефлексии относительно собственного качества, не есть измерение в строгом смысле этого понятия. Без оценок качества научный статус самих измерений являются весьма сомнительным.

    Понятие «качество измерения» относится больше к философии, чем к традиционной педагогике. Качество является традиционной философской категорией, рассматриваемой обычно в паре с другой сопряженной категорией – «количество». Гегель определял качество как тождественную с бытием определенность предмета. Последний перестаёт быть таковым, если теряет своё качество. Поэтому качеством называют существенную определенность каждого предмета, что выражается в закономерной связи частей и свойств этого предмета.

    Выделяется три главных признака качества. Во-первых, качество — это определенность; во вторых — это определенность, тождественная с бытием, неотъемлемая от существования объекта; в-третьих, эта определенность является внешней, в силу чего она представляет собой границу, выделяющую данный материальный объект среди других, порождающую его своеобразие, специфику, индивидуальность.

    Естественно, что к педагогике ближе понятие «качество педагогических измерений». Главным средством педагогического измерения является тест, а основной частью теста является тестовое задание. Тестовые задания отбирают из подходящих заданий в тестовой форме. Качество педагогических измерений — явление многомерное, а потому представляет собой комплексную проблему. Оно зависит от концептуализации измеряемого качества (свойства), от правильности основного понятия, поставленного в соответствие измеряемому свойству личности, от системы понятийных и эмпирических индикаторов интересующего свойства, от используемых аксиом, теорий и формализмов, а также от принимаемых критериев качества педагогических измерений.

    К настоящему времени только в отношении тестов утвердилась рефлексивная норма обязательной проверки их качества. Это, пожалуй, самое существенное требование, выгодно отличающие измерения от остальных методов педагогического контроля. При формальном оценивании главным становится не работа, а несовершенные показатели работы. Подмена такого рода приводит к работе на показатель, к его овеществлению, реификации.

    Качество педагогических измерений можно определить как меру соответствия получаемых результатов заранее сформулированным целям. В западной теории педагогических измерений сложились два основных требования – это так называемые надежность и валидность.

     

    1. Определение. Педагогическое измерение представляет собой процесс количественного сопоставления изучаемого свойства личности с некоторым эталоном, принимаемым за единицу измерения. Из этого определения можно вывести, что основная цель измерения в педагогике — это получение численных эквивалентов проявления интересующего признака. При педагогическом измерении свойство фиксируется в виде содержания понятия, например, знание учебной дисциплины.

    Измерения проводятся посредством различных шкал, тестов и других методов. Объектом измерения являются конкретные носители интересующих свойств – студенты и другие испытуемые. Получаемые при измерении числа позволяют глубже проникнуть в суть изучаемых явлений, что особенно важно для научно — обоснованной постановки тестового контроля.

    Предметом педагогических измерений часто бывает подготовленность испытуемых, которая представляет собой единство знаний, умений, навыков, представлений. К подготовленности можно отнести и чрезмерно используемое сейчас понятие «компетентность», представляющую собой прагматическую, или утилитарную, проекцию общего содержания образования личности.

    Основной предмет педагогических измерений – разработка качественных тестов для измерения уровня подготовленности учащихся. В наши дни такие тесты используются не только для измерения уровня подготовленности, но и для проведения рейтинга студентов, мониторинга учебного процесса, для организации адаптивного обучения и адаптивного тестового контроля, дистанционного образования: в общем, тесты используются во всех современных образовательных технологиях.

    Актуальность тестового метода объясняется его несомненными преимуществами перед другими педагогическими методами. Здесь выделено пять основных преимуществ:

    1) высокая научная обоснованность самого теста, позволяющая получать объективированные оценки уровня подготовленности испытуемых;

    2) технологичность тестовых методов;

    3) точность измерений;

    4) наличие одинаковых, для всех пользователей, правил проведения педагогического контроля и адекватной интерпретации тестовых результатов;

    5) сочетаемость тестовой технологии с другими современными образовательными технологиями.

    По критерию «содержание» можно выделить три вида педагогических тестов:

    Гомогенный тест измеряет знание по одной учебной дисциплине. Задания такого теста охватывают содержание только этой дисциплины.

    Гетерогенный включает в себя несколько гомогенных тестов (иногда говорят шкал). Содержание гетерогенного теста охватывает содержание нескольких дисциплин.

    Интегративный тест состоит из таких заданий, что ответы на каждое из них требует знания нескольких учебных дисциплин. Таким образом, содержание интегративного теста охватывает содержание нескольких учебных дисциплин. В процессе итоговой аттестации выпускников образовательных учреждений лучше было бы использовать интегративные тесты. Но таких тестов пока нет, либо о них нет информации.

     

    2. Структура. Структура педагогических измерений представлена на рис.1.

    Рис.1

    Из рисунка видно, что в педагогические измерения входят тестирование, рейтинг и мониторинг, в той части последнего, которая касается разработки показателей. Общая же часть мониторинга относится к сфере управления образованием. Основным видом педагогических измерений и понятием является тест. Другие основные понятия – задания в тестовой форме и тестовое задание.

    3. Латентность. Педагогические измерения осложняются тем, что интересующие свойства даны не явно. Эти свойства считаются латентными, т.е. скрытыми от прямого наблюдения, а потому они недоступны для прямого, непосредственного измерения. Латентными называются положительные и отрицательные свойства личности, не поддающиеся непосредственному измерению. Примерами являются «подготовленность студентов», «знание учебной дисциплины», «способность понимать» «интеллектуальное развитие» и многое другое. Попытки измерения подобных качеств на уровне обыденного сознания оканчиваются словесными или численными оценками, содержащими в себе немалые погрешности.

    Если сравнить ситуацию педагогического измерения знаний и физического объекта, например, длины стола, то данная ситуация заметно выигрышнее для проведения физического измерения. Там явно выделен объект измерения – стол, предмет или интересующий признак – длина, есть некий инструмент – рулетка, с нанесёнными на неё значениями интервальной шкалы. И, наконец, есть общепринятые правила проведения такого измерения.

     

    4. Индикаторы. Подготовленность приходится измерять косвенно, через эмпирически фиксируемые проявления признаков (индикаторов) знания. Поэтому каждое задание теста желательно рассматривать как индикатор, выявляющий какой-то один фрагмент знаний у тех испытуемых, у которых такие знания есть.

    Сколько индикаторов (заданий) нужно иметь в одном тесте? Здравый смысл подсказывает, что судить о знаниях всего проверяемого материала по ответу только на одно задание довольно опрометчиво, хотя в каждой учебной дисциплине есть задания, правильные ответы на которые говорят о многом.

    Устойчивые выводы лучше делать по результатам применения достаточного числа эмпирических индикаторов, обычно от двадцати до сорока. Индикаторы, сведенные в одну систему, образуют тест.

     

    5. Концептуализация. В самом начале педагогических измерений нет ни предмета, ни метода, ни правил измерения и интерпретации. Поэтому педагогическое измерение начинается с концептуализации. Вначале делаются предположения относительно предмета измерения. Например, что такое знания учащихся или студентов, из чего они состоят, можно ли найти показатели наличия или отсутствия знаний, каковы эти показатели, хорошо ли они указывают на меру знаний? В процессе концептуализации самой существенной частью является идея латентности интересующего признака.

    Первым шагом в поисках ответов на эти и другие подобные вопросы является процесс концептуализации измеряемого свойства. В педагогических измерениях это обычно знания, умения, навыки и представления. В последние годы много говорят об измерении компетентности, или различных компетенций, однако, похоже, что до реальных измерений уровня компетентности дело пока что не дошло. Причиной такого положения стало отсутствие общепринятого понимания — что такое компетентность, является ли это устойчивым свойством личности, можно ли компетентность измерять, или хватает каких-либо элементарных показателей или оценок?

    Как уже отмечалось, в отличие от элементарных оценок и некоторых простых физических измерений, педагогические измерения требуют определения ведущего понятия, уточнения имени измеряемого качества, определения предмета измерения. Важно построить систему индикаторов, понятийных и эмпирических, указывающих на наличие или отсутствие интересующего качества. Важная часть процесса концептуализации – определение возможного источника погрешностей измерения.

     

    6. Операционализация. Операционализация понятия есть его идентифицированность с совокупностью конкретных эмпирических действий — операций, синонимичных содержанию понятия. В операциональных понятиях подготовленность по учебной дисциплине выражается правилами измерения, с перечислением конкретных элементов (например, должен знать принципы, формы, методы, определенные формулы, уметь их применять и т.д.). Именно отсюда возникает прагматическое определение знания предмета — когда студент отвечает правильно на такие-то задания, таких-то разделов учебной дисциплины.

    Процесс операционализации понятий нужен, когда возникает задача измерения неявно определяемого свойства. Использование операциональных понятий оказывается правильным там, где они занимают свое место в общей системе понятий изучаемого предмета, и неправильным, где они абсолютизируются и применяются вместо специально-научных, общих и философских понятий.

    Операционализация позволяет расчленить, уточнить и детализировать основное понятие, поставить ему в соответствие некоторый набор понятийных и эмпирических индикаторов. Структурирование последних методами, например, факторного анализа, позволяет получить новую эмпирическую структуру понятия, обычно не совпадающую с исходной, концептуальной. В таких случаях рассматривается степень их совпадения – несовпадения, состав эмпирических индикаторов, особенности того или иного метода факторного анализа. Если большинство концептуально выделенных индикаторов образует фактор — понятие, то результат рассматривается как успешный для проверки выдвинутой концепции знания.

    Операциональные определения обеспечивают правильный переход от теоретического уровня исследования к эмпирическому уровню. Основными элементами перехода выступают понятийные индикаторы различного уровня общности. Так, основному понятию ставится в логическое соответствие некоторое небольшое (обычно не более пяти-шести) число частных понятий, становящихся понятийными индикаторами первой ступени. Затем этим индикаторам ставятся в соответствие еще более частные понятия, которые становятся индикаторами второй и т.д. ступени, вплоть до эмпирических индикаторов, соответствие которых основному понятию проверяется эмпирически. Применительно к педагогическим измерениям в качестве эмпирических индикаторов обычно выступают задания, подобранные с целью проверить знания по какой-либо учебной дисциплине.

     

    7. Принципы организации педагогических измерений. Принципы — это основные требования, которыми специалисты по педагогическим измерениям руководствуются в своей деятельности. В педагогическую теорию и практику принципы вводятся как совокупность исходных правил, способствующих эффективности учебного процесса. Помимо известных в литературе общих принципов обучения и воспитания, представлены следующие принципы:

    Принцип связи педагогических измерений с целями образования и обучения. Он признан ассоциацией директоров американских школ, считающих, что обучение без последующего применения тестовых форм немыслимо; только по итогам измерения можно знать — что достигнуто, и в каком направлении дальше следует двигаться. Формулирование целей тестирования должно отвечать критериям социальной полезности и значимости, научной корректности и общественной поддержки.

    Принцип объективности измерений нацеливает на устранение субъективизма и предвзятости. Сейчас часто применяется традиционный метод оценивания — формирование коллегиальной оценки, для чего создаются комиссии, что является неточным, нетехнологичным, дорогостоящим, а потому тупиковым методом. Получаемые при этом оценки нередко называются объективными, хотя они продолжают оставаться субъективными, а точнее, интерсубъективными. Второй путь повышения объективности — это использование стандартных тестовых программ и технических средств, что позволяет добиться точности измерения и адекватности цели;

    Принцип справедливости и гласности измерений означает одинаково доброжелательное отношение ко всем, без исключения тестируемым, открытость всех этапов процесса, своевременность ознакомления с результатами тестирования.

    Все испытуемые выполняют задания сходного содержания, из одних и тех же укрупненных дидактических единиц. Даются задания одинаковой трудности, в одинаковое время, с одинаковыми правилами оценивания. Никому не позволяется списывать. Гласность означает возможность контроля со стороны общественных и профессиональных организаций. Содержание теста соответствуют объявленной цели тестирования.

    Принцип научности и эффективности предписывает необходимость проверки содержания и правильности формы тестов, что выполняется независимыми общественными ассоциациями педагогов по учебным дисциплинам. Особое значение для повышения качества контроля имеет методология и теория.

    Методология педагогических измерений определяется как учение об основных положениях, формах, методах, принципах научного исследования и эффективной организации практики применения, главным образом, тестов. В круг основных методологических проблем входят формулирование главных идей, целей и задач, определение содержания, сущности и принципов педагогического измерения. Наиболее эффективный путь влияния методологии на практику — через разработку теории научной организации измерений.

    Принцип систематичности. Относится к организации учебного тестирования, осуществляемого для улучшения знаний по результатам самопроверки — самой гуманной формы контроля. Самопроверке планомерно подвергаются знания каждого учебного модуля, раздела, каждой темы. Тем самым систематически формируется рефлексия относительно изученного и недоученного знания. Этим принципом подчеркивается необходимость согласования целей и результатов текущего, рубежного, тематического и итогового измерения (или оценивания), регулярности этой работы. Всесторонность акцентирует внимание на необходимости репрезентативного представления содержания учебного курса в содержании теста.

    Принцип гуманности и этичности педагогических измерений означает, что этим исключается нанесение какого-либо вреда развитию личности. Не допускается ущемление по национальному, этническому, материальному, расовому, территориальному, культурному и другим признакам.

    Тестирование может быть только добровольным. Различные опыты и эксперименты на детях и гражданах запрещены ст. 21, ч.2 Конституции РФ. При добровольном тестировании всем испытуемым требуются одинаковые инструкции, задания, условия, правила интерпретации и оценивания результатов, одинаковое время, недопустимость списывания и других форм нарушения. Эти и другие требования этического характера относятся к словосочетанию “Test Fairness”, что регулируется на Западе профессиональными стандартами.

     

    8. Исходные постулаты педагогической теории измерений. Уже со времён Гельмгольца сложилась традиция рассмотрения любого измерения вместе с вопросами оценки допускаемых при этом погрешностей. Постепенно сложился и был принят так называемый постулат о неизбежной погрешности любого измерения, который гласит: результат эксперимента — пишет Л. Яноши, — всегда содержит ошибку, как бы тщательно ни проводились измерения». По мнению В. М. Свириденко, этот постулат может рассматриваться как выражение эмпирического факта. Что необходимо приводит к другому исходному положению теории измерений, а именно: к тезису о невозможности знания абсолютного значения измеряемой величины.

    Постулат и тезис объясняют — почему проблему качества педагогического измерения естественным образом стали рассматривать в тесной связи с вопросами оценки погрешностей. Обычно принимается общее концептуальное утверждение: чем больше ошибок в проводимых измерениях, тем хуже качество самих измерений. И с этим согласны многие, если не все. Однако в практике педагогических измерений возникает много спорных вопросов о природе ошибок, возможности их фиксации и коррекции, особенно если это касается так называемых систематических ошибок измерения. Например, в физических измерениях для систематических ошибок сложилась практика внесения поправок. Поправки иногда применяются и в педагогических измерениях, что делается при сравнении результатов испытуемых, полученных одним тестом, в группах с различными уровнями подготовленности. Тем не менее, теория педагогических измерений имеет дело, в основном, со случайными ошибками измерения. При этом большую роль играют суждения относительно того — что считать ошибками измерения, как фиксировать последние, как связаны ошибки измерения с истинными значениями тестовых баллов?

    Для педагогической теории измерений можно определить следующую систему исходных постулатов:

    1) тест создаётся для получения результатов, помогающих развитию личности, практике образования и науке;

    2) из множества возможных форм исследованы и признаны тестовыми всего четыре формы заданий. Каждая форма может иметь варианты. Например, в заданиях с выбором одного или нескольких правильных ответов определены три варианта: задания с выбором одного правильного ответа, с выбором одного наиболее правильного ответа и задания с выбором нескольких правильных ответов. Третий вариант наиболее предпочтителен. Каждой форме и каждому варианту предшествует своя инструкция для испытуемых. Каждая инструкция задаёт испытуемым точно определённый вид деятельности.

    3) в отличие от смысла элементарного перевода слова «тест», в образовании тест означает метод, результат и интерпретацию результатов педагогического измерения;

    4) главные критерии качества тестов – это точность результатов измерения и адекватность интерпретации результатов в соответствии с целью.

     

    9. Аксиомы и формализмы. Для достижения качества педагогических измерений требуется аксиоматика (система аксиом). Аксиомы – первоначальные утверждения теории, которые принимаются без доказательств. Для педагогической теории измерения можно предложить следующую систему аксиом:

    1) устойчивого существования интересующего качества, признака, свойства или характеристики личности, в виде латентной переменной величины;

    2) представления интересующего свойства как непрерывно измеряемой латентной величины. Как считал великий математик Л. Эйлер, понятие «величина охватывает всё то, что изменяется и может быть измерено»;

    3) существования истинного значения интересующего качества у каждого испытуемого. Измеряемая величина предполагается варьирующей на множестве испытуемых;

    4) существования положительной связи между наблюдаемыми результатами испытуемых и уровнем развития латентного качества. Результат испытуемого при ответе на каждое задание теста рассматривается как вероятностная функция от уровня латентного качества; чем чаще, количественно, у испытуемых, проявляется интересующее качество, тем определённее выражено измеряемое качество личности.

    5) аксиома неизбежной погрешности измерения, в соответствии с которым измеряемое значение (X) не равно истинному (T): X предполагается отягощенным некоторой погрешностью. Таким образом, , откуда следует, что у каждого испытуемого i   

        Xi = Ti + Ei (1)

    где Ei — некоторая случайная ошибка измерения, состоящая из суммы возможных ошибок различного происхождения, значения и знака.

    В реальном процессе педагогического измерения каждый испытуемый имеет свои значения Хi, Тi, и Еi. Значения Хi рассматриваются как функция от истинного уровня подготовленности (Тi) и от значений ошибок измерения (Ei). Каждый из компонентов последнего равенства варьирует на множестве испытуемых.

    Операция суммирования в формуле (1), справа и слева, дает

    . Деление на N приводит к равенству:

    6) Аксиома о случайных погрешностях измерений, распределяемых по нормальному закону.

    7) Аксиома независимости (некоррелируемости) истинных и ошибочных компонентов измерений. Этой аксиоме ставится в соответствие следующий формализм: вычитание из равенства Xi = Ti + Ei соответствующих средних арифметических, т.е. дает значения отклонений от соответствующих средних арифметических

    (2)

    Возводя в квадрат члены равенства (2), слева и справа, и, затем, суммируя, имеем (3)

    Раскрывая скобки в (3), получаем

    (4)

    Деление на N дает

    (5)

    где — два значения ковариации истинных компонентов с ошибочными. Эта ковариация в теории тестов принимается равной нулю, вследствие чего это равенство принимает вид т.н. классического равенства (6), в котором дисперсия тестовых баллов принимается состоящей из двух компонентов:

    (6)

    8. Формализмы. Как вытекает из равенства [6] дисперсия тестовых баллов включает, аддитивно, два компонента: . Такому представлению ставятся в соответствие некоторые формализмы.

    Почленное деление выражения на даёт

    1 = + (7)

    После переноса влево получится

    1 — = (8)

    Концептуально надежность тестовых результатов равна правой части равенства [8]; а операционально это понятие выражается левой частью [8], потому

    rtx = 1 —     (9)

    что существует несколько простых методов, позволяющих оценить значение . Формула [9] в западной литературе названа классической, вероятно, ввиду её концептуальной простоты и широкой применимости в разработке тестов.

       

    10. Надежность. Раньше было принято писать и говорить о надежности тестов. Теперь в зарубежной литературе утвердилась другая норма: считается правильнее обсуждать вопрос не надежности тестов, а надежности тестовой информации (результатов). Этот поворот в истолковании объясняется новым пониманием вопросов соотношения метода, условий его применения и интерпретации получаемых данных. Свойства метода могут переноситься на свойства результатов, а могут, по разным причинам, и не переноситься.

    Формулы [8-9] дают концептуальное выражение общего понятия «надежность тестовых результатов». В каждом отдельном эмпирическом исследовании это общее понятие может быть выражено посредством различных смыслов и операций, в зависимости от интересующей концепции, от интерпретации общего понятия «надежность результатов» и главное – от источника возникновения случайных погрешностей измерения.

    Из соображений наглядности и доступности методы определения надёжности удобно показать на небольшом примере данных. Эти данные приведены в табл. 1. Первый столбец таблицы представляет номера испытуемых, с 1 по 13, из чего видно, что общее число испытуемых равно 13 (N =13). Вектор-столбцы Х1, Х2, Х3, …Х10 представляют ответы испытуемых по десяти заданиям. Таким образом, таблица 1 содержит результаты 13 испытуемых по 10 заданиям. 13 Х 10 = 130 упорядоченных по строкам и столбцам результатов образуют матрицу исходных данных, включенных в состав табл.1.

    Таблица тестовых результатов            Табл.1

    №№

    Х1

    Х2

    Х3

    Х4

    Х5

    Х6

    Х7

    Х8

    Х9

    Х10

    Хi

    Хi2

    1.

    1

    1

    1

    0

    1

    1

    1

    1

    1

    1

    9

    81

    2.

    1

    1

    0

    1

    1

    1

    1

    1

    1

    0

    8

    64

    3.

    1

    1

    1

    1

    0

    1

    1

    0

    1

    0

    7

    49

    4.

    1

    1

    1

    1

    0

    1

    0

    1

    0

    0

    6

    36

    5.

    1

    1

    1

    1

    1

    1

    0

    0

    0

    0

    6

    36

    6.

    1

    1

    1

    1

    0

    0

    1

    0

    0

    0

    5

    25

    7.

    1

    1

    0

    1

    1

    0

    1

    0

    0

    0

    5

    25

    8.

    1

    1

    1

    1

    1

    0

    0

    0

    0

    0

    5

    25

    9.

    1

    0

    1

    0

    1

    1

    0

    0

    0

    0

    4

    16

    10.

    0

    1

    1

    0

    0

    0

    0

    1

    0

    1

    4

    16

    11.

    1

    1

    1

    0

    0

    0

    0

    0

    0

    0

    3

    9

    12.

    1

    1

    0

    0

    0

    0

    0

    0

    0

    0

    2

    4

    13.

    1

    0

    0

    0

    0

    0

    0

    0

    0

    0

    1

    1

    Rj

    12

    11

    9

    7

    6

    6

    5

    4

    3

    2

    65

    387

    Wj

    1

    2

    4

    6

    7

    7

    8

    9

    10

    11

      

    pj

    .923

    .846

    .692

    .538

    .462

    .462

    .385

    .308

    .231

    .154

    5

     

    qj

    .077

    .154

    .308

    .462

    .538

    .538

    .615

    .692

    .769

    .846

      

    pjqj

    .071

    .130

    .213

    .248

    .248

    .248

    .236

    .213

    .178

    .130

      

     

     

    Вектор исходных тестовых результатов испытуемого Yi получается как результат суммирования баллов, у каждого испытуемого, за выполнение всех десяти заданий. В этой таблице за каждый правильный ответ давался один балл, за неправильный ответ – нуль баллов.

    Yi2 означает квадраты значений исходных тестовых баллов;

    Rj — число правильных ответов, полученных в заданиях;

    Wj — число неправильных ответов, полученных в заданиях;

    pj – доля правильных ответов по заданию j; определяется по формуле pj = ;

    qj– доля неправильных ответов по заданию j; находится по формуле qjj = ;

    pjqj — значения дисперсии тестовых баллов по каждому заданию, для случаев использования оценок 1 и 0.

    Yi — исходные тестовые баллы испытуемых, получаемые в результате сложения баллов по строкам.

    Yi2- квадраты значений баллов Yi.

     

    11. Методы определения надежности тестовых результатов. Существует довольно много методов обоснования надежности тестовых результатов. Одни из них проще, другие – сложнее. И хотя в данной статье приводятся самые распространенные методы, лексика, однако, заметно отличается, от лексики других авторов.

    11.1. Один из самых привлекательных методов определения надежности тестовых результатов связан с идеей определения мер структурированности знаний как отдельного испытуемого, так и группы испытуемых. Совокупность единичек и нулей, полученных каждым испытуемым, представлена в соответствующей строке матрицы, включенной в табл. 1. Эта совокупность образует т.н. профиль испытуемого, который свидетельствует о структуре знаний. Если предположить, что тест представляет собой систему заданий возрастающей трудности, то правильным можно назвать такой профиль баллов испытуемого, в котором все нули следуют за всеми единицами. Испытуемый знает правильные ответы на легкие задания и не может ответить правильно на трудные задания. Это предположение совпадает с естественной педагогической логикой.

    Примеры правильных профилей знаний дают вектор-строки испытуемых табл. 1, под номерами 5, 8, 11, 12, 13. В остальных профилях испытуемых есть ошибки. Ошибкой считается каждый элемент, стоящий не на своем месте. Например, у первого испытуемого сумма полученных баллов равна 9. При идеальной структуре теста и такой же структуре знаний эти девять баллов должны были располагаться на первых девяти местах, если помнить, что тест представляет систему заданий возрастающей трудности. Отклонение от этого идеала может быть вызвано незнанием, или неудачной попыткой угадать правильный ответ. В первой строке не на своём месте стоят нуль по четвертому заданию (он должен стоять в десятом задании), а также единица в десятом задании – там должен стоять нуль. Таким образом, в профиле первого испытуемого имеется две ошибки. Аналогично, по две ошибки содержат профили испытуемых 2, 3, 4, 6, 7. По четыре ошибки содержатся в профилях 9-го и 10-го испытуемых. Итого в матрице насчитывается 20 ошибок. Естественно предположить — чем больше ошибок (инвертированных элементов, стоящих не на своих местах), тем хуже структура знаний, тем ниже может оказаться и надежность результатов, полученных данной группой испытуемых. В соответствии с похожей концепцией измерения и интерпретацией результатов L.L.Guttman ввёл следующую меру:

    rg = 1 — (10)

    где rg – коэффициент структурированности тестовых результатов испытуемых данной группы.

    — количество ошибочных элементов в профилях всех испытуемых;

    N – число испытуемых в матрице данных;

    K – число заданий в тесте.       

    Подставляя полученные данные в формулу [10], получим

    rg = 1 — = 0,846

    В качестве нижней границы допустимой надежности измерения обычно принимается значение 0,800. Всё, что хуже этого значения, обычно считается недостаточным. Поскольку полученное значение rg > 0,800, то принимается решение о достаточной надежности измерения. Эта надежность складывается из двух основных профилей: заданий и испытуемых. Не случайно матрицы такого типа в западной литературе названы conjoint, что переводится с английского как «соединённый, объединённый; общий, совместный». В этом методе в качестве источника погрешностей измерения рассматриваются инверсии в профилях испытуемых и заданий теста.

     

    11.2. Второй метод оценки надежности основанный на идее стабильности результатов испытуемых. В связи с этим методом возникает ассоциация с известной древнегреческой притча о человеке, который побывал на острове Родос и, якобы, умел там далеко прыгать. Ему было предложено: «здесь Родос, здесь и прыгай»! В этом методе испытуемым предлагается дважды выполнить одно и то же задание, после чего результаты коррелируются. Если r > 0,800, то результаты полагают приемлемо устойчивыми (стабильными), причём, тем стабильнее, чем выше значение коэффициента r. Такого рода показатель надежности лучше называть коэффициентом стабильности или устойчивости результатов испытуемых. Здесь источник погрешностей – различия результатов первого и второго измерения.

     

    11.3. Классическим методом определения надежности результатов считается, корреляция результатов испытуемых, полученных при ответах на параллельные варианты одного и того же теста. Хорошим способом достижения параллельности вариантов теста является фасетная технология разработки заданий в тестовой форме. Эта технология изложена в трудах автора. Получаемое при этом значение r интерпретируется в смысле похожести, близости, параллельности результатов испытуемых по данным вариантам теста. Здесь источник погрешностей – возможная непараллельность заданий теста по содержанию.

     

    11.4. В практике укоренился метод деления тестовых результатов на две части. По данным, например, табл.1 считают отдельно, баллы испытуемых в нечетных (1,3,5, и т.д.) и в четных заданиях (2, 4, 6, и т.д.). Полученные суммы образуют два вектора, Х и Y, представленные в табл. 2.

    Табл.2 Корреляция балов испытуемых в нечетных и четных заданиях.    

    №№ испытуемых

    Баллы, полученные в нечётных заданиях (Х)

    Баллы, полученные в чётных заданиях Y)

    ХY

    Х2

    Y2

    1

    5

    4

    20

    25

    16

    2

    4

    4

    16

    16

    16

    3

    4

    3

    12

    16

    9

    4

    2

    4

    8

    4

    16

    5

    3

    3

    9

    9

    9

    6

    3

    2

    6

    9

    4

    7

    3

    2

    6

    9

    4

    8

    3

    2

    6

    9

    4

    9

    3

    1

    3

    9

    1

    10

    1

    3

    3

    1

    9

    11

    2

    1

    2

    4

    1

    12

    1

    1

    1

    1

    1

    13

    1

    0

    0

    1

    0

    Σ:

    35

    30

    92

    113

    90

     

    По данным таблицы далее считают коэффициент корреляции, используя формулы расчета классического коэффициента корреляции Пирсона.

    SSх = ΣХ2 — ;

    SSу = ΣY2 — ;

    Второй шаг. Находим сумму произведений Х и Y, скорректированную на средние значения (SPxy), по формуле

    SPxy = —        

    Третий шаг. Находим коэффициент корреляции по формуле

    r =             (11)       

     

       

    Получаемые при этом значения r бывают ниже других r , что объясняется делением числа заданий на две части. Поэтому применяется коррекция посредством формулы Spearman-Brown, где n указывает на множитель (в нашем случае надо удвоить), а k, с индексами, показывает коэффициент корреляции, полученный по половинам заданий.

    r =   (12)

    Подставляя в формулу [12] данные таблицы 2, получаем

    r = =

    Полученное значение не дотягивает до желаемых 0,800, что указывает на недостаточную надежность результатов испытуемых, при оценке данным методом, что не случайно. Здесь источник погрешностей измерения – уменьшение числа заданий и, возможно, их недостаточная параллельность по содержанию.

    Параллельный вариант теста, имея внешне отличающееся содержание, должен, концептуально, измерять то же самое, что и исходный тест, с той же точностью. Параллельными называются варианты, которые имеют сходное предметное содержание в пределах укрупненной учебной единицы, равные средние арифметические, равные дисперсии и равные интеркорреляции. Ошибочные компоненты одного параллельного варианта не коррелируют с такими же компонентами другого варианта теста (ree = 0).

    Этот метод применим для случаев с достаточно большим числом заданий, причём, каждое четное задание должно измерять то же, что и нечетное задание. Хорошим примером, содержащим в себе два параллельных варианта заданий открытой формы, является тест по арифметике, выполняемый в течение 2-3 минут, в зависимости от уровня подготовленности тестируемой группы. Тест построен по принципу сдвоенных параллельных заданий: при расчете коэффициента надежности теста нечетные номера заданий образуют первую половину теста (Х1), четные — вторую половину (Х2). Содержание каждой пары заданий, начиная с первой, измеряет общие способности быстро выполнять в уме одну арифметическую операцию на определенном множестве чисел. Тест приводится в табл. 3.

    АРИФМЕТИЧЕСКИЙ ТЕСТ     Табл. 3.

    1. 5 + 2 =____

    25. 0,83 + 0,12 =____

    2. 4 + 5 = ___

    26. 0,47 + 0,35 =____

    3. 6 – 2 =____

    27. 0,22 — 0,13 =____

    4. 9 – 6 = ____

    28. 0,87 — 0,43 =____

    5. 3 x 2 =____

    29. 0,22 x 0,10 =____

    6. 2 x 4 =____

    30. 0,15 x 0,2 = ____

    7. 9 : 3 = ____

    31. 0,21 : 0,1 = _____

    8. 6 : 2 = ____

    32. 0,48 : 0,24 =_____

    9. 10 + 6 = ___   

    33. 1/4 + ¼; = _____

    10. 12 + 4 =_____

    34. 1/4 + 2/4 = _____

    11. 16 – 4 = _____

    35. 3/5 – 1/8 = _____

    12. 19 – 7 = _____

    36. 9/16 – 5/16 =____

    13. 4 x 3 =_____

    37. 1/3 x 1/3 = _____

    14. 6 x 3 = _____

    38. 2/8 x 3/8 = _____

    15. 18 : 3 = _____

    39. 4/5 : 2/5 = _____

    16. 15 : 5 = _____

    40. 5/16 : 3/16 = ____

    17. 25 + 32 = ____

    41. 1/2 + 2/4 = _____

    18. 41 + 23 = ____

    42. 8/32 + 3/4 =_____

    19. 43 – 17 = ____

    43. 9/10 – 2/5 = _____

    20. 67 – 21= _____

    44. 9/16 – ¾; = _____

    21. 16 x 5 = _____

    45. 2/6 x ½; = _____

    22. 22 x 4 = _____

    46. 3/16 x ¾; = _____

    23. 48 : 12 = _____

    47. 4/12 : 2/3 = ____

    24. 84 : 14 = _____

    48. 8/32 : 4/16 =_____

     

     

    11.5. Если в табл.2. из числового вектора Х вычесть баллы Y, (или наоборот, из Y вычесть баллы испытуемых Х, разницы нет), то дисперсия полученных разностей и есть , используемая в формулах [8-9] для определения надежности.

    Определить можно сделать в рамках идеи внутренней состоятельности тестовых заданий по результатам теста. Например, это может означать, что в таком тесте число баллов в нечетных заданиях теста не должно отличаться от числа баллов в четных заданиях теста. Возможные отличия можно отнести к погрешностям измерения.

     

    SSe = Σe2 — ;

    =

    Подставляем полученное значение в числитель дроби формулы [9]. В знаменателе должно стоять значение дисперсии тестовых баллов. Обратимся к данным табл. 1, где ΣХ2 = 387, а ΣХ = 65. Подставляем эти значения в формулу для расчета суммы квадратов отклонений тестовых баллов от среднего арифметического балла.

    SSх = ΣХ2 — ;

    =

    Это и есть искомая дисперсия тестовых баллов. Остаётся подставить полученные значения в формулу [9]

    r = 1 —     (9, повторно)

    r = 1 —

    Это и есть мера надежности тестовых результатов испытуемых, подсчитанная методом разделения тестовых результатов на две части. Из чего видно, что разделение теста на части всегда снижает показатель надежности.

    11.6. Несколько формул для определения надежности тестовых результатов были разработаны Kuder G.F., Richardson M.W. Одна из них, KR-20 , где буквы означают фамилии авторов, а цифра 20 – порядковый номер самой распространенной в практике тестирования формулы: r = ()    (13; K-R 20)

    Чаще используется более удобный вариант этой формулы

                r = (1 — )    (13; K-R 20)

    где r — коэффициент надежности. Для данных табл. 1, k — число заданий, равно 10, Σpjqj = 1,915, = 4, 769. Подставляем в формулу K-R 20, получаем:

    r =(1 — ) = 0, 664.

    В компьютерных программах для разработки тестов обычно закладывается коэффициент альфа (α). Этот коэффициент предложен на случай, когда оценки за выполнение тестовых заданий даются не только 1 и 0, но и другие, например, 2, 3, и т.д. Формула коэффициента альфа

    r = (1 — )        (14)   

    11.7. Если предположение о гомогенности заданий теста находит подтверждение, то надежность тестовых результатов теоретически более обоснованно считать по другой формуле тех же авторов, по КR-8. С момента своего создания она практически не применялась из-за некоторой громоздкости. Появление компьютеров изменило ситуацию в ее пользу.

     

    12. Валидность. Валидность (от англ. слова valid — действительный, пригодный, действенный) — один из основных критериев качества педагогических измерений.

    Первый вопрос — валидность чего? Раньше считалось – валидность теста, как мера его пригодности. В последние годы понятие «валидность» стали соотносить с тестовыми результатами. Валидность результатов — это характеристика их возможности измерять именно то свойство, которое должно измеряться у испытуемых.

    Второй вопрос – от чего зависит валидность тестовых результатов. Валидность результатов зависит от цели разработки и применения теста, от содержания и формы тестовых заданий, от качества теста, условий проведения измерений и от интерпретации результатов. Валидность результатов зависит также от подбора контингента испытуемых, от их физического и психического состояния, и от других условий.

    Третий вопрос – о критериях валидности результатов педагогических измерений. В качестве критериев валидности выступают показатели обоснованности получаемых результатов:

    а) Формальный критерий. Нарушение тестовой формы всегда — а это хотелось бы подчеркнуть — приводит к худшему выражению содержания и к худшему пониманию смысла задания студентами.

    Форма заданий должна:

    • соответствовать видам проверяемых знаний;

    • минимизировать вероятность угадывания правильных ответов в случае незнания учебной дисциплины;

    • быть технологичной;

    • обеспечивать создание параллельных вариантов заданий.

    б) Содержательный критерий. На содержательном уровне основным критерием оценки качества результатов измерения является мнение преподавателей-предметников, разработчиков заданий в тестовой форме. Они часто верят в то, что их задания – это и есть тест, пригодный для задуманной цели. Основанием подобной веры нередко становится поддержка того или иного авторитетного педагога. В этом случае валидность результатов основана на субъективной убежденности (вере) в адекватности заданий для поставленной цели. На Западе такого рода валидность результатов именуют face validity.

    На экспертном уровне задания в тестовой форме проверяются с точки зрения правильности их содержания, а также правильности использованных тестовых форм. После такой экспертизы прежняя убежденность в качестве заданий снижается, так как многие из них приходится переделывать заново. После чего валидность результатов педагогического измерения заметно повышается,

    Тест может быть пригодным для оценки знаний у студентов первого курса и непригодным для второго и последующих курсов, по понятной причине различий в содержании теста и в уровне трудности. Валидность по содержанию играет решающую роль в педагогическом измерении. Правильность отбора учебного материала обеспечивается привлечением опытных преподавателей-экспертов, которые хорошо различают, каким тестом можно оценивать знание предмета, а каким нельзя.

    Если педагоги-эксперты подтверждают соответствие содержания заданий цели тестирования, то ожидаемые результаты пригодны для измерения знаний; такие результаты обладают свойством content validity, или по-русски, свойством валидности измерений по содержанию заданий теста.

    в) Концептуальный критерий. Если понятие «знание учебного предмета» включает в себя такие, например, понятийные индикаторы как знание определений, принципов, фактов, законов, формул, и организация контроля позволяет все это эмпирически проверить, то результаты называют валидными относительно содержания данного понятия (концепции). В противном случае результаты теста не валидны — тем больше, чем больше содержание понятия и концепции расходится с содержанием заданий теста. Если в роли эмпирического показателя теоретического понятия выступает тот или иной тест, то возникает проблема обоснования теста как показателя отображаемого им понятия. В процессе теоретического анализа иногда оперируют такими понятиями, как «знания», «интеллект», «общественная активность» и т.п., не всегда беспокоясь о реальном содержании этих понятий. В эмпирическом же исследовании дело обстоит иначе. Там каждому понятию приходится искать подходящие эмпирические референты, т.е. показатели содержания этого понятия.

    Например, если преподавателя вуза интересует вопрос — как связана успеваемость студентов (Y) с их общественной активностью (ОА), то для корректного ответа надо найти, а точнее, построить эмпирические показатели как успеваемости (Y), так и общественной активности (ОА). В качестве показателя (Y) могут выступать тестовые баллы, экзаменационные оценки, рейтинг преподавателей, ведущих занятия с этими студентами и др. Аналогично, в качестве показателя (ОА) может выступать сумма баллов, полученная каждым студентом за участие в работе молодежных, благотворительных, воспитательных и т.п. организаций, связанная с понятием общественной активности. Теоретическими понятиями (Y) и (ОА) оперировать в эмпирическом исследовании мы не можем, и потому вместо них используем их эмпирические референты. Это случай так называемой концептуальной валидности результатов, определяемой мерой логического соответствия понятия и показателя. На Западе адекватность результатов концепции называют construct validity.

    г) Прогностический критерий. Он применяется в программах профессионального отбора. Если есть тесты, которые помогают повысить точность прогнозирования успешности принимаемых абитуриентов, то это означает, что результаты теста обладают прогностической валидностью. Здесь главным являются корреляционные исследования. Чем выше корреляции – тем более валидны результаты тестов для поставленной цели.

    В отечественной и западной тестовой литературе много пишется не только о валидности тестов, но и, ошибочно, о валидности отдельных заданий. Научные разработки последних лет позволяют подойти по-новому и к этому вопросу, а именно: вместо валидности оперировать другим понятием — эффективность заданий. Естественным следствием такого подхода является обогащение определения теста: в этом случае тест становится не просто системой заданий, а система эффективных заданий. Понятно, что система неэффективных заданий порождает неэффективный тест, а в некотором пределе — уже не тест.

    Онлайн-тесты на oltest.ru: Педагогическая диагностика

    Онлайн-тестыТестыВоспитание и обучениеПедагогическая диагностикавопросы151-165

    151. Процесс, при котором личность сознательно или бессознательно адаптируется к социальной сфере, к условиям жизни и воспитательным требованиям, называется:
    приспособлением

    152. Психологические методы, используемые при оценке деятельности учителей, направлены на:
    оценку наличия и уровня развития определенных личностных характеристик

    153. Расстановка по степени важности и значимости — это:
    ранжирование

    154. Реализация в школьной практике права на разработку индивидуальных образовательных программ означает, что …
    одна и та же образовательная цель может быть достигнута различными путями

    155. Регулярная и систематическая объективная оценка деятельности учителей положительно сказывается на их:
    мотивации

    156. Результат предыдущего обучения и прошлого опыта, а также конечная или промежуточная цель предстоящего обучения — это:
    обученность

    157. Результатом диагностики является:
    диагноз

    158. Самоконтроль проводится путем самостоятельного сопоставления учителем достигнутых результатов с:
    планируемыми результатами своей деятельности

    159. Самый ранний пример диагностики личной успеваемости приводится:
    в китайской литературе за 1000 лет до Рождества Христова

    160. Система заданий возрастающей трудности, специфической формы, позволяющая качественно оценить структуру и измерить уровень знаний, — это:
    педагогический тест

    161. Современный этап проникновения математики в педагогику характеризуется появлением предпосылки к созданию нового раздела в педагогике — …
    «Математические модели»

    162. Согласованность между знаниями, убеждениями и поведением — это:
    воспитанность

    163. Сопоставление информации, собранной во время эксперимента, с результатами успешности по тесту есть валидность
    «по одновременности»

    164. Сопоставление успешности по тесту с экспертными оценками учителя есть валидность
    «по содержанию»

    165. Сочетание различных систем педагогической диагностики позволяет управлять:
    эффективностью образования



    Срок действия

    в оценках: содержание, конструкция и прогнозируемая достоверность — видео и стенограмма урока

    Факторы, влияющие на валидность

    Прежде чем обсуждать, как измеряется валидность и различать разные типы валидности, важно понять, как внешние и внутренние факторы влияют на валидность.

    Способность ученика к чтению может повлиять на достоверность оценки. Например, если учащемуся трудно понять, что задается в вопросе, тест не будет точной оценкой того, что ученик действительно знает о предмете.Педагоги должны убедиться, что оценка соответствует правильному уровню чтения учащегося.

    Самооценка учащегося также может повлиять на валидность оценки. Если учащиеся имеют низкую самоэффективность или верят в свои способности в конкретной области, в которой они проходят тестирование, они, как правило, демонстрируют более низкую успеваемость. Их собственные сомнения мешают им точно демонстрировать знания и понимание.

    Уровень тревожности студента также является важным фактором. Учащиеся с высоким уровнем тревожности при тестировании будут хуже успевать из-за эмоциональных и физиологических факторов, таких как расстройство желудка, потоотделение и учащенное сердцебиение, что приводит к искажению знаний учащихся.

    Измерение действительности

    Действительность измеряется с помощью коэффициента. Как правило, для определения числа от 0 до 1 рассчитываются две оценки из двух оценок или показателей. Более высокие коэффициенты указывают на более высокую достоверность. Как правило, оценки с коэффициентом 0,60 и выше считаются приемлемыми или очень достоверными.

    Типы валидности

    Мы должны учитывать три типа валидности: содержательная, предсказательная и конструктивная. Достоверность содержимого относится к степени, в которой оценка представляет все аспекты задач в оцениваемой области.Валидность контента отвечает на вопрос: охватывает ли оценка репрезентативную выборку контента, который следует оценивать?

    Например, если вы дадите своим ученикам кумулятивный экзамен в конце года, но тест охватывает только материалы, представленные за последние три недели занятий, экзамен будет иметь низкую действительность содержания. Материал за весь семестр не будет представлен на экзамене.

    Преподаватели должны стремиться к высокой достоверности содержания, особенно в целях итогового оценивания.Суммативные оценки используются для определения знаний, полученных учащимися за определенный период времени.

    Достоверность содержания повышается, когда оценивание требует, чтобы учащиеся использовали как можно больше занятий в классе.

    Следующим типом валидности является предсказательная валидность , которая относится к степени, в которой оценка по оценке предсказывает будущую эффективность.

    Нормативные тесты способностей, такие как SAT, GRE или WISC (шкала интеллекта Векслера для детей), используются для прогнозирования успеха в определенных областях в более поздний момент времени.SAT и GRE используются для прогнозирования успеха в высшем образовании. Эти тесты сравнивают индивидуальную успеваемость учащегося с успеваемостью нормативной выборки.

    Чтобы определить прогностическую способность оценки, компании, такие как Совет колледжей, часто проводят тест для группы людей, а затем через несколько лет или месяцев будут измерять успех или компетентность той же группы в прогнозируемое поведение. Затем вычисляется коэффициент достоверности, и более высокие коэффициенты указывают на большую предсказательную достоверность.

    Последний тип достоверности, который мы обсудим, — это , конструктивная достоверность . Чтобы понять валидность конструкции, мы должны сначала определить термин конструкция. В психологии конструкция относится к внутреннему признаку, который нельзя наблюдать напрямую, но который должен быть выведен из последовательного поведения, наблюдаемого у людей. Самоуважение, интеллект и мотивация — все это примеры конструкта.

    Действительность конструкции , таким образом, относится к степени, в которой оценка точно измеряет конструкт.Это отвечает на вопрос: действительно ли мы измеряем то, что, как нам кажется, мы измеряем?

    Взаимосвязь между достоверностью и надежностью

    Надежность , которая рассматривается в другом уроке, относится к степени, в которой оценка дает последовательную информацию об оцениваемых знаниях, навыках или способностях. Оценка считается надежной, если при каждом проведении теста получаются одни и те же результаты.

    Важно понимать взаимосвязь между надежностью и действительностью.Оценка может быть надежной, но недействительной.

    Вернемся к нашему исходному примеру. Если вы взвешиваете себя на весах, они должны дать вам точное измерение вашего веса. Если весы говорят вам, что каждый раз, когда вы наступаете на них, вы весите 150 фунтов, это надежно. Однако, если вы действительно весите 135 фунтов, тогда весы недействительны.

    Резюме урока

    Итак, валидность — это степень, в которой оценка точно измеряет то, что она предназначена для измерения.На валидность влияют различные факторы, включая способность читать, самоэффективность и уровень тестовой тревожности. Валидность измеряется с помощью коэффициента, где высокая достоверность ближе к 1, а низкая достоверность ближе к 0. Три типа валидности для целей оценки: содержательная, прогнозирующая и конструктивная валидность.

    Цели урока

    После просмотра этого урока вы должны уметь:

    • Определять «валидность» с точки зрения оценок
    • Перечислите внутренние и внешние факторы, связанные с действительностью
    • Опишите, как коэффициенты используются для измерения достоверности
    • Объясните три типа достоверности: содержание, построение и прогнозирование.

    Почему надежность и валидность важны для оценки успеваемости

    Базовые знания о надежности и валидности результатов теста важны для принятия решений об обучении и оценке учащихся.Целью тестирования является получение экзаменуемого балла, который точно отражает уровень владения экзаменуемым навыком или знаниями, измеренный с помощью теста. Поскольку преподаватели выставляют оценки на основе оценочной информации, собранной об их учениках, эта информация должна иметь высокую степень достоверности, чтобы быть полезной. На собранные данные об оценке будут влиять тип и количество учащихся, проходящих тестирование. Эта разница в группах студентов от семестра к семестру повлияет на то, насколько сложными или легкими будут тестовые задания и тесты.Эта разница в баллах от группы к группе делает надежность и валидность важным фактором при разработке и проведении оценок и оценке обучения студентов.

    Надежность и действительность

    Преподаватели часто называют типы оценивания, будь то тест с выбранным ответом (например, множественный выбор, истина / ложь и т. быть надежным и действительным.Технически, это не сам тест, а скорее результат теста или оценка за рубрику, которые должны иметь высокую степень надежности и валидности. Надежность — это степень, в которой оценки конкретного теста соответствуют от одного использования теста к другому. Под действительностью понимается степень, в которой результат теста может быть интерпретирован и использован по назначению. Надежность — очень важный показатель достоверности. Результат теста может иметь высокую надежность и быть действительным для одной цели, но не для другой.

    Пример, часто используемый для надежности и достоверности, — это взвешивание на весах. Результаты каждого взвешивания могут быть одинаковыми, но весы могут отклоняться на несколько фунтов. Таким образом, мы могли бы сказать, что испытательный прибор выдает надежные значения веса, но эти значения недействительны для предполагаемого использования, потому что шкала отклонена на несколько фунтов.

    Существуют и другие свидетельства валидности, помимо надежности, которые используются для определения валидности результатов теста.Очень важно, чтобы элементы или рубрики теста соответствовали результатам обучения, которые оценивает тест, и чтобы данная инструкция соответствовала результатам и тому, что оценивается. В конечном счете, валидность имеет первостепенное значение, потому что она относится к степени, в которой полученный результат может быть использован для создания значимых и полезных выводов о тестируемом.

    Качество предмета и рубрики

    Важным доказательством действительности является действительность предмета. Валидность элемента относится к тому, насколько хорошо элементы теста и рубрики функционируют с точки зрения измерения того, что должно было быть измерено; Другими словами, качество предметов и рубрик.Качество заданий с выбранными ответами определяется путем анализа ответов учащихся на отдельные задания теста. Качество рубрики основано на:

    1. соответствие содержания рубрики измеряемым результатам и
    2. — степень, в которой формулировки в каждой ячейке строки рубрики параллельны с точки зрения используемой формулировки и однородны с точки зрения измеряемого содержания.

    Чтобы улучшить качество тестов с выбранным ответом, которые будут использоваться снова, необходимо идентифицировать плохо функционирующие элементы, чтобы их можно было исправить, исключить или заменить.Необходимо выявить неоднозначные или вводящие в заблуждение элементы. Для анализа заданий необходимо вычислить статистику заданий, например, сколько студентов выбрали каждый вариант ответа для конкретного задания и сколько учащихся с более высокими баллами выбрали правильный ответ по каждому пункту по сравнению с учащимися с более низкими баллами. Для получения статистики по предметам обычно требуется использование программы анализа предметов или системы управления обучением, которая предоставляет информацию.

    В идеале, большая часть работы по обеспечению качества рубрик должна выполняться до использования рубрик для начисления баллов.Эта предварительная административная работа потребует хорошо составленной рубрики и образцов ответов студентов для оценки. Квалифицированные оценщики будут оценивать ответы на предмет согласия, и информация о них будет использоваться для внесения исправлений в рубрики. Поскольку идеальный анализ рубрики отдельным инструктором редко может быть выполнен из-за ограниченности времени и ресурсов, лучшее, что можно сделать для качественного анализа, — это собрать ответы студентов и найти в них шаблоны, которые могут выявить двусмысленные или вводящие в заблуждение формулировки. в рубрике и при необходимости внесите исправления.

    Важна цель вопроса

    Важна цель вопроса

    by Грант Уиггинс , Authentic Education

    Я обнаружил, проводя оценочную работу с педагогами на протяжении десятилетий, что удивительно мало люди понимают, что валидность означает в оценке и как определяется валидность. Эта путаница приводит к различным печальным и важным последствиям: люди задают вопросы по тестам, не понимая, как они работают, руководители дают крайне неточные советы о том, как подготовить детей к внешним тестам, а учителя в конечном итоге создают недействительные тесты, не осознавая этого.

    Что такое срок действия?

    Начнем с простого определения. Валидность заключается в том, измеряет ли тест то, что он должен измерять. Имея цель, я строю тест. Вопрос считается «действительным», если вопрос точно определяет то, что он должен измерять, то есть цель, которую я преследую. Тест считается действительным, если вопросы (и результаты; см. Ниже) в тесте соответствуют всем оцениваемым целям.

    Обратите внимание, что с технической точки зрения вопрос сам по себе не является действительным или недействительным.Скорее, достоверность — это умозаключение. Что мы можем и чего не можем сделать из результатов по вопросу? Позволяет ли мне этот конкретный вопрос и результаты тестирования сделать выводы о более общих целях? Предсказывают ли ответы на этот конкретный вопрос / коррелируют ли результаты с более общей целью? Вот в чем справедливость.

    Простой пример. Если я даю письменную подсказку и говорю: «Напишите мне эссе о том, является ли моя политика в отношении домашних заданий справедливой», моя цель будет более общей, чем подсказка.Я хочу знать, насколько хорошо вы пишете сочинения. Моя цель не имеет ничего общего с вашим пониманием систем выставления оценок. Эта цель и вопрос обоснованности становятся более ясными, когда я даю следующую подсказку: я использую другую конкретную подсказку (о вегетарианстве), но это все равно должно быть эссе.

    Еще один полезный пример: 2 + 5 =? это тестовый вопрос; что он измеряет? Не зная, мы еще не можем сказать наверняка, верен ли это вопрос, как отмечалось выше; это зависит от цели.

    Вот несколько возможных целей; решите для себя, насколько актуален вопрос (2 + 5 =?) для решения каждой из следующих предложенных целей:

    С помощью этого вопроса можно определить, знают ли студенты —

    1. ответ на 2 + 5 .
    2. знают значение символов + и =.
    3. может складывать однозначные числа, которые в сумме составляют менее 10.
    4. может складывать однозначные числа.

    Очевидно, это действительно для №1. Но # 1 обычно не является нашей целью, задавая тестовый вопрос; наша цель обычно более общая, как указано выше в целях №2, №3 и №4. т.е. тестовые вопросы предназначены для того, чтобы быть репрезентативными выборками большого и разнообразного предмета (или «области», как говорят люди, занимающиеся измерением).

    Репрезентативные вопросы: мыслить как тестировщик, а не учитель

    Проблема обобщения по образцу становится интересной и интересной.Вопрос 2 + 5 =? вполне может быть верным для выводов о целях №2 и №3, но, вероятно, не подходит для цели №4. Почему? Потому что 2 + 5 =? относительно прост, и, таким образом, не представляет всех однозначных задач. Таким образом, если наша цель — №4, нам нужно сделать обобщение на основе заданного конкретного тестового вопроса. В целом, что должен знать студент, чтобы считаться хорошим в решении задач с 1 цифрой? Таким образом, мы хотели бы обязательно использовать вопрос 5 + 9 =? Вы понимаете почему? Мы знаем, что это более сложный вопрос — он связан с переноской, а другой — нет.Итак, если мы хотим, чтобы наш тест был действительным предиктором «можно складывать однозначные числа», мы должны использовать такой вопрос.

    Конечно, вероятно, что меньше учеников ответят правильно на 5 + 9 в 1-м классе по сравнению с теми, кто правильно ответит на вопрос 2 + 5. Это критический факт, и он меняет то, как мы, как педагоги, должны думать о валидности. Мы должны научиться думать как тестировщик!

    Теперь предположим, что мы можем выбрать только 1 вопрос, чтобы сэкономить время. Если измеряется цель №4 — учащиеся могут складывать однозначные числа — тогда специалисты по измерению скорее попросят всего 5 + 9, чем 2 + 5.(Они предпочли бы НЕ использовать только 1 вопрос из соображений «надежности», которые будут обсуждаться в следующем посте). Почему они выбрали более сложный вопрос? Потому что они знают — из прошлых результатов, а также концептуально — что это более точный прогноз для нашей цели, чем более простой вопрос 2 + 5. Да, они понимают, что меньшее количество студентов может получить правильный ответ, если они зададут только его . Однако, в отличие от учителя, психометрический специалист заинтересован в правильном измерении, а не в поиске вопросов, которые могут быть правильными для всех учеников.

    Мы хотим, чтобы дети, как учителя, все делали правильно! Но дело не в этом. Мы также должны захотеть получить правильную действительность. Учителя должны позаботиться о том, чтобы все возможные типы дополнительных задач, включая самые сложные, были хорошо учтены в инструкциях и местных оценках. Тогда они будут готовы к тесту. (Подумайте: каковы наиболее распространенные ошибки и заблуждения? Мы бы хотели, чтобы они были проверены; подробнее об этом в следующем посте, касающемся отвлекающих факторов.)

    Непосредственное следствие для учителей: ваши тесты должны быть такими же строгими, если не более строгими в этом отношении чем внешний тест.Вы не можете просто имитировать их формат. Фактически, было бы разумно НЕ имитировать формат и использовать только построенные вопросы для ответов или попросить учащихся хотя бы объяснить, почему они выбрали именно тот ответ. (Подробнее об этом в следующий раз).

    Итак, утверждение, что все студенты, получившие 2 + 5 =? правильный «может складывать однозначные числа». Вы не можете с уверенностью сделать такой вывод из результатов. Потому что больше учеников правильно ответят на этот вопрос, чем на более «информативный».Другими словами, результаты по вопросу 5 + 9 дают более точную оценку того, какой процент учащихся, по прогнозам, достигнет цели, чем по вопросу 2 + 5.

    Справедливый тест как действительный образец

    Мы отметили выше, что викторина должна беспокоиться о «репрезентативных» проблемах из общей «области», которую отражает цель. Таким образом, слишком простой вопрос сам по себе не является «репрезентативным» для всех однозначных проблем в области таких проблем. Точно так же: результаты по причудливому эзотерическому вопросу, который мало кто из учащихся ответит правильно, скорее всего, скрывают истинный уровень понимания более общей темы.

    Это легче увидеть, если сравнить викторины. Какой тест ниже, A или B, скорее всего, даст более достоверные результаты относительно того, могут ли учащиеся «точно складывать однозначные числа»?

    Тест A

    2 + 3 = 2 + 5 = 3 +3 = 4 + 5 =

    Тест B

    2 + 3 = 2 + 5 = 7 + 8 = 6 + 9 =

    Ясно, что мы бы ожидайте более убедительных результатов от теста B, чем от теста A. Он отвечает на некоторые из более сложных вопросов в предметной области, а не только на более простые, как в тесте A.Тест B предвидит ошибки при переноске и выходит за рамки простого сложения пальцев путем подсчета — важных показателей «способности складывать ВСЕ однозначные числа».

    Роль статистики в достоверности

    Но теперь обратите внимание на вторую новую идею, подразумеваемую здесь и отмеченную в самом начале: достоверность может быть полностью установлена ​​только на основе моделей текущих и прошлых результатов. Вы не можете просто судить о справедливости самого вопроса; вы должны решить, соответствует ли картина результатов при использовании вопроса тем, что мы могли бы предсказать / ожидать / испытать, исходя из нашего понимания цели и других достоверных результатов оценки с течением времени.(Вот почему тесты должны быть пилотными! А в отсутствие пилотных тестов именно поэтому тесты часто «изогнуты» в HS и колледжах)

    Еще раз взгляните на нашу подсказку для сочинения. Предположим, что я предлагал ученикам 4-х классов: напишите мне эссе о мудрости вмешательства ФРС в экономику путем скупки облигаций в качестве стимула. Хм? Результаты будут ужасными: ни один четвероклассник мало знает о ФРС (кроме 1-2 начинающих предпринимателей). Итак, паттерн результатов — нетипично плохой — предполагает, что подсказка дала неверные результаты.Скорее всего, проблема заключалась в подсказке, а не в детях и преподавании, другими словами.

    Но может быть и обратное: я мог бы задать действительно легкий вопрос вроде «Напишите эссе о мудрости есть десерт первым, а не последним» и получу гораздо более откровенные и точные результаты относительно того, кто может писать сочинения, чем если бы я используйте академические подсказки, основанные на больших идеях или твердых текстах. В самом деле, одна из причин, по которой написание подсказок часто не проходит в государственных и национальных тестах, заключается в том, чтобы убедиться, что знание содержания НЕ является определяющим фактором при оценке письма.Мы просто хотим знать: вы умеете писать? Если сочинение сильно зависит от «инсайдерских» знаний, которых нельзя ожидать от многих детей, то результаты не дадут достоверного указания на то, «кто может писать сочинения».

    При тестировании желательна эффективность даже за счет аутентичности.

    А, но это открывает банку червей, которую, по моему опыту, не понимает большинство учителей. Из этого понятия следует, что вопрос может показаться тривиальным или странным, но дает обоснованные выводы относительно цели (точно так же, как могут быть вопросы, которые кажутся глубокими и проясняющими, но не подходят для использования с целью) .Другими словами, при тестировании часто встречаются очень разоблачающие вопросы, которые могут показаться наивному человеку «глупыми», «банальными» или «недействительными».

    Отличным примером является проверка словарного запаса и аналогий для оценки навыков чтения и мышления. На протяжении десятилетий тестировщики с радостью использовали задания словарного запаса как способ овладеть навыками чтения. А как? Потому что разработчик тестов знает из исследований, что 1) чрезвычайно богатый словарный запас возникает при чтении форматированного текста и 2) они знают по многим результатам, что тесты по словарю коррелируют со способностью справляться со сложностью текста.То же самое и с вопросами по аналогии, которые так популярны в тестах SAT, LSAT и GRE: они являются эффективными и надежными заместителями для аналитического и критического мышления. Многие исследования показывают, что они сильно коррелируют с более прямой оценкой этих сложных навыков.

    Этот эффективный прокси — ключевой фактор для тестировщиков. Им нужно, чтобы тест проходил как можно быстрее, учитывая стоимость, логистику и проблему утомления учащегося. Они с радостью будут отвечать на вопросы, которые служат эффективными заместителями для реальных вещей.Тестирование словарного запаса человека является быстрым и исторически хорошо предсказывающим способность к чтению (что требует гораздо больше времени для непосредственной оценки посредством чтения отрывков и письма). Нет необходимости в аутентичной оценке чтения, тогда с точки зрения психометрии: тестирование словарного запаса дает необходимые результаты на долгое время. меньше времени и денег. Могут быть педагогические причины аутентичности в оценке — и я решительно утверждаю, что они есть, — но создателя теста, увы, эта потребность не волнует (если только это не говорит человек, пишущий спецификации теста).Они стремятся только к эффективному действию, учитывая, что карты обычно сдают им.

    Подлинность не требуется для действительности. Хуже того, верно и обратное: многие «достоверные оценки» не имеют силы в том смысле, о котором говорилось выше, — делая вывод о целях на основе результатов. Подробнее об этом в следующем посте.

    Цели, связанные с фактами

    Как показывает большая часть этого обсуждения, валидность является проблемным вопросом, потому что цели обычно шире и глубже, чем любой вопрос теста, и поэтому требуется суждение для подбора правильного конкретного вопроса к более общая и трудная для измерения цель.Нет простой формулы обоснованности. Нам необходимо тщательно проанализировать информацию, как это делают ученые, чтобы определить, соответствует ли гипотеза — этот вопрос цели — данным.

    Поскольку цели носят более общий характер, чем конкретный вопрос, учителя легко могут ввести в заблуждение значение фактических вопросов в стандартизированном тесте.

    Стандарты (государственные или национальные) редко содержат конкретные факты, которые необходимо знать. Очевидно, есть исключения: ключевые даты, люди и события в истории; ключевые термины в математике и естествознании и т. д.Но посмотрите внимательно на свои документы по стандартам (и выпущенные тесты), и вы увидите, что большинство заявленных целей шире, чем какой-либо конкретный факт, и лишь немногие вопросы требуют фактоидов.

    Рассмотрим этот пример, широко используемый в государственных испытаниях:

    В какое десятилетие в США шла гражданская война?

    1. 1770-е
    2. 1790-е
    3. 1860-е
    4. 1890-е

    Оценка факта, верно? Нет. Почти никогда не бывает Стандарта, который гласит: «Знай годы начала и конца Гражданской войны.

    В этом случае цель гораздо более общая: может ли студент поместить это событие (и другие «ключевые» события) в достаточно точную временную шкалу, чтобы показать правильное ощущение времени и хронологии в истории США? Фактически, студент мог вспомнить несколько фактов о гражданской войне (Грант против Ли, Аппоматтокс), но выбрал ответ номер 1 выше. Итак, что мы должны сделать вывод об их «понимании гражданской войны»? Конечно, вопрос о временной шкале является более показательным индикатором (и почему нечто подобное так часто задают на тестах по истории).

    Вот почему очень неразумно просто смотреть на содержание прошлогодних вопросов, когда у вас есть доступ к выпущенным элементам. Дело не в этом; Важно то, какую цель проверял вопрос! В следующем году вопрос будет другим, а цель останется прежней. Вот почему я говорю: обращайте внимание на стандарты, а не на тесты. Подумайте об этом: именно так думает и создатель тестов о стандартах.

    Что следует? Некоторые — не все — крики о «поддельных» тестовых вопросах основаны на полном непонимании.В более позднем посте я объясню, почему я думаю, что некоторые известные тестовые вопросы, которые многие считали поддельными, не таковы.

    Подсказка: ананас в штате Нью-Йорк.

    3 быстрых вывода

    Итак, вот 3 практических вывода из нашего первого взгляда на валидность:

    1. Вы всегда должны указывать на своей копии теста, что вы используете цель для каждого вопроса. Ниже приведены прекрасные примеры из старого FCAT Флориды. Вы скоро увидите, что иногда ваши вопросы не самые лучшие, когда вы начнете более застенчиво беспокоиться о справедливости.Во внешних тестах меньше внимания уделяется конкретному вопросу, чем стандарту, по которому он оценивается.
    2. Убедитесь, что вас беспокоят «репрезентативные» вопросы, взятые из всей области проблем, связанных с этой целью. Не задавайте простых, очевидных или знакомых вопросов. Вы также не должны спрашивать попавшие в тривиальные вопросы (если вы не уверены, что они являются прокси для реального понимания предмета). Это часто является причиной того, что местные результаты тестов на уровне штата ниже, чем местные тесты: слишком много локальных тестов не обеспечивают достаточной строгости для справедливой выборки из всего диапазона возможных вопросов.
    3. Вам следует внимательно изучить структуру результатов, чтобы определить, был ли вопрос «честной проверкой» цели. Отчасти причина, по которой учителя колледжей и школы HS «оцениваются по кривой», заключается в том, чтобы учесть тот факт, что вопрос, возможно, был слишком сложным или простым, что отражено в результатах.

    PS: Пример для подражания FCAT во Флориде, о том, как маркировать каждый вопрос для себя:

    Эта статья была впервые опубликована в личном блоге Гранта; Грант можно найти в твиттере здесь; атрибуция изображения пользователь flickr camknows; Это цель вопроса, который имеет значение

    Обоснованность и надежность — Скачать материалы для изучения детской педагогики БЕСПЛАТНО PDF

    Развитие ребенка и педагогика »является основным разделом экзаменов CTET / TET.В этом разделе ставится 30 баллов за каждую работу в соответствии с программой CTET / TET. Этот предмет является обязательным для всех студентов, сдающих оба экзамена CTET.

    Загрузите приложение Adda247 сейчас

    Развитие ребенка и педагогика Содержание предмета включает в себя развитие ребенка -15 баллов, концепцию инклюзивного образования и понимание детей с особыми потребностями -5 баллов и обучение и педагогика-10 баллов. Итак, здесь мы предлагаем вам Учебные материалы по детской педагогике на двух языках (хинди и английский), которые помогут вам в подготовке к экзамену CTET / TET. Сегодня Тема: Теория нравственного развития Пиаже

    Раздел детской педагогики в CTET: как улучшить свой результат

    ДЕЙСТВИТЕЛЬНОСТЬ И НАДЕЖНОСТЬ वैधता और विश्वसनीयता

    Срок действия (वैधता)

    • Тест считается действительным, если он измеряет то, что он намерен измерить एक परीक्षण वैध तब होता है, जब वह यह है जो यह मापने का इरादा रखता है

    Например — उदाहरण के लिए

    • Если тест разработан для измерения языковых способностей учащихся, он должен измерять эту способность. यदि छात्रों की भाषाई क्षमता परीक्षण बनाया गया है, तो उस क्षमता को मापना चाहिए।
    • Если результат измерения другой, тест недействителен. यदि माप का परिणाम कुछ और है, तो परीक्षण वैध नहीं है
    ПОЛУЧИТЕ БЕСПЛАТНЫЙ учебный материал для экзамена CTET 2020

    Типы действия (वैधता के प्रकार)

    • Лицевая действительность ( मुख वैधता )

    Лицевая валидность — это степень, в которой тест субъективно рассматривается как охватывающий концепцию, для измерения которой он призван.Это относится к прозрачности или актуальности теста, каким он кажется участникам тестирования. यह एक परीक्षण की पारदर्शिता या प्रासंगिकता को संदर्भित करता है क्योंकि का परीक्षण करता है.

    • Срок действия содержимого ( सामग्री वैधता )

    Если элементы теста составляют репрезентативную выборку из общего содержания курса, подлежащего проверке, можно сказать, что тест соответствует действительности यदि परीक्षण में आइटम किया जाने वाले कुल पाठ्यक्रम सामग्री के प्रतिनिधि नमूने का करते हैं, तोपरीक्षण को सामग्री वैधता कहा जा सकता है

    • Срок действия конструкции ( निर्माण की वैधता )

    Конструктивная валидность предполагает психологическое объяснение результатов теста.Тест интерпретируется с точки зрения многочисленных результатов исследований निर्माण वैधता में मनोवैज्ञानिक रूप से परीक्षण के अंकों की व्याख्या करना शामिल है। एक परीक्षण की व्याख्या कई शोध निष्कर्षों के संदर्भ में की जाती है

    • Конгруэнтная достоверность ( अनुकूल वैधता )

    Достоверность теста определяется его корреляцией с существующими тестами, предназначенными для измерения той же конструкции.

    • Срок действия, связанный с критерием ( मानदंड संबंधित वैधता )

    Достоверность критерия — это степень, в которой мера связана с результатом.Критерий валидности часто делится на одновременных и прогностических валидностей. Параллельная валидность относится к сравнению между рассматриваемой мерой и результатом, оцениваемым одновременно. Прогностическая достоверность сравнивает рассматриваемую меру с результатом, оцененным позже. मानदंड की वैधता वह सीमा है जिसके लिए एक उपाय एक से संबंधित है। मानदंड की वैधता को अक्सर समवर्ती और भविष्य कहने वाला वैधता में विभाजित किया जाता है। समवर्ती वैधता प्रश्न में माप के बीच तुलना एक ही मूल्यांकन किए गए परिणाम संदर्भित करता है। पूर्ववर्ती वैधता बाद में मूल्यांकन किए गए परिणाम के साथ प्रश्न में की तुलना करती है

    • Факториальная действительность ( तथ्य की वैधता )

    Факториальная достоверность определяется как степень, в которой ковариация между оцениваемыми чертами похожа на действительную или истинную.तथ्य की वैधता को उस डिग्री के रूप परिभाषित किया जाता है, जिसमें न्यायाधीशों के लक्षणों के बीच सहसंयोजक या सच जैसा दिखता है।

    5 Важная тема CDP для экзамена CTET 2020

    Надежность (विश्वसनीयता)

    • Это степень постоянства и точности. यह स्थिरता और सटीकता की डिग्री है
    • Тест может быть надежным, но не обязательно действительным. Это потому, что он может давать согласованные оценки, но эти оценки не обязательно должны отражать то, что именно мы хотим измерить.एक परीक्षण विश्वसनीय हो सकता है लेकिन मान्य नहीं होना चाहिए। ऐसा इसलिए है क्योंकि यह लगातार स्कोर प्राप्त कर सकता है, लेकिन इन अंकों का प्रतिनिधित्व करने की आवश्यकता कि हम वास्तव में मापना चाहते हैं।
    • Тест с высокой достоверностью также должен быть надежным. (оценки будут одинаковыми в обоих случаях) उच्च वैधता के साथ एक परीक्षण भी विश्वसनीय होना चाहिए। (स्कोर दोनों मामलों में सुसंगत होगा)
    • Действительный тест также является надежным, но надежный тест может быть недействительным.वैध परीक्षण भी एक विश्वसनीय परीक्षण है, लेकिन एक विश्वसनीय परीक्षण मान्य नहीं हो सकता है

    Учебные заметки CDP для всех учебных экзаменов

    Различные методы определения надежности / विश्वसनीयता निर्धारित करने के लिए अलग-अलग तरीके

    Метод повторных испытаний — टेस्ट रेटेस्ट विधि

    • Тест назначается той же группе с коротким интервалом. Баллы сведены в таблицу и рассчитана корреляция. Чем выше корреляция, тем выше надежность.एक परीक्षण को छोटे अंतराल के साथ एक ही समूह में किया जाता है। स्कोर सारणीबद्ध हैं और सहसंबंध की गणना की जाती है। उच्च सहसंबंध अधिक विश्वसनीयता है

    Метод разделения половин — विभाजित आधा विधि

    • Берутся оценки четных и нечетных элементов и определяется корреляция между двумя наборами оценок. विषम और सम आइटम का स्कोर लिया जाता है और निर्धारित स्कोर के बीच संबंध

    Метод параллельной формы — समानांतर रूप विधि

    • Надежность определяется с использованием двух эквивалентных форм одного и того же содержимого теста.विश्वसनीयता एक ही परीक्षण सामग्री के दो समकक्ष रूपों का उपयोग निर्धारित की जाती है
    • Эти подготовленные тесты вводятся в одну и ту же группу один за другим. Формы тестов должны быть идентичными по количеству заданий, содержанию, уровню сложности и т. Д. Определение корреляции между двумя наборами баллов, полученных группой в двух тестах. Чем выше корреляция, тем выше надежность. इन तैयार परीक्षणों को एक के बाद एक एक ही समूह में प्रशासित किया जाता है। परीक्षण प्रपत्र आइटम की संख्या, सामग्री, कठिन स्तर आदि के संबंध समान होना चाहिए, दो परीक्षणों में दो सेटों के बीच संबंध का निर्धारण करना। यदि सहसंबंध अधिक है, तो विश्वसनीयता अधिक है

    Подробнее:

    Вы также можете прочитать:

    Поделиться — это забота!

    Развитие, обоснованность и надежность TPACK-deep: шкала знаний технологического педагогического содержания

    Аннотация

    Целью данного исследования является разработка шкалы TPACK (знания о технологическом педагогическом содержании), основанной на центрированном компоненте структуры TPACK, для измерения TPACK учителей, прошедших предварительную подготовку.При разработке шкалы применялся систематический и поэтапный подход. Исследования валидности и надежности шкалы были проведены с участием 995 турецких учителей preservice. Выборка была разделена на две подвыборки случайным образом (n1 = 498, n2 = 497). Первый образец был использован для исследовательского факторного анализа (EFA), а второй образец — для подтверждающего факторного анализа (CFA). После EFA шкала TPACK включала 33 пункта и четыре фактора. Этими факторами были дизайн, усилия, этика и профессионализм.Коэффициент альфа Кронбаха для всей шкалы оказался 0,95, тогда как значения коэффициента альфа Кронбаха для отдельных факторов шкалы находились в диапазоне от 0,85 до 0,92. CFA была проведена в рамках исследования валидности шкалы. Таким образом, эта структура четырехфакторной шкалы была подтверждена. Кроме того, коэффициент надежности шкалы при повторных испытаниях был рассчитан как 0,80. Полученные данные показали, что шкала TPACK-deep была действенным и надежным инструментом для измерения TPACK.Следовательно, были выдвинуты различные предложения относительно использования глубокой шкалы TPACK для прикладных исследований и будущих исследований.

    Цитата

    Кабакчи Юрдакул, И., Одабаси, Х.Ф., Килиджер, К., Коклар, А.Н., Биринчи, Г., Курт, А.А. (2012). Развитие, обоснованность и надежность TPACK-deep: технологическая шкала педагогического содержания знаний. Компьютеры и образование, 58 (3), 964-977. Elsevier Ltd. Получено 9 декабря 2021 г. с сайта https: // www.learntechlib.org/p/66817/.

    Ключевые слова

    Цитируется

    Просмотр справочной информации и карты цитат
    • Мы еще не достигли цели: продолжение литературы о мерах TPACK для оценки интеграции технологий

      Ман Су и Тереза ​​Фулджер, Университет штата Аризона, США

      Международная конференция Общества информационных технологий и педагогического образования 2019 г. (18 марта, 2019) стр. 2534–2542

    • Педагогические знания 21 века и преподавание и обучение естествознания

      Скотт Слау, Стивен Ф.Государственный университет Остина, США; Грегори Чамбли, Южный университет Джорджии, США,

      Журнал «Компьютеры в математике и преподавании естественных наук» Vol. 36, №2 (Апрель 2017 г.) стр. 173–187

    • Педагогические знания 21 века и преподавание и обучение естествознания

      Скотт Слау, Государственный университет Стивена Ф. Остина, США; Грегори Чамбли, Южный университет Джорджии, США,

      Международная конференция Общества информационных технологий и педагогического образования 2017 г. (05 марта, 2017) стр.2154–2162

    • Улучшает ли использование модели TPACK цифровую педагогику: мы не понимаем настоящее, поэтому как мы можем представить себе будущее?

      Дорит Маор, Университет Мердока

      ASCILITE — Ежегодная конференция Австралийского общества компьютеров в обучении в высшем образовании 2013 (2013) стр. 531–540

    • Педагогические знания 21 века

      Скотт Слау, Государственный университет Стивена Ф. Остина, США; Памела Слау, Государственный университет Сэма Хьюстона, США,

      EdMedia + инновационное обучение 2015 г. (22 июня, 2015) стр.1101–1108

    • Шкала самоэффективности знаний о технологическом педагогическом содержании (TPACK-SeS) для преподавателей естественных наук: построение, проверка и надежность

      Sedef Canbazoglu Bilici, Havva Yamak, Nusret Kavak & S Selcen Guzey

      Евразийский журнал исследований в области образования Vol. 52 (2013) стр. 37–60

    • Ищем учащихся: наследие знаний о технологическом содержании (TCK)

      Скотт Слау, Стивен Ф.Государственный университет Остина, США; Майкл Коннелл, Университет Хьюстона в центре города, США; Грегори Чамбли, Южный университет Джорджии, США,

      Международная конференция Общества информационных технологий и педагогического образования 2015 г. (2 марта, 2015) стр. 3411–3417

    • Мнения учителей социальных наук и старших учителей об их восприятии TPACK

      Озкан Акман, Джемаль Гувен, С. Ахмет Кирай и Исмаил Челик, Университет Некметтина Эрбакана, Турция

      Международная конференция Общества информационных технологий и педагогического образования 2015 г. (2 марта, 2015) стр.3032–3039

    • Изучение TPACK тайваньских учителей естественных наук в средней школе с использованием новой контекстной модели TPACK

      Syh-Jong Jang & Meng-Fang Tsai, Христианский университет Chung-Yuan

      Австралазийский журнал образовательных технологий Vol. 29, № 4 (22 сентября, 2013)

    • Оценка восприятия текущими учителями своих разработок в TPACK

      Тиффани Олсон, Стефани Вери, Хизер Монро-Осси, Бронвин МакЛемор, Келли Маки и Шерил Фонтейн, Институт образования Флориды при Университете Северной Флориды, США

      Международная конференция Общества информационных технологий и педагогического образования 2014 г. (17 марта, 2014) стр.2598–2603

    • Понимание эффективности профессионального обучения в области ИКТ с помощью концептуальной основы TPACK: тематическое исследование

      Дженнифер де Врис и Таня Бродли, Университет Кертина, Австралия

      EdMedia + инновационное обучение 2013 (24 июня, 2013) стр. 506–514

    • Использование структурированных интервью для оценки TPACK опытных учителей

      Джуди Харрис, Колледж Уильяма и Мэри, США; Нил Грандгенетт, Университет Небраски в Омахе, США; Марк Хофер, Колледж Уильяма и Мэри, США

      Международная конференция Общества информационных технологий и педагогического образования 2012 г. (05 марта, 2012) стр.4696–4703

    Эти ссылки основаны на автоматически извлеченных ссылках и могут содержать ошибки. Если вы заметили ошибку, свяжитесь с [email protected].

    Адаптивная педагогика формирующего оценивания — укрепление системы оценивания учащихся

    Вопрос 4: Соответствует ли адаптивная формирующая педагогика цели и итоговой оценке?

    Формирующие возможности помогают учащимся развить больший контроль над своим обучением и предоставляют учителям свидетельства успеваемости.

    Классные занятия являются формирующими, когда они информируют и формируют то, как учащиеся узнают ожидания от выполнения оценки качества. С меньшим количеством итоговых оценочных заданий в новой парадигме для старших школьников формативное оценивание стало еще более значимым. Возможности для формирования часто включают сверстников и самооценку. Благодаря диалогу и руководству учащимися в обучении эти действия могут помочь учащимся взять на себя большую ответственность за свое обучение. Эти формирующие педагогические методы могут занять много времени, поэтому очень важен продуманный и продуманный дизайн.Также важно, чтобы учителя помогали учащимся развивать навыки, необходимые для выполнения этих формирующих задач, и создавали в классе атмосферу, способствующую общению и продуктивному сотрудничеству.

    Учителя разработали для учащихся способы самооценки и саморегулирования качества своей работы во время ее создания. Их формирующая педагогическая деятельность перечислена на этой странице вместе с отзывами студентов об этих задачах.

    Как это выглядело на практике?

    Учителя «перестраиваются» от критериев успешности оценочных заданий к разработке формирующих мероприятий.Формирующая деятельность часто связана с критериями оценки. Учителя обнаружили, что это помогло ученикам понять цель учебной деятельности. Благодаря этим целенаправленным действиям учителя также смогли узнать больше о том, как их ученики продвинулись в учебе, а также смогли скорректировать свои учебные планы в соответствии с возникающими потребностями.

    Обсудить с коллегой:

    Как вы разрабатываете возможности для развития студенческого агентства?

    Учителя разработали ряд развивающих мероприятий, чтобы помочь учащимся лучше понять свое обучение и качество оценивания. Следующие ниже комментарии были получены от студентов, которые определили, как эти формирующие оценочные задания помогли им в обучении.

    Критерии экспертов gr групп: Это только дало мне более глубокое понимание критериев и помогло мне стремиться к моей цели. Это также помогло мне распознать проблемы в работе других людей, чтобы я мог распознать их в своей собственной; видеть, что у меня действительно хорошо получается, чего мне не хватает, поэтому я могу работать над этим.

    Отзыв учителя классу: Когда она дает обратную связь с классом, так что что-то она видела в работе каждого, она составляет список, и это действительно полезно, потому что вы можете отметить и увидеть, хорошо, я знаю, что это был не я, потому что я можете видеть это, или это определенно был я, и мне нужно действительно над этим поработать.

    Увидев пример абзаца с последующим расширением: Я на самом деле обнаружил, что это действительно полезно, потому что я как бы подумал, что именно так будет выглядеть тематическое предложение буквы А, вот как будет выглядеть структура буквы А, это как это закончить. Итак … вы помните, как это должно выглядеть, так что тогда вам нужно придумать и встретить это как нечто вроде эталона.

    Критерии понимания: После этого я подумал про себя: о, мне нужно понять критерии других моих субъектов.Итак, теперь я уверен, что понимаю, чего требуют от меня критерии английского языка, это потому, что мы сделали это очень узко, изучив критерии и выполнив все эти, все эти действия, чтобы сказать, что это то, что вы должны делать … Раньше мы смотрели на лист задач, но до этого семестра никогда не разбирались в том, что это на самом деле означает. Я бы никогда — слово «проницательный отбор» встречается очень часто… Я вообще-то понятия не имел, что это значит, пока мне не объяснили этот термин… Постоянно заставлять ее рассказывать об этом в классе, и на самом деле, просто иметь это там, это действительно помогло. меня.

    Игры: Все это тоже обсуждали, так что мы тоже узнаем точку зрения других на задачу … Это также заставило людей, которые обычно не поднимают руки в классе, которые обычно не отвечают — это заставило их хотеть поднять руку и заставить их ответить на вопрос.

    Отзывы коллег: Было хорошо также получить отзывы других людей, потому что обычно, когда вы пишете свое задание, вы читаете его и думаете, что это хорошо, но потом, когда кто-то читает его, он может подобрать столько материала, что вам тоже нужно измениться … Читать [работы] других людей интересно, но я всегда немного не решаюсь изменить свое эссе, когда мои сверстники оставляют отзывы, потому что я им доверяю, но не так сильно, как настоящий учитель английского языка.

    Mock Trial: Мыслить с точки зрения персонажей пьесы и думать о действиях, которые они совершали по отношению к трем темам, которые мы изучили, были действительно эффективными. Это помогло нам лучше понять этих персонажей … Пока учителя объясняют, как это относится к модулю и как это поможет с типом оценивания, которое будет проводиться, я думаю, что это тоже хорошо. Наш учитель объяснил, как это имитационное испытание поможет построить нашу оценку, потому что формат имитационного испытания был похож на формат нашего настоящего эссе, и это в значительной степени то, что мы делали.

    Изменение порядка абзацев в аргументе: Когда вы разрезаете его, это труднее, и это помогло мне понять, что когда я на самом деле пишу абзац, мне нужно использовать больше слов-ссылок, например, соответственно, дополнительно или что-то, чтобы заставить его течь лучше, и идеи более плавно связаны. Тем не менее, когда учитель проходит через это в конце, и она объясняет, почему определенное предложение идет туда, где оно идет, а затем оно встает на свои места, и вы понимаете, хорошо, теперь я понимаю.

    Групповой анализ цитат: Вы можете увидеть цитаты, использованные другими людьми; о, я не думал об этом таким образом.Теперь вы можете использовать это на экзамене.

    Визуальные метафоры: Я больше учусь наглядно, поэтому, когда она описывает дьяволизм, я понял это, но потом снова увидел картинки, которые мне очень помогли … Я думаю, просто разговаривать с другими людьми, просто чтобы увидеть что-то подобное — потому что у нас было много текста по одной и той же цитате. Некоторые люди думали об этом совершенно иначе, чем я, что действительно помогло мне с моим эссе.

    Наклейки для анализа цитат: С некоторыми цитатами я понятия не имел, как их анализировать, поэтому я вообще не планировал использовать их.Но затем, слыша идеи других людей и образные советы, они ассоциировались с этим. Затем это помогло мне получить более глубокое понимание и действительно понять, что есть цитаты, которые я бы не стал использовать, но на самом деле они действительно очень хороши для каждой из них.

    Совместное исследование: Выполнение этого с кем-то еще в группе помогло, потому что другие люди могли это объяснить… Я чувствую, что мы все только что стали классом английского языка. Мы все можем разделять наши идеи и никоим образом не подвергаться осуждению.Это, вероятно, просто улучшает ваши навыки анализа в целом, слышит, что говорят другие люди, слышит, что другие люди думают о вещах … Я думаю, что все наши уроки были действительно интерактивными. Итак, это не похоже на другие классы, где вы просто сидите и слушаете учителя.

    Отзывы коллег по абзацам через инструмент онлайн-обсуждения: Это придаст вам уверенности, если другие люди имеют те же идеи или пишут так же, как вы. Поскольку он в Интернете, он всегда рядом, всегда доступен, поэтому вы можете перейти к нему в любое время.

    Даже простая практика написания, простой абзац, анализ цитаты, символа или чего-то еще, действительно помогли нам укрепить наши письменные навыки и тому подобное — и укрепить нашу уверенность перед экзаменом. Потому что экзамены по английскому — это страшно. Потому что что делать, если вы ничего не делаете, или что, если вы это делаете? Но я обнаружил, что даже если бы я оставил пустой, я мог бы придумывать что-то на месте, потому что у меня была вся эта практика, когда я писал все эти другие абзацы.

    Мы знаем, что нам стало лучше … Потому что вначале мы все просто писали, как будто это было в основном объяснение.Но ближе к концу мы увидели свои улучшения, и наши последние работы были намного более структурированными, чем наши первые … а письма нашего учителя становились все меньше и меньше. Ей не пришлось так много писать.

    Сократический семинар: Обычно мы сидим рядами, и вам нужно поднять руку, когда вы хотите что-то сказать или что-то еще, и вы должны быть готовы, и вы должны подумать о том, что вы собираетесь сказать, прежде чем говорить это . Затем учитель говорит «да», и вы говорите это.Но в этой обстановке мы чувствовали себя намного более расслабленными, хотя вначале мы действительно были напуганы … Но было действительно здорово услышать мнение других людей и поговорить без какого-либо вмешательства.

    Это заставляет вас участвовать, потому что я уверен, что в нашем классе есть люди, которые не поднимали руку в течение нескольких недель или когда-либо в этом семестре, поэтому это заставляет их высказать свое мнение и по-настоящему задуматься над темой. .

    Как эта обратная связь проинформировала учителей?

    Обратная связь от студентов была возможностью проверить значимость учебной деятельности.Это также была возможность собрать доказательства эффективности дизайна оценки как повседневной формы интеллектуальной подотчетности. Подотчетность нашим ученикам иногда является неудобной идеей для учителей. Как учителя этого проекта отреагировали на отзывы учеников?

    Отзывы студентов об их обучении были собраны кем-то, кто не был учителем. В ходе 20-минутного обсуждения учащиеся размышляли над фотографиями или видеороликами, сделанными учителями на основе образовательного опыта формирующего оценивания.Студентов спросили: «Как это помогло вам в обучении?» и «что могло бы сделать его еще лучше?»

    Обсудить с коллегой

    Как в вашем контексте могут быть собраны отзывы студентов о возможностях формирующего оценивания?

    Создание и проверка вопросника по критической педагогике для оценки учителей ELT: исследование с использованием смешанных методов

    Тип документа: Исследование

    Авторы

    1 Доцент (Ph.D.), Кафедра английского языка и литературы, Литературно-гуманитарный факультет, Университет Хакима Сабзевари, Сабзевар, Иран

    2 Ассистент профессора (Ph.D.), Департамент английского языка и литературы, Кампус Шахид Бехести, Фарханский университет Мешхеда, Мешхед, Иран

    3 Кандидат наук. in TEFL, Отделение английского языка и литературы, Литературно-гуманитарный факультет, Университет Хакима Сабзевари, Сабзевар, Иран

    Абстракция

    Трансформационный подход (Freire, 1998) может быть реализован с помощью критической педагогики.В настоящем исследовании описывается разработка и проверка анкеты для доступа к критической педагогике для оценки восприятия учителями критической педагогики в двух разных контекстах, то есть в государственных и частных школах. В этом исследовании использовался дизайн смешанных методов. На качественном этапе 15 опытных учителей средних школ из государственных и частных школ в Сабзеваре, Иран, приняли участие в полуструктурированном интервью. По результатам конструктивистской обоснованной работы и обзора литературы описаны основные конструкции критической педагогики.Затем была представлена ​​операционализация обучения языку с восемью конструктами, описывающая фундаментальные принципы обучения языку с точки зрения критической педагогики. На количественной стадии 180 действительных анкет, полученных от 59 мужчин и 121 женщины, были использованы для проведения подтверждающего факторного анализа с использованием программного обеспечения LISREL 8.5. В результате был получен инструмент из 70 пунктов по пятибалльной шкале Лайкерта с удовлетворительной конструктивной валидностью, основанный на 21 конструкте критической педагогики.Анкета по критической педагогике в качестве проверенного метода может быть очень полезна исследователям и разработчикам в области ELT, учителям английского языка и инструкторам для оценки восприятия их учащимися критической педагогики.

    Ключевые слова

    .

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *