Что отражает трудность заданий теста
Трудность тестовых заданий
Характеристика тестовых заданий
Сбор и статистическая обработка результатов тестирования
Для удобства обработки тестовых данных результаты заносятся в специальную таблицу – матрицу тестовых результатов. Работа с матрицей результатов тестирования представлена в практическом занятии 2 (с. 33).
По результатам апробационного тестирования определяются характеристики тестовых заданий – трудность, дискриминативность и валидность задания.
Трудность задания в классической теории тестов определяется через соотношение количества испытуемых, справившихся с данным заданием, и общего количества испытуемых, т.е. трудность задания – это доля учащихся, которые справились с заданием.
Трудность задания вычисляется по формуле
Дискриминативность тестового задания
Дискриминативность (дифференцирующая способность, различающая способность) задания – это способность задания дифференцировать испытуемых по уровню достижений, на сильных и слабых. Если задание одинаково выполняется и слабыми, и сильными, то можно говорить о низкой дискриминативности задания. Если задание выполняется сильными испытуемыми, а слабые дают отрицательный результат, то мы имеем высокую дискриминативность.
Если индекс дискриминативности выше нуля (больше 0,3 считается удовлетворительным), а еще лучше стремится к 1, то это свидетельствует о том, что задание обладает хорошим (максимальным) дифференцирующим эффектом.
Для оценки дискриминативности задания будем использовать метод крайних групп, расчет по формуле:
, где – индекс дискриминативности для j-ого задания теста; (P1)j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% лучших учеников по результатам выполнения теста; (P0)j – процент учеников, правильно выполнивших j-ое задание в подгруппе из 27% худших учеников по результатам выполнения теста.
Индекс дискриминативности изменяется в пределах [-1; 1]. Максимального значения он достигает в том случае, когда все ученики из подгруппы сильных верно выполняют данное задание, а из подгруппы слабых это задание не выполняет верно никто. В этом случае задание будет обладать максимальным дифференцирующим эффектом. Нулевого значения индекс дискриминативности достигает тогда, когда в обеих подгруппах доли учеников, справившихся с заданием равны. Соответственно дифференцирующего эффекта нет вообще. Значение меньше 0 будет в ситуации, когда данное задание теста слабые ученики выполняют успешнее, чем сильные. Естественно, что задания, у которых индекс дискриминативности равен или ниже нуля необходимо удалить из теста (табл. 6).
С помощью подсчета значений бисериальной или точечно-бисериальной корреляции также оцениваетсявалидность отдельных заданий теста. В целом задание можно считать валидным, если rpbis близко к 0,5. Оценка валидности задания позволяет судить о том, насколько задание пригодно. Если цель – дифференциация учеников по уровню подготовленности, то валидные задания должны четко отделить хорошо подготовленных от слабо подготовленных учеников тестируемой группы. Значения rpbis близкие к нулю, указывают на низкую дифференцирующую способность заданий теста. Все задания у которых rpbis
Анализ качества дистракторов в заданиях закрытой формы
Одно из важнейших требований, которое предъявляется к заданиям закрытой формы – это правдоподобность дистракторов – равноценная вероятность выбора дистрактора при неправильном ответе. Оценка качества дистрактора называется дистракторным анализом.
Дистракторный анализ предполагает подсчет долей испытуемых, выбравших каждый дистрактор. В идеальном варианте каждый дистрактор должен выбираться в равной доле от всех неправильных ответов. В таблице 7 показано идеальное распределение долей.
№ задания | 1 ответ | 2 ответ* | 3 ответ | 4 ответ |
j | 0,1 | 0,7 | 0,1 | 0,1 |
В таблице 8 показано, что правильно выполнили задание (выбрали 2-й ответ) 70 % испытуемых. Остальные 30 %, которые дали неправильные ответы, равномерно выбрали 1, 3, 4 ответы, т.е. в задании были даны равновероятные дистракторы.
Нам важно ваше мнение! Был ли полезен опубликованный материал? Да | Нет
Трудность и дискриминативность заданий теста. Психометрический парадокс.
Определение степени трудности тестовых заданий является обязательной процедурой, с которой начинается анализ качества разрабатываемого теста. Основная цель анализа трудности заданий сводится к выбору оптимальных по сложности заданий, которые затем можно было бы упорядочить по нарастанию сложности. Тест не должен включать слишком легкие и слишком трудные задания. Обычно, если задачу решает большинство, ее помещают (как легкую) в начале теста. Если задачу решает незначительный процент испытуемых, то ее (как трудную) помещают в конце теста.
Трудность задания определяется числом правильных ответов на данное задание в сравнении с общим объемом выборки по формуле:
Где — количество испытуемых, давших правильный ответ, – общее количество испытуемых.
Чем легче задание, тем выше этот показатель (А. Анастази,1982). Для большинства тестов принято, что задания с Психометрическое обоснование диагностических методик от 0,8 до 0,2 считаются удовлетворительными. То есть задачи, с которыми не справилось более 80% и менее 20% испытуемых, в тест не включают как мало полезные. Анастази считает, что уровень трудности должен иметь некоторый разброс, но в среднем он должен составлять 0,5. Именно в этом случае, тест обеспечивает лучшую дифференциацию результатов (см. ниже о дискриминативности теста).
где b – количество решивших первую задачу, но не решивших вторую,c – количество решивших вторую задачу, но не решивших первую.
При χ2 > 6,631 различия в индексах трудности двух задач следует считать достоверными.
Дискриминативность тестовых заданий
При разработке теста необходимо стремиться к тому, чтобы его задания как можно тоньше измеряли тестируемое свойство. Например, если в результате обследования почти все испытуемые получают примерно одинаковые результаты, то это означает, что тест измеряет очень грубо. Чем большее количество градаций результатов можно получить при помощи теста, тем выше его разрешающая способность. Мера тонкости измерения (или степень диффиренцируемости результатов) теста называется в психометрикедискриминативностью. Дискриминативность теста измеряется показателем дельта Фергюсона:
Наименьшаядискриминативность теста при δ = 0, наибольшая при δ = 1
Психометрический парадокс — явление, возникающее при использовании личностных опросников. Его сущность состоит в том, что вопросы (утверждения), имеющие высокий показатель дискриминативности, являются неустойчивыми по отношению к повторяемости результата, и, наоборот, стабильность ответа часто отмечается у тех вопросов, которые обладают низкой дискриминативностью.
П. Айзенбергом (1941) было показано, что вопросы, которые позволяют отличать больных неврозом от других больных или здоровых, являются ненадежными; иначе говоря, мала вероятность получения того же самого ответа при повторном обследовании. В то же время с помощью вопросов, определяемых как надежные, различение изучаемых групп не достигалось или было неудовлетворительным. Позднее изучению этого явления, получившего название психометрический парадокс были посвящены работы Л. Голдберга (1963) и М. Новаковской (1975).
Голдберг рассматривает психометрический парадокс как определенную зависимость между постоянством и вариабельностью ответов на вопросы.
Психометрический парадокс не может быть объяснен без психологического анализа процесса формирования ответов на вопросы личностных опросников. Согласно М. Новаковской, вопросы, оставаясь формально неизменными, подвержены семантическим (психологическим) преобразованиям как в плане интериндивидуальном, так и интраиндивидуальном. Интериндивидуальная изменчивость обусловлена двумя причинами: различия в выраженности измеряемой черты (свойств) у разных обследуемых и различия в понимании значения вопросов. Интраиндивидуальная изменчивость обусловлена вариабельностью значения, трудностью принятия решения об ответе и флуктуацией выраженности черты (последний источник изменчивости можно не учитывать, если интервал между повторными исследованиями невелик).
Для психологической интерпретации психометрического парадокса М. Новаковская предлагает различать три детерминанты ответов: выраженность черты у обследуемого; значение, придаваемое вопросу; степень легкости принятия решения об ответе. Она подчеркивает также необходимость отличать вопросы однозначные от многозначных, которые в известном смысле могут быть уподоблены проективным стимулам.
М. Новаковская предлагает различать два вида психометрического парадокса — типа А и типа В — и исходит из следующих гипотез их возникновения.
Парадокс типа А возникает при вопросах, поддающихся различному истолкованию (многозначных), а также в том случае, когда трудно принять решение об ответе. Такие вопросы имеют высокий показатель дискриминативности при значительной вариабельности ответа. Например, «Ваше настроение обычно хорошее?» (в одном из вариантов опросника на определение нейротизма).
Парадокс типа В возникает при однозначных вопросах, для которых легко подобрать ответ. Сюда же должны быть отнесены т. н. односторонние диагностические вопросы или те вопросы, для которых только один тип ответа является диагностически значимым. Подобные вопросы характеризуются слабой дискриминативностью и незначительно выраженной вариабельностью. Например: «Часто ли вам снится, что вы оказались в пасти крокодила?» (в одном из вариантов опросника для определения уровня тревожности). Вопрос является диагностически односторонним, поскольку из ответа «да» мы можем заключить о наличии тревожности, а из ответа «нет» мы не можем сделать никакого вывода.
Чем больше в методике вопросов, дающих парадокс типа В, тем больше надежность, определяемая коэффициентом корреляции между результатами повторных исследований. Однако одновременно снижается дискриминативная сила вопросов.
Исследователь, зная о существовании психометрического парадокса, может регулировать вариабельность ответов путем подбора вопросов с соответствующими параметрами.
Необходимо учитывать психометрический парадокс при конструировании (адаптации) личностных опросников.
Дата добавления: 2019-07-17 ; просмотров: 637 ; Мы поможем в написании вашей работы!
Что отражает трудность заданий теста
Если педагогический тест определить кратко как систему заданий равномерно возрастающей трудности, то станет понятно, что трудность заданий является важнейшим, скажем так, тест образующим показателем. Немало руководителей школ считают, что их учителя в состоянии «придумать» за короткое время могут сколько угодно «тестов». На самом же деле можно придумать довольно много заданий в тестовой форме. А совсем не тесты, а только задания. Их нельзя включать в настоящий тест до тех пор, пока не станет известной мера их трудности, а также и другие характеристики. Мера трудности проверяется эмпирически. Из этого требования становится понятной обязательность предварительной эмпирической проверки каждого задания, до начала тестирования. В процессе проверки многие задания не выдерживают предъявляемых к ним требований, и потому не включаются в тест. Первое требование к тестовым заданиям: в тесте задания должны различаться по уровню трудности, что вытекает из данного ранее определения теста и рассматриваемого принципа.
Внимательный читатель вероятно уже уловил различия в лексике трех как бы «незаметно» введенных здесь основных понятий теории педагогических измерений: понятие педагогического теста, задания в тестовой форме и тестового задания. Требования к первому из них уже было рассмотрено в статье «Определение педагогического теста» (УШ № 30, август 1999г.).
Требования ко второму понятию лучше ввести сейчас, сделав это хотя бы кратко перечислив их, для того чтобы не отвлечься от основной темы статьи. К заданиям в тестовой форме предъявляются следующие требования:
-логическая форма высказывания;
-одинаковость правил оценки ответов;
-наличие определенного места для ответов;
-одинаковость инструкции для всех испытуемых;
-правильность расположения элементов задания;
-адекватность инструкции форме и содержанию задания
Аванесов В.С. Основы педагогической теории измерений // Педагогические Измерения, 1, 2004г. С. 17.
Показатель трудности теста и тестовых заданий является содержательным и формальным одновременно. Содержательным, потому что в хорошем тесте трудность может зависеть только от трудности содержания заданий и от уровня подготовленности самих испытуемых. В то время как в плохом тесте на результаты начинают заметно влиять форма заданий (особенно если она не адекватна содержанию), плохая организация тестирования, если имеются возможности списывания, утечки информации. Особого упоминания в этой связи заслуживает вредная практика нацеленной подготовки учащихся единому государственному экзамену. Педагогов, занимавшихся таким делом, министр образования России 1907 года И.Толстой называл натаскивателями. Но педагоги виноваты менее всего. Виновата ошибочная система «егирования», которая подталкивает к такой ошибочной практике. Каков контроль, таково и образование.
Принцип возрастающей трудности используется при изложении содержания многих учебников и пособий, особенно по тем учебным дисциплинам, которые построены по кумулятивному принципу, что означает: знание последующих элементов курса в явном виде зависит от знания предыдущих учебных элементов. Такое построение присуще учебникам по математике, логике, иностранным языкам, статистике, техническим и многим другим наукам. В них ранее изученные понятия активно используются в последующих темах. Поэтому изучать такие дисциплины нужно только с самого начала, и без пробелов.
Л.Н. Ланда объяснял трудность учебной задачи тем, что учащиеся часто не знают тех операций, которые надо производить, чтобы найти решение. Если систему операций для решения некоторого класса задач назвать методом решения, то, по его мнению, трудность связана с незнанием метода, с незнанием, как нужно думать в процессе решения, как и в какой последовательности надо действовать с условиями задачи (2). Возникающие затруднения объясняются тем, что педагог часто старается дать знания о содержании изучаемого и значительно меньше заботится о том, как надо думать, рассуждать (там же). Подобное истолкование пересекается с идеей о связи сложности задания с числом операций, которые необходимо совершить для достижения успеха. Эти определения трудности и сложности являются, по большей части, психологическими; они полезны при психологическом анализе содержания тестовых заданий.
Естественным образом принимается, что pj + qj = 1. В классической теории тестов многие годы рассматривались только эмпирические показатели трудности. В новых вариантах психологических и педагогических теорий тестов больше внимание стало уделяться характеру умственной деятельности учащихся в процессе выполнения тестовых заданий различных форм (4).
При определении теста уже отмечалось, что все задания теста, хотелось бы подчеркнуть, независимо от содержания тем, разделов и от учебных дисциплин, располагаются в порядке возрастающей трудности. Распространенная, до недавнего времени, рекомендация включать в тест больше заданий средней трудности, оправдана с точки зрения определения надежности измерения по формулам т.н. классической теории тестов. Существующие в этой теории методы оценки надежности теста дают снижение надежности при включении в тест легких и трудных заданий. В то же время увлечение заданиями одной только средней трудности приводит к серьезной деформации содержания теста: последний теряет способность нормально отображать содержание изучаемой дисциплины, в которой всегда есть легкий и трудный материал. Таким образом, в погоне за абстрактной теоретически высокой надежностью теряется содержательная валидность тестовых результатов. Стремление же поднять валидность результатов теста нередко сопровождается снижением их точности. Этот феномен в теори известен как парадокс теоретика американской психометрики Ф.Лорда
Если тестируется слабая, по подготовленности, группа учащихся, то оказывается, что трудные задания теста просто не работают, потому что ни один учащийся не может правильно на них ответить. Такие задания из дальнейшей обработки данных изымаются. В адаптивных контролирующих системах они не предлагаются. Содержание теста для слабых учащихся будет заметно отличаться от содержания теста для сильных учащихся. У последних, наоборот, не работают легкие задания, так как все знающие испытуемые на легкие задания отвечают правильно. Таким образом, содержание традиционного теста существенным образом варьирует в зависимости от уровня подготовленности тех групп учащихся, на измерение знаний которых нацелен тест.
Оптимальное отображение содержания учебного материала в тестовые задания требуемого уровня трудности предполагает возможность выбора подходящей формы. Содержание теста выражается в одной из четырех основных форм заданий. Это: 1) задания с выбором одного или нескольких правильных ответов из числа предложенных; 2) задания открытой формы, где ответ испытуемый дописывает сам, в отведенном для этого месте; 3) задания на установление соответствия, и 4) задания на установление правильной последовательности действий.
Опубликовано в газете «Управление школой» № 40, октябрь, 1999г.
Что отражает трудность заданий теста
Показатель трудности тестового задания как важнейший тестообразующий фактор.
Крашенинникова Галина Геннадьевна
канд. пед. наук, Магаданский филиал РГГУ
Одной из основных характеристикой тестового задания является его трудность. Уровень трудности задания, а также уровень подготовленности тестированного – это латентные параметры, которые не поддаются непосредственному наблюдению. Для того, чтобы оценить эти параметры, требуется использовать тесно связанные с ними индикаторы. При тестировании знаний студентов в качестве индикатора выступают сами тестовые задания. Возникает задача: преобразовать значения индикаторов в значения латентных параметров. Существуют различные подходы к решению этой задачи. Классическая и современная теории тестирования предлагают свои методы оценивания латентных параметров.
Традиционной мерой трудности задания в классической теории тестов долгие годы остаётся отношение числа правильных ответов на данное задание к общему числу испытуемых в группе. Чем легче задание, тем выше процент справившихся с этим заданием [2, с. 197].
Однако данное определение несёт в себе смысловую неточность: увеличение числового значения статистического показателя говорит об уменьшении уровня трудности задания, и наоборот. Поэтому в последнее время предпринимаются попытки введения новых единиц трудности. Классическая мера трудности заменяется на противоположную и представляет собой долю неправильных ответов в группе испытуемых, что, на наш взгляд, более точно отражает смысл параметра «трудность задания».
Современная теория тестирования – Item Response Theory (IRT) – основывается на созданной П. Лазарсфельдом теории латентно-структурного анализа (ЛСА). В IRT, в отличие от классической теории, латентный параметр трактуется не как постоянная величина, а как непрерывная переменная. Методы IRT можно классифицировать по числу используемых в них параметров. Наиболее известны однопараметрическая модель Г. Раша, двух- и трехпараметрические модели А. Бирнбаума.
Георг Раш разместил на одной шкале и уровень подготовленности тестируемого и уровень трудности задания, введя для них общую единицу измерения – логит. Один логит трудности задания равен натуральному логарифму отношения доли неправильных ответов на это задание к доле правильных ответов [7].
Несмотря на то, что IRT получила в последнее время широкое распространение, она, тем не менее, обладает множеством недостатков. В частности, при тестировании учебных достижений отмечаются значительные расхождения между расчетными значениями и эмпирическими данными. Доказана также высокая корреляция (около 0,9) между результатами, полученными по модели Раша и результатами, полученными классическими методами [6]. Этот факт позволяет нам без ущерба точности вычислений пользоваться методами классической теории тестов для характеристики трудности тестовых заданий.
Хотя классическая формула расчета трудности задания достаточно удобна для исполнения и последующей трактовки полученных результатов, на наш взгляд, она не лишена некоторого субъективизма: трудность задания напрямую зависит от выборки тестируемых. В связи с этим рассмотрим еще один взгляд на оценку уровня трудности тестового задания, который, хотя и не является широко распространенным, но представляет для нас определенный интерес.
Чтобы подойти к сущности латентного параметра «трудность», обратимся к классификации уровней усвоения знаний, принятых в педагогической литературе. Можно заметить вполне объективное возрастание степени трудности усвоения для каждого последующего уровня усвоения знаний. Таким образом, мы можем сделать вывод о существовании прямой зависимости между уровнями усвоения и уровнями трудности заданий, соответствующих каждому уровню усвоения. Это позволяет нам отождествлять такие понятия как «уровень трудности» и «уровень усвоения» применительно к тестовым заданиям. Взяв за основу классификацию В.П. Беспалько [3], мы выделяем четыре уровня трудности: «ученический», типовой, эвристический, творческий.
В настоящее время в педагогике широко используются экспертные методы. Поэтому заслуживает внимание экспертное оценивание уровня трудности тестовых заданий как ещё один из вариантов оценки показателя трудности. Например, в работе А.П. Иванова [4, с. 348–351] приводится описание подобной оценки, когда до начала тестового эксперимента нескольким экспертам предлагается оценить трудность заданий всех вариантов теста в баллах. Для получения экспертной оценки автор приводит перечень из восьми факторов с соответствующими критериями оценивания от 1 до 5 баллов по каждому.
В хорошо составленном тесте на трудность задания не должна влиять ни форма, ни сама организация тестирования. Показатель трудности зависит только от содержания и уровня подготовленности тестируемых. Правда, встречается мнение, что на степень трудности задания оказывает влияние месторасположение этого задания в структуре теста. В этом случае рекомендуется использовать несколько вариантов теста, отличающихся последовательностью расположения заданий [5, с. 131]. В.С. Аванесов полагает основным принципом разработки содержания педагогических тестов возрастающую трудность тестовых заданий [1]. По его мнению, только после определения степени трудности, задание имеет шанс стать тестовым. До этого оно остается просто заданием в тестовой форме.
Включение в тест большого числа заданий средней трудности повышает его надежность, но, приводит к снижению его содержательной валидности. Тест, состоящий из легких заданий, проверяющих минимальные знания, не может дать представления о реальном уровне знаний. Подбор тестовых заданий высокой степени трудности может способствовать усилению мотивации в учебе, но может повлиять и в обратную сторону. Таким образом, тесты из трудных заданий тоже искажают результаты тестирования. Кроме того, содержание теста должно варьироваться в зависимости от уровня подготовленности групп учащихся. Трудность теста для слабых студентов заметно отличается от уровня трудности теста, предлагаемого сильным студентам.
По А. Анастази и С. Урбиной [2, с. 202–203] выбор уровня трудности задания зависит от назначения теста, от того как предполагается использовать тестовые показатели. Для предметно-ориентированных тестов трудность заданий должна быть на уровне 0,8-0,9. Определяя по уровню трудности задания его информативность, авторы показывают, что наиболее информативно задание со средним уровнем трудности, равным 0,50.
Таким образом, можно сделать вывод, что наибольшей дифференцирующей способностью обладают задания со средним уровнем трудности. И, если целью тестирования является дифференциация тестируемых, сравнительная оценка их уровня знаний, то из теста следует исключать наиболее простые и наиболее трудные задания. Если же назначение теста определить, овладел ли обучаемый в достаточной мере определённым набором компетенций, необходимым для перехода к следующему этапу обучения, то в нём могут быть как самые лёгкие, так и самые трудные задания.
Библиографический список
1. Аванесов В.С. Применение заданий в тестовой форме в новых образовательных технологиях // Школьные технологии. – 2007. – № 3. – С. 146–163.
2. Анастази А., Урбина С. Психологическое тестирование. – СПб. : Питер, 2002. – 688 с.
3. Беспалько В.П. Слагаемые педагогической технологии. – М.: Педагогика, 1989. – 192 с.
4. Иванов А.П. Систематизация знаний по математике в профильных классах с использованием тестов. – М.: Физматкнига, 2004. – 416 с.
5. Ингенкамп К. Педагогическая диагностика. – М.: Педагогика, 1991. – 240 с.
6. Ким В.С. Анализ результатов тестирования в процессе Rasch measurement // Педагогические измерения. – 2005. – № 4. – С. 39–45.
7. Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. – Chicago & London, 1980. – 199 p.