Быстрый поиск

Дипломная работа: Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

А. В этом методе дифференцирующая способность вычисляется по формуле:

где и - число правильных ответов по тесту, данных во время первого и второго тестирования соответственно, N – число испытуемых [21].

5-й метод – сравнение результатов выполнения одного и того же теста в разных группах.

А. И в последнем методе дифференцирующая способность вычисляется по формуле [21]:

где и - число правильных ответов по тесту, данных в первой и второй группах, и - число испытуемых в каждой из групп.

В. Интерпретация результатов в последних трех методах следующая: дифференцирующая способность теста считается удовлетворительной, если показатель [21].

Вывод: можно заметить, что формулы нахождения дискриминативности 2-м и 3-м методами практически не отличаются. Разница заключается лишь в том, что в первом случае мы используем метод крайних групп. В 4-м и 5-м методах особенностью является ситуация тестирования (проведение тестирования дважды в одной группе и сравнение результатов в разных группах).

ГЛАВА 3. СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА (ИП)

В предыдущем параграфе мы проанализировали 2 метода нахождения валидности, 4 метода нахождения надежности и 5 методов нахождения дискриминативности. В этой главе мы попробуем применить эти методы для оценки качества теста диагностики индивидуального прогресса.

§3.1 ОБЩАЯ ХАРАКТЕРИСТИКА И СПЕЦИФИКА ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА

Тест диагностики индивидуального прогресса школьников отличается от стандартных (классических) педагогических тестов своей структурой и целью его использования. Он предназначен для отслеживания и оценки интеллектуального продвижения учащихся школы, связанного с прохождением учебной программы. Данный диагностический инструмент содержит серию тестов разных предметных дисциплин: математика, физика, биология, русский язык. При систематическом использовании теста открывается возможность следить за прогрессом (сдвигом) в овладении средствами действий. Тест диагностики ИП измеряет уровневый прогресс, который означает переход школьника с одной ступени владения предметным содержанием на другую, более высокую.

Тест содержит закрытые задания с достаточно большим количеством вариантов ответов, а также открытые задания, в которых учащиеся должны привести решение. Как уже говорилось выше, данный диагностический инструмент состоит из тестов разных учебных дисциплин. Все тесты, кроме теста по математике, состоят из тестовых заданий с выбором ответа. А тест по математике содержит большинство заданий открытой формы. В данной работе мы остановимся подробно на тесте по математике.

В тесте диагностики ИП присутствует трехуровневая система тестовых заданий:

· Первый уровень (освоение общего смысла и формы способа действия) - выполнение тестового задания по известному шаблону. Выполнение заданий первого уровня свидетельствует о том, что ребенок освоил учебный материал, в котором требуется действие по заданному образцу, либо по изученным формулам; он может осуществлять замещение, т.е. выделять математическое отношение, заданное в «готовом» виде в тексте задачи, например, а затем переводить его из одной знаковой формы (текста задачи) в другую (в графическую, на чертеж). Если при этом ученик ничего не выполняет в заданиях второго уровня, то можно говорить, что он осваивает навыковый материал, может работать с представленным в конкретном виде материалом, но не продвигается в освоении средств мышления и понимания, т.е. не осваивает средства анализа задания.

· Второй уровень (освоение существенного основания способа действия) – выполнение задания, предполагающего выделение существенного отношения предметной ситуации. Выполнение заданий второго уровня говорит о том, что учащийся способен провести анализ задания, выделить математическое отношение, представленное не в прямом виде, а завуалировано, с провокацией (с лишними данными, с недостающими условиями, в буквенном или символическом виде). Этот ученик может выделить способ работы и применить его в новых условиях, он может осуществить перенос выделенного им математического отношения, например, с графического плана, на другой – буквенный, текстовый, т.е. ребенок способен адекватно сконструировать речевое выражение (текст задачи). Такой ученик преодолевает «натуральное» отношение к математическим знакам и выделяет существенное отношение, составляющее основу решения.

· Третий уровень (функциализация способа действия) – выполнение задания, предполагающего произвольное соотнесение двух планов – схемы решения задачи и ее текста. Ученик, выполняющий задания третьего уровня, может проводить анализ задания, выделять существенные отношения, представлять изменения отношений в условном плане, изобретать модели, преобразовывать исходные модели, конструировать задания, проводить исследования. Можно говорить, что изученные знаковые средства (чертежи, схемы и пр.) становятся для этого ребенка ресурсом для анализа и выполнения, новых для него заданий [22].

Диагностика действия на основе предложенной уровневой схемы позволяет помимо сравнительных данных получить ответ на вопрос, на каком этапе становления данного ученика (или группы учащихся) некая компетенция находится, то есть увидеть ее в развитии, оценивая пройденный путь и ближайшую перспективу [15].

Особенность теста заключается в том, что выводы об уровне мышления и понимания делаются на основе трех срезов (тест проводился три раза через определенный промежуток времени). Существенным здесь является то, что тест должен быть чувствительным к предметной динамике учащегося. Прогресс учащихся в овладении средствами действия определяется по результатам трех срезов, а уровень, на котором находится (или, на который вышел) школьник – по результат двух срезов.

Специфика теста по математике в том, что в многоуровневых задачах уровни заданы в пределах одной задачи и выстроены как изменение способа действия, то есть, чтобы решить задачу на третьем уровне, необходимо преобразовать способ действия, обнаруженный на втором уровне (см. Приложение 2, задания серии «Мозаика»). Одиночные задачи представляют набор заданий, не связанных между собой, но отличие между уровнями также задано через изменение способа действия на втором уровне и его преобразование на третьем.

В силу специфики теста, а также того, что по своему принципу он является неоднородным, необходимо вводить процедуру первичной обработки тестовых заданий. В следующем параграфе мы рассмотрим и проанализируем методы, которые использовались при обработке теста диагностики ИП.

§3.2 АНАЛИЗ СТАТИСТИЧЕСКИХ МЕТОДОВ, ИСПОЛЬЗУЕМЫХ ПРИ РАЗРАБОТКЕ ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА

Диагностический комплект для мониторинга индивидуального прогресса учащихся школы апробировался на 10 пилотных площадках, расположенных в Самарской области, республики Чувашия, городах Томск, Москва, Красноярск. Апробация основывалась на трех тестовых срезах, которые проводились в 2003-2005 годах. В каждом тестировании участвовало около 2700 учащихся 2-4 и 6-9 классах.

Задача первого среза заключалась в первичном опробовании массива разработанных тестовых заданий. Поэтому на этом этапе статистические методы не использовались.

Задачей второго и третьего срезов являлось как получение данных об учащихся, так и статистическое подтверждение качества тестовых задач.

Для проведения соответствующего анализа были отобраны данные двукратного выполнения одного и того же набора заданий одними и теми же учащимися. То есть, по сути, была применена процедура повторного тестирования и сопоставления результатов двух идентичных срезов. При этом, для сохранения возможности сравнения данных, полученных на разном предметном материале (математика, физика и т.д.), из выборки исключались учащиеся, которые выполняли тест не полностью (например, решали задания по математике, но не решали по физике).

В итоге общая выборка испытуемых составила 4106 человек, из них 734 человека – учащиеся начальной школы и 3372 – учащиеся основной школы [15].

Напомним, что нас будет интересовать тест по математике в основной школе, в апробации которого участвовало 1140 учеников.

Решая вопрос о валидности теста, авторы исходили из того, что в данном случае говорить о содержательной валидности не имеет смысла, поскольку измеряемый объект (компетентность) на сегодня не имеет устоявшегося общепринятого описания. В то же время, поскольку в основу построения тестового инструмента положена специально разработанная для данного проекта теоретическая схема, желательна проверка ее адекватности. В литературе такого рода валидность теста называется конструктной, или концептуальной. Для проверки конструктной валидности авторами было сформулировано несколько гипотез относительно возможных результатов тестирования, которые были подвергнуты эмпирической проверке. Рассмотрим их:

1. Уровни заданий положительно связаны с мерой их статистической трудности.

2. Тестируемый параметр (мера опосредствования) имеет тенденцию прогрессировать и повторное тестирование (при достаточном временном интервале) должно фиксировать прирост результатов.

3. Результаты тестирования по разным предметам специфичны и не должны сильно коррелировать между собой.

4. Результаты тестирования с помощью данного инструмента не должны сильно коррелировать с данными классических тестов умственного развития типа ШТУР [15].

При проверке первые две гипотезы являлись основными, вторые две – вспомогательными. Для проверки гипотез вычислялся ряд первичных характеристик для теста. Главной целью статистической обработки на данном этапе было подтверждение или опровержение гипотез для проверки конструктной валидности.

Для проверки третьей и четвертой гипотез вычислялся коэффициент корреляции между достижениями по разным предметам, который показал, что корреляция является незначительной. Это означает, что школьные достижения предметно специфичны, и для получения полной картины продвижения ребенка необходимо учитывать весь набор основных предметов.

Помимо соотнесения результатов по разным предметам были подсчитаны корреляции между результатами второго среза и данными, полученными с помощью теста ШТУР (Школьный тест умственного развития – для основной школы и «Словесные субтесты» - для начальной школы). Результаты показали, что корреляция не поднимается до сильной или очень сильной. Это однозначно свидетельствовало о том, что методика ШТУР, методика «Словесные субтесты» и тесты ИП измеряют не один и тот же параметр и не взаимозаменяемы.

Таким образом, третья и четвертая гипотезы подтвердились.

Для проверки второй гипотезы была разработана авторская методика на определение линейного и уровнего прогресса. Линейный прогресс авторы определяли как изменение количества решенных задач данного уровня от среза к срезу. Другими словами, насколько больше или меньше задач заданного уровня (первого, второго, третьего) решил учащийся на очередном срезе. Уровневый прогресс определялся как переход учащегося с одного уровня опосредствования на другой.

Суть методики заключалась в то, что, во-первых, учащийся подтверждает уровень мышления и понимания, во-вторых, делается прогноз на прогресс.

Так как с разработанными материалами было проведено два среза, методику не удалось реализовать. Но, однако, по этой методике можно было утверждать, подтвердил учащийся уровень мышления и понимания или нет.

Согласно этой методике, авторы использовали данные двух срезов тестирования. Полученные результаты согласовывались с теоретическими представлениями. Данный метод не имеет аналогов, поскольку связан с новой концепцией.

Остановимся подробнее на первой гипотезе: уровни заданий положительно связаны с мерой их статистической трудности.

Для проверки первой гипотезы был введен показатель достижение учащегося (), который представляет собой отношение количества правильно выполненных заданий теста к общему числу заданий из данного набора. Было определено численное значение этого показателя для трех разных наборов задач каждого теста:

a. - общее число задач теста;

b. - суммарное число задач 2-го и 3-го уровней;

c. - число задач 3-го уровня.

Как уже отмечалось ранее, тест по математике имеет свою специфику, а именно количество , (общее число задач каждого уровня соответственно) рассчитывается, а не дано натурально (не совпадает с числом заданий в тесте). То есть,

числа заданий в тесте,

(сумма заданий 1-го, 2-го и 3-го уровней будет больше числа заданий в тесте).

Такие задания, которые учащиеся могут решить на разных уровнях называются уровневыми и при обработке они рассматриваются как несколько разных заданий. То есть, если учащийся решает задание на самом высоком уровне, то автоматически ему зачитывается, что он решил ее на более низких уровнях. (Приложение 2, задачи серии «Мозаика»).

Затем авторами были определены средние значения указанных показателей:

a. , где - количество задач первого уровня;

b. , где - количество задач второго уровня;

c. , где - количество задач третьего уровня.

Эти величины выражают точки сгущения достижений учащихся (в унимодальном распределении).

Для выяснения нормальности распределения вычислялся еще один показатель стандартное отклонение. По критерию «3-х сигм» определялась нормальность распределения, что свидетельствовало о достоверности результатов.

Также был использован показатель трудности теста в целом. Для того чтобы охарактеризовать этот показатель использовались средние значения, которые, как мы уже выяснили, показывают смещенность точки сгущения (Рис.1). Интерпретация этого показателя следующая: чем больше смещение влево, тем тест труднее для данной группы учащихся [25]. Для данной ситуации по отношению к задачам 2-го и 3-го уровней тест сложный, а по отношению ко всем заданиям теста – средней сложности.

Трудный тест Средний тест

Легкий тест

Рис.1 Определение трудности теста в целом

Теперь рассмотрим показатель трудности по отношению к задаче и проанализируем его. Авторы определяют показатель трудности как отношение количества решивших задачу к общему числу испытуемых (сколько процентов учащихся решили задачу из всех). Также авторы используют такой показатель как индекс трудности и определяют его как величину обратную трудности.

Показатель трудности характеризует не саму задачу, а ее по отношению к ситуации тестирования. Это показатель вычисляется для всех тестов, но вычисляется в зависимости от специфики теста. Если для классических (однородных) тестов показатель трудности принимает значение более 80% или менее 20%, то это говорит о том, что задачу решают или не решают почти все испытуемые. В таких случаях задачи исключают из теста. В тесте диагностики ИП наоборот, если измерять уровень задачи, то надо понять что задачи 1-го уровня должны решать больше, а задачи 3-го уровня меньше. Поэтому авторы назначают следующие диапазоны:

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9