Быстрый поиск

Дипломная работа: Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

где и - сумма квадратов отклонений по заданиям и , и - количество правильных ответов на то и другое задание соответственно; - сумма попарных произведений тестовых баллов, полученных по каждому из заданий.

Таким образом, в этом случае теснота связи между заданиями одного уровня является слабой. Это говорит о том, что задания являются валидными.

Теперь рассмотрим возможности применения методов вычисления надежности. Как мы уже знаем, надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Фактически коэффициент надежности показывает корреляционную связь между результатами измерений, проведенных в одинаковых условиях. Опять же, в силу специфической структуры теста диагностики ИП (используют задания разного типа и сложности и др.) мы не можем применять методы, которые требуют разбиение теста на две равные части. К ним относятся метод половинного деления и метод оценки достижений группы. Метод подсчета средней корреляции заданий теста и метод, который заключается в вычислении коэффициента надежности теста по формуле Кюдера-Ричардсона [21], не требующие разбиения теста на части, мы можем использовать для оценки качества заданий теста диагностики ИП. Эмпирическим путем нами было получено, что оценка надежности теста этими методами является удовлетворительной ( → 1). Но метод подсчета средней корреляции заданий теста требует составления корреляционной таблицы, на что уходит много времени. Поэтому, для обработки заданий теста диагностики ИП, мы будем вычислять надежность по формуле Кюдера-Ричардсона. Рассмотрим на примере теста диагностики ИП вычисление надежности по формуле Кюдера-Ричардсона:

Формула Кюдера-Ричардсона:

где - число заданий в тесте, - сумма дисперсий заданий теста, - дисперсия.

Число заданий в тесте 47, =71, =7,31

Таким образом, надежность найденная по формуле Кюдера-Ричардсона является удовлетворительной ( → 1).

Рассмотрим возможности применения методов нахождения дискриминативности. Анализ первого метода, который вычисляет коэффициент дискриминации, показал, что метод можно применять для данного теста. Второй и третий метод мы не можем использовать опять же в силу того, что тест имеет сложную структуру. А эти методы требуют разбиение теста на части. Четвертый и пятый методы также не подходят, так как в литературе недостаточно описана интерпретация результатов. Мы можем применять его, в том случае, если задать определенную выборку. Но это очень сложная процедура, которая требует много времени и действий.

Рассмотрим на примере теста диагностики ИП расчет дискриминативности методом, который вычисляет коэффициент дискриминации по формуле:

где x – среднее арифметическое значение всех индивидуальных оценок по тесту, - среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу, - среднеквадратическое отклонение индивидуальных оценок по тесту для выборки, n – число испытуемых, правильно решивших задачу, - общее число испытуемых.

Общее число испытуемых ; число испытуемых, правильно решивших задачу ; среднее арифметическое значение всех индивидуальных оценок по тесту ; среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу ; среднеквадратическое отклонение индивидуальных оценок по тесту для выборки .

Таким образом, дифференцирующая способность, найденная методом, который вычисляет коэффициент дискриминации, является удовлетворительной.

Вывод: нами были рассмотрены возможности применения классических методов оценки валидности, надежности, дискриминативности. Для обработки заданий теста диагностики ИП мы выделили: один метод нахождения валидности – вычисление коэффициента корреляции по формуле Пирсона; один метод нахождения надежности - вычисление коэффициента надежности теста формулой Кюдера-Ричардсона; и один метод нахождения дискриминативности, который вычисляет индекс дискриминации.

3.3.2 О методе статистического подтверждения уровня задания

Напомним, что при анализе статистических методов, используемых при разработке теста диагностики индивидуального прогресса (см. §3.2), мы выяснили, что характеристика трудность задания является недостаточной, для того чтобы подтверждать уровень задания. То есть, нам необходима дополнительная характеристика, которая будет подтверждать уровень задания.

Разработчики теста ИП определяют трудность задания долями испытуемых, давших правильный и неправильный ответ на задание теста. С помощью этой характеристики должна определяться сложность задания (т.е. требуемый для решения уровень мышления и понимания).

Как уже говорилось раньше, показатель трудности для заданий первого уровня принимает значение в диапазоне от 50% до 100%, для заданий второго уровня – в диапазоне от 10% до 50% и для заданий третьего уровня – менее 10%. Поясним еще раз на примере недостаточность этой характеристики для выявления уровня задания.

Показатель трудности принимает значение в диапазоне от 10% до 50%, то есть, задание относится ко второму уровню. Но, большинство решивших эту задачу, находятся на первом уровне, то есть это те, кто по всему тесту справились плохо. Получается, задание второго уровня, решают слабые учащиеся и не решают сильные учащиеся, который находятся на втором и на третьем уровнях. Если задача действительно сложная, то именно сильные должны были решить ее, а не слабые. Чем сложнее задача, тем большую долю решивших ее должны составлять сильные и меньшую – слабые. Это требование должно выполняться для теста диагностики ИП.

Поэтому характеристика трудность задания может только показывать теоретически назначенный уровень, но не подтверждать его. На нее нельзя ориентироваться как на критерий для точного определения уровня задания. Таким образом, возникает необходимость в выделении дополнительного критерия, который будет подтверждать уровень задания.

Анализ метода вычисления дискриминативности с применением метода крайних групп показал, что он дает возможность оценить такую специфическую для теста диагностики ИП характеристику, как уровень задания. С помощью индекса дискриминативности мы можем выделить этот дополнительный критерий.

Рассмотрим еще раз формулу вычисления индекса дискриминативности [14]:

где - количество учащихся в группе лучших, верно выполнивших данное задание, - количество учащихся в группе худших, верно выполнивших данное задание, - общее количество испытуемых в группе лучших, - общее количество испытуемых в группе худших.

Так как формула требует разбиение испытуемых на две группы: сильных и слабых, то в данной ситуации к группе слабых мы отнесем учащихся, которые выполнили более 50% задач 1-го уровня (теоретически назначенного авторами) из всего теста, а к группе сильных отнесем учащихся, которые выполнили от 10% до 50% задач второго уровня и менее 10% задач третьего уровня (теоретически назначенных авторами) из всего теста. То есть,

- 2-й уровень + 3 уровень;

- 1-й уровень.

Обозначим доли испытуемых, как

и .

Группы и мы выбираем методом крайних групп. Как правило, берут от 10 до 30% лучших и худших по результатам выполнения всего теста. В данной ситуации мы выберем 30% испытуемых из сильной группы и 30% испытуемых из слабой группы, которые наиболее успешно справились со всем тестом (т.е. с самым высоким тестовым баллом).

Рассмотрим ситуацию, когда и принимают предельные значения.

Если , то это значит, что задачу не решил никто.

Если , то это значит, что задачу решили все.

В таких ситуациях можно сделать вывод, что задачи являются неправильными. Такие задачи, либо надо убирать из теста, либо дорабатывать.

Для задач первого уровня:

, ,

то есть, значения долей испытуемых из сильной и слабой групп примерно равны единице. Это значит, что задачу решили почти все испытуемые. А индекс дискриминации примерно равен нулю. Также должно выполняться условие, что показатель трудности более 50%.

Рассмотрим это на примере теста диагностики ИП (2-й срез, задача 5-1-1). Количество испытуемых , при делении на слабую и сильную группы в сильной оказалось 44 человека, в слабой – 404. Методом крайних групп из сильной группы остается 13 человек, из слабой - 121 человек. Из сильной группы задание решило 10 человек, из слабой группы задание решило 81 человек. Таким образом,

Трудность задания более 50%. Все условия для задачи первого уровня выполняются. Значит, задача действительно является задачей 1-го уровня.

Для задач второго уровня:

, ,

то есть доля испытуемых сильной группы близка к единице, а доля испытуемых слабой группы больше одной второй. Это значит, что задачу решили почти все испытуемые из сильной группы и больше половины, испытуемых из слабой группы. А индекс дискриминации будет принимать значения больше нуля, но меньше одной второй. Показатель трудности должен принимать значения в диапазоне от 10% до 50%.

Рассмотрим это на примере теста диагностики ИП (2-й срез, задача 6-6-2). Количество испытуемых , при делении на слабую и сильную группы в сильной оказалось 44 человека, в слабой – 404. Методом крайних групп из сильной группы остается 13 человек, из слабой - 121 человек. Из сильной группы задание решило 9 человек, из слабой группы задание решило 63 человек. Таким образом,

Трудность задания от 10% до 50%. Все условия для задачи второго уровня выполняются. Значит, задача действительно является задачей 2-го уровня.

Для задач третьего уровня:

, ,

то есть доля испытуемых сильной группы больше нуля, но меньше или равна одной второй, а доля испытуемых слабой группы близка к нулю (очень мала). Это значит, что задачу решают меньше половины испытуемых из сильной группы и почти не решают испытуемые из слабой группы. Индекс дискриминации будет принимать значения больше нуля, но меньше одной второй. Показатель трудности должен быть менее 10%.

Рассмотрим это на примере теста диагностики ИП (2 срез, задача 6-7-3). Количество испытуемых , при делении на слабую и сильную группы в сильной оказалось 44 человека, в слабой – 404. Методом крайних групп из сильной группы остается 13 человек, из слабой - 121 человек. Из сильной группы задание решило 6 человек, из слабой группы задание решило 12 человек. Таким образом,

Трудность задания менее 10%. Все условия для задачи третьего уровня выполняются. Значит, задача действительно является задачей 3-го уровня.

Вывод: мы выделили дополнительный критерий для подтверждения уровней задач в тесте диагностики ИП и показали на примерах, что этот критерий действительно подтверждает уровни задач.

§3.4 АНАЛИЗ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ЗАДАНИЙ ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА

Нами была проведена статистическая обработка результатов теста диагностики индивидуального прогресса по двум срезам. Мы провели оценку качества заданий выделенными нами методами оценки валидности, надежности, дифференцирующей способности, а также подтвердили уровни заданий, с помощью выделенного дополнительного критерия. Проанализируем результаты оценки качества заданий.

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9