“Будем активны в защите окружающей среды и поддержке “зеленой” экономики!”

Анализ тестовых испытаний для получения сертификата по английскому языку на уровень В2

28-12-2020 | 9765

Тестовые испытания состоят из 5 частей и проводятся в два этапа: письменный и устный.

Каждый из разделов теста - аудирование, чтение и лексическая и грамматическая компетенции - состоял из 30 заданий, результаты которых были проанализированы по классической и современной теориям тестирования.

С помощью специальной программы, предназначенной для статистических исследований, были определены основные статистические характеристики педагогических тестов: средние значения, построение гистограмм, расчет таких показателей, как мода и медиана, а также общая дисперсия (стандартная дисперсия) результатов тестов. Среднее арифметическое баллов за тест (или правильных ответов) определяется в разрезе дисциплин (разделов). Этот показатель обобщает различия между результатами тестов, выявляет характерную для них направленность, закономерности. На основании результатов тестовых испытаний строится гистограмма выявленного распределения результатов тестов и оценивается его близость к нормальному распределению. Близость гистограммы к нормальному распределению говорит о хорошем качестве теста, о том, что тестирование проводилось объективно. Наиболее повторяющееся значение результатов теста в статистике называется модой, а значение, расположенное в середине ряда результатов теста, расположенных в порядке возрастания, называется медианой. Распределение результатов теста симметрично, когда среднее арифметическое, мода и медиана равны между собой. Чем больше эти статистические показатели отличаются друг от друга, тем больше распределение баллов отличается от нормального распределения.

В таблице 1 приведены статистические данные и гистограммы распределения по разделам: аудирование, чтение, лексическая и грамматическая компетенции. Как видно из таблицы, распределение по разделам аудирование и понимание близко к нормальному распределению, но распределение по разделам чтение и лексическая и грамматическая компетенции отличается от нормального распределения.

Аудирование

Чтение

Лексическая и грамматическая компетенции

Количество тестируемых

115

Количество тестируемых

115

Количество тестируемых

115

Среднее значение

17,62

Среднее значение

13,89

Среднее значение

14,86

Медиана

17,00

Медиана

13,00

Медиана

14,00

Мод

17

Мод

11

Мод

17

Стандартное отклонение

4,246

Стандартное отклонение

5,496

Стандартное отклонение

5,536

Дисперсия

18,028

Дисперсия

30,206

Дисперсия

30,647

 

 

Таблица 1. Описательная статистика результатов испытаний

Результаты разделов аудирование, чтение, лексическая и грамматическая компетенции были проанализированы на основе модели Rash (однопараметрическая ИРТ) современной теории тестирования.

На рисунке 1 показана функции реакции на элементы и функции данных элементов на основе уровней сложности, определенных моделью Rasch. Как видно из рисунка, уровни сложности относительно равномерно распределены по разделу чтения.

На рисунке 2 показаны графики данных по трем разделам. Из рисунка видно, что в целом по всем трем компетенциям информационные графики охватывают необходимый диапазон способностей: этот охват больше для низких способностей в разделе «аудирование», больше для высоких способностей в разделе «чтение» и почти одинаковый для низких и высоких способностей в разделе «лексическая и грамматическая компетенции».

Рисунок 1. Функции реакции на элементы и (первый столбец) и функции данных элементов (второй столбец

Рисунок 2. Графики тестовых данных

Анализ надежности (Альфа-коэффициент Кронбаха) считается одним из важнейших показателей валидности. Этот показатель был введен Кронбахом в 1951 году и представляет собой общую внутреннюю стабильность теста:

Значение альфа

Внутренняя стабильность

alpha ≥ 0,9

отлично

0,8 ≤ alpha < 0,9

хорошо

0,7 ≤ alpha < 0,8

удовлетворительно

0,6 ≤ alpha < 0,7

сомнительно

0,5 ≤ alpha < 0,6

плохо

alpha < 0,5

неудовлетворительно

А стандартная ошибка измерения показывает, насколько результат соискателя отличается от его “реальной” оценки. В таблице ниже приведены средние значения, стандартная дисперсия, Альфа-коэффициент и стандартная ошибка по трём разделам теста:

Разделы

Среднее значение Стандартная дисперсия Альфа-коэффициент Кронбаха Стандартная ошибка
Аудирование

17,61

4,23

0,67

2,43

Чтение

13,89

5,47

0,79

2,51

Лексическая и грамматическая компетенции

14,86

5,51

0,81

2,40

Общая

46,36

13,64

0,90

4,25

Из таблицы видно, что значение Альфа ниже нормы по аудированию, но в целом внутренняя стабильность теста высокая.