Тестовые испытания состоят из 5 частей и проводятся в два этапа: письменный и устный.
Каждый из разделов теста - аудирование, чтение и лексическая и грамматическая компетенции - состоял из 30 заданий, результаты которых были проанализированы по классической и современной теориям тестирования.
С помощью специальной программы, предназначенной для статистических исследований, были определены основные статистические характеристики педагогических тестов: средние значения, построение гистограмм, расчет таких показателей, как мода и медиана, а также общая дисперсия (стандартная дисперсия) результатов тестов. Среднее арифметическое баллов за тест (или правильных ответов) определяется в разрезе дисциплин (разделов). Этот показатель обобщает различия между результатами тестов, выявляет характерную для них направленность, закономерности. На основании результатов тестовых испытаний строится гистограмма выявленного распределения результатов тестов и оценивается его близость к нормальному распределению. Близость гистограммы к нормальному распределению говорит о хорошем качестве теста, о том, что тестирование проводилось объективно. Наиболее повторяющееся значение результатов теста в статистике называется модой, а значение, расположенное в середине ряда результатов теста, расположенных в порядке возрастания, называется медианой. Распределение результатов теста симметрично, когда среднее арифметическое, мода и медиана равны между собой. Чем больше эти статистические показатели отличаются друг от друга, тем больше распределение баллов отличается от нормального распределения.
В таблице 1 приведены статистические данные и гистограммы распределения по разделам: аудирование, чтение, лексическая и грамматическая компетенции. Как видно из таблицы, распределение по разделам аудирование и понимание близко к нормальному распределению, но распределение по разделам чтение и лексическая и грамматическая компетенции отличается от нормального распределения.
|
Аудирование |
Чтение |
Лексическая и грамматическая компетенции |
|||
| Количество тестируемых |
115 |
Количество тестируемых |
115 |
Количество тестируемых |
115 |
| Среднее значение |
17,62 |
Среднее значение |
13,89 |
Среднее значение |
14,86 |
| Медиана |
17,00 |
Медиана |
13,00 |
Медиана |
14,00 |
| Мод |
17 |
Мод |
11 |
Мод |
17 |
| Стандартное отклонение |
4,246 |
Стандартное отклонение |
5,496 |
Стандартное отклонение |
5,536 |
| Дисперсия |
18,028 |
Дисперсия |
30,206 |
Дисперсия |
30,647 |
|
|
|
|
|||
Таблица 1. Описательная статистика результатов испытаний
Результаты разделов аудирование, чтение, лексическая и грамматическая компетенции были проанализированы на основе модели Rash (однопараметрическая ИРТ) современной теории тестирования.
На рисунке 1 показана функции реакции на элементы и функции данных элементов на основе уровней сложности, определенных моделью Rasch. Как видно из рисунка, уровни сложности относительно равномерно распределены по разделу чтения.
На рисунке 2 показаны графики данных по трем разделам. Из рисунка видно, что в целом по всем трем компетенциям информационные графики охватывают необходимый диапазон способностей: этот охват больше для низких способностей в разделе «аудирование», больше для высоких способностей в разделе «чтение» и почти одинаковый для низких и высоких способностей в разделе «лексическая и грамматическая компетенции».

Рисунок 1. Функции реакции на элементы и (первый столбец) и функции данных элементов (второй столбец

Рисунок 2. Графики тестовых данных
Анализ надежности (Альфа-коэффициент Кронбаха) считается одним из важнейших показателей валидности. Этот показатель был введен Кронбахом в 1951 году и представляет собой общую внутреннюю стабильность теста:
| Значение альфа |
Внутренняя стабильность |
|
alpha ≥ 0,9 |
отлично |
|
0,8 ≤ alpha < 0,9 |
хорошо |
|
0,7 ≤ alpha < 0,8 |
удовлетворительно |
|
0,6 ≤ alpha < 0,7 |
сомнительно |
|
0,5 ≤ alpha < 0,6 |
плохо |
|
alpha < 0,5 |
неудовлетворительно |
А стандартная ошибка измерения показывает, насколько результат соискателя отличается от его “реальной” оценки. В таблице ниже приведены средние значения, стандартная дисперсия, Альфа-коэффициент и стандартная ошибка по трём разделам теста:
|
Разделы |
Среднее значение | Стандартная дисперсия | Альфа-коэффициент Кронбаха | Стандартная ошибка |
| Аудирование |
17,61 |
4,23 |
0,67 |
2,43 |
| Чтение |
13,89 |
5,47 |
0,79 |
2,51 |
| Лексическая и грамматическая компетенции |
14,86 |
5,51 |
0,81 |
2,40 |
| Общая |
46,36 |
13,64 |
0,90 |
4,25 |
Из таблицы видно, что значение Альфа ниже нормы по аудированию, но в целом внутренняя стабильность теста высокая.