В крайнем левом столбце таблицы записаны номера тестируемых персон, в самой верхней строке записаны номера тестовых заданий |
|
Знак суммы; в этом столбце суммируется и выводится количество правильных заданий выполненных тестируемым |
|
Экспертная оценка — это оценка, которую выставляет сам преподаватель по десятибальной шкале, исходя из личного мнения о тестируемом, из опыта преподавания; преподавателем не должны овладеть злость, щедрость, обиды, радости, волнения, негодавания или иные проявления отношения к тому или иному тестируемому — иначе результаты анализа теста могут оказаться неудовлетворяующими действительности |
Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. При такой оценке очень важно выбрать значимый внешний критерий. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний студентов без использования тестов. Процесс валидизации осложняется необходимостью установления меры согласованности оценок экспертов, которых обычно бывает не менее трех человек.
Основная формула![]() |
количество правильных ответов | известно |
![]() |
средняя арифметическая тестовых баллов тестируемых | $$ = \frac{1}{n}\sum\limits_{i=1}^n y_{i} $$ |
![]() |
экспертная оценка | известно |
![]() |
среднее арифметическое экспертных оценок | $$ = \frac{1}{n}\sum\limits_{i=1}^n Y_{i} $$ |
![]() |
стандартное отклонение количества правильных оценок | $$ =\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n (y_{i} - \overline{y})^{2}} $$ |
![]() |
стандартное отклонение экспертных оценок | $$ =\sqrt{\frac{1}{n-1}\sum\limits_{i=1}^n (Y_{i} - \overline{Y})^{2}} $$ |
Однако большинство авторов предпочитают рассматривать только надежность как внутреннюю согласованность, так как этот вид измерений требует проведение тестирование только один раз. В случае надежность как внутренняя согласованность проводить тестирование приходится два раза.
Надежность как устойчивость измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после первого тестирования. Для нахождения данной характеристики предлагается использовать формулу Пирсона.
Основная формула (Пирсона)![]() |
тестовый балл i-го испытуемого при первом измерении | |
![]() |
тестовый балл i-го испытуемого при повторном измерении |
Для проверки внутренней согласованности предлагается метод расщепления (автономных частей). При применении метода расщепления тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами. Используя формулу Рюлона, найдем нужный нам коэффициент.
Основная формула (Рюлона)![]() |
дисперсия разностей между результатами каждого испытуемого по обеим половинам теста | $$ = \frac{1}{n-1}\sum\limits_{i=1}^n \left ( (X_{i} - Y_{i}) - \frac{1}{n}\sum\limits_{i=1}^n(X_{i} - Y_{i})\right )^2 $$ |
![]() |
дисперсия суммарных баллов результата | $$ = \frac{1}{n-1}\left (\frac{1}{n}\sum\limits_{i=1}^n Z_{i} - Z_{i}\right )^2 $$ |
![]() |
количество правильных ответов | |
![]() |
количество правильных ответов c четным номером | |
![]() |
количество правильных ответов c нечетным номером | |
![]() |
среднее арифметическое количества правильных ответов | $$ = \frac{1}{n}\sum\limits_{i=1}^n Z_{i} $$ |
![]() |
обозначение | $$ = \frac{1}{n}\sum\limits_{i=1}^n (X_{i} - Y_{i}) $$ |
Дискриминативность задач определяется как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью.
Другими словами, дискриминативность — способность заданий теста дифференцировать студентов относительно "максимального" или "минимального" результата теста. Определение дискриминативности тестового задания необходимо для того, чтобы поставить заслон некачественным заданиям.
Для вычисления дискриминативности будет применяться метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов — это самый простой и наглядный метод вычисления дискриминативности.
Доля членов крайних групп может изменяться в широких пределах в зависимости от величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя граница "отсечения групп" составляет 10% от общего числа испытуемых в выборке, верхняя — 33%. В данном случае будет использоваться 27% группа, так как при таком процентном соотношении достигается максимальная точность определения дискриминативности. Индекс дискриминации вычисляется как разность между долей лиц, правильно решивших задачу, из "высокопродуктивной" и "низкопродуктивной" групп.
Основная формула (Индекс дискриминации)![]() |
общее количество испытуемых крайних группах | 27% от всего количества |
![]() |
количество студентов в группе худших, верно выполнивших задание | |
![]() |
количество студентов в группе лучших, верно выполнивших задание | |
![]() |
номер тестового задания | |
![]() |
коэффициент дискриминативоности тестового задания | по основной формуле |
Значение коэффициента | Интерпретация |
от 0.6 до 1 | высокая вылидность теста |
от 0.3 до 0.6 | средняя вылидность теста |
меньше 0.3 | низкая вылидность теста |
Значение коэффициента | Интерпретация |
от 0.9 до 1 | очень высокая надежность теста |
от 0.8 до 0.9 | высокая надежность теста Замечание : если тест разрабатывается профессионалами и его областью применения являются профессионально организованные службы тестирования и центры, то следует считать, что тест имеет низкую надежность. |
от 0.7 до 0.8 | хорошая надежность теста | меньше 0.7 | низкая надежность теста |
Замечание 1 : если тест разрабатывается профессионалами и его областью применения являются профессионально организованные службы тестирования и центры, то следует считать, что тест имеет низкую надежность при значении коэффициента менее 0.8. | |
Замечание 2 : если вы только начали разрабатывать тест и полученное значение коэффициента находится в пределах от 0.46 до 0.7 (тест имеет низкую надежность), то полученный результат свидетельствует о том, что в разрабатываемой методике присутствует некоторое число заданий, которые в силу своей специфичности ведут к снижению значения данного коэффициента. |
Значение коэффициента | Интерпретация |
от 0.3 до 1 | задание эффективно |
от 0.1 до 0.3 | задание следует проанализировать на пригодность использования в тесте (низкая дифференцирующая способность) |
меньше 0.1 | задание некачественное — лучшая группа отвечает хуже, чем слабая |