Особенности статистической оценки качества теста диагностики индивидуального прогресса учащихся общеобразовательной школы

ГЛАВА 1. СОДЕРЖАНИЕ И СТРУКТУРА ПЕДАГОГИЧЕСКОГО ТЕСТА

§1.1 Понятие педагогического теста

§1.2 Структура педагогического теста

§1.3 Этапы создания педагогического теста

ГЛАВА 2. ПРИМЕНЕНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ В ТЕСТИРОВАНИИ

§2.1 Основные понятия статистики, используемые в тестологии

2.1.1 Предмет статистической обработки

2.1.2 Основные понятия статистики

2.1.3 Первичные и вторичные статистические характеристики

§2.2 Методы статистической оценки качества теста

2.2.1 Методы оценки валидности

2.2.2 Методы оценки надежности

2.2.3 Методы оценки дифференцирующей способности

ГЛАВА 3. СТАТИСТИЧЕСКИЕ МЕТОДЫ ОБРАБОТКИ ТЕСТА ДИАГНОСТИКИ ИНДИВИДУАЛЬНОГО ПРОГРЕССА

§3.1 Общая характеристика и специфика теста диагностики индивидуального прогресса

§3.2 Анализ статистических методов, используемых при разработке теста диагностики индивидуального прогресса

§3.3 Изучение возможностей применения классических  статистических методов для оценки качества заданий теста диагностики индивидуального прогресса

3.3.1 О применении методов оценки валидности, надежности, дифференцирующей способности

3.3.2 О методе статистического подтверждения уровня задания

§3.4 Анализ результатов статистической обработки заданий теста диагностики индивидуального прогресса

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА

ПРИЛОЖЕНИЯ


Введение

История возникновения и использования теста как диагностического метода а, точнее сказать, ее предыстория уходит вглубь веков. Имеются сведения, что уже с III тысячелетия до н.э. в странах Древнего Востока (Египет, Вавилон, Индия, Китай) использовались системы конкурсных испытаний интеллектуального характера, предназначенные для отбора персонала на правительственные должности (17).

Временем возникновения теста как общенаучного диагностического метода считается конец XIX века, когда для изучения индивидуальных различий начинают применяться различные способы измерения. Так английский психолог Ф. Гальтон, воспользовавшись работами бельгийского статиста А. Кетле, разработал метод статического сравнения двух рядов переменных и ввёл индекс совместного отношения, названный коэффициентом корреляции. Важным вкладом Гальтона в развитие теории тестов было определение трёх основных принципов: применение серии одинаковых испытаний к большому количеству испытуемых; статистическая обработка результатов; выделение эталонов оценки (17). Все современные тесты построены на основе статистической теории измерений, а идея эталона оценки лежит в основе определения тестов как стандартизированного инструмента (21).

Актуальность.В последние годы в образовательную систему настойчиво внедряются педагогические тесты. Цели их использования разнообразны: текущий и итоговый контроль знаний, обучение, конкурсный отбор в вузы, диагностика способностей, централизованное тестирование и др. (21). Как при создании, так и при статистической обработке результатов тестов, необходим статистический анализ для решения двух видов задач:

ü определение качества заданий;

ü определение информации о тестируемых.

В дипломной работе мы будем подробно обсуждать статистический анализ, направленный на определение качества заданий.

В настоящее время актуальна задача разработки тестов, которые отслеживают процесс становления компетентности учащихся, то есть ориентированные  на диагностику становления способов, а не на актуальные достижения. Один из таких тестов разработан в течение последних лет - тест диагностики индивидуального прогресса (ИП). Авторы этого теста определяют индивидуальный прогресс, как «комплексную положительную динамику личных ресурсов, включающую линейные и уровневые приращения способностей мышления и понимания» (3,22). Специфика таких тестов заключается в том, что они используют задания разного типа и сложности. В тесте диагностики ИП присутствует трехуровневая система заданий. Задания теста направлены на определение уровня мышления и понимания в предмете.

В силу специфической структуры этих тестов и особенности ситуации тестирования (тест проводится несколько раз через определенный промежуток времени) возникают трудности в применении классических и статистических методов оценки качества теста.

Методы статистической обработки зависят от структуры теста (8). Поэтому при серьезном изменении структуры теста необходимо изучать возможности применения известных методов и разрабатывать «новые» для его обработки.

Таким образом, возникает проблема, которая заключается в том, что при создании теста нового типа появляются трудности при статистической обработке, которые заключаются в нехватке методов.

Цель дипломной работы:разработать методы статистической обработки теста диагностики ИП для определения качества заданий.

Объект:классические методы статистической обработки качества теста.

Предмет:возможности применения методов или возможности их трансформации для статистической обработки качества теста в новой ситуации (тест нового типа).

Для достижения поставленной цели были выделены следующие основные задачи:

1. Изучить методы статистики, для того чтобы разобраться, как они применяются для статистической обработки теста;

2. Проанализировать методы статистической обработки, которые использовали авторы теста диагностики ИП;

3. Выделить условия применения классических методов статистической обработки качества теста, для того чтобы проанализировать их соответствие характеристикам для теста диагностики ИП;

4. Разработать методику применения методов для теста диагностики ИП.

При решении указанных задач у нас возникла следующая проблема: анализ методов обработки, которые использовали авторы теста диагностики ИП, показал, что характеристика трудность задания является недостаточной, для того чтобы выявить уровень задания.

Гипотеза:модифицированнуюформулу нахождения дифференцирующей способности (14, стр.192) можно применять для подтверждения уровня задания теста диагностики ИП.

Работа состоит из введения, трех глав, заключения, списка литературы (25 наименований) и двух приложений.

В первой главе анализируется понятие педагогического теста, определяется его структура и этапы создания. При создании теста большое внимание уделяется качеству тестовых заданий. Для этого используются статистические методы оценки, которые заключаются в расчете таких характеристик как валидность, надежность, дифференцирующая способность (дискриминативность). Существуют различные подходы к описанию и расчету этих характеристик. Все они основаны на статистической теории измерения.

Во второй главе дипломной работы описываются основные понятия статистики, которые мы использовали при анализе методов обработки педагогического теста. К ним относятся: случайная величина; среднее значение; дисперсия; среднее квадратическое отклонение; стандартная ошибка измерения; коэффициент корреляции.

Также были выделены первичные и вторичные статистические показатели, с помощью которых вычисляются основные характеристики статистической обработки: валидность, надежность, дискриминативность. К первичным относятся те показатели, которые используются в различных статистических методах оценки качества теста (например, средний тестовый балл группы). Вторичные показатели – те, которые вычисляются с помощью первичных (например, дисперсия тестовых результатов). Нами были рассмотрены и проанализированы известные методы обработки заданий, которые применяются в современной тестологии (2 метода нахождения валидности, 4 метода нахождения надежности, 5 методов нахождения дифференцирующей способности).

Третья глава полностью посвящена разработке методов статистической обработки теста диагностики ИП для определения качества заданий. Выделяется специфика теста диагностики ИП, которая заключается в том, что задания теста имеют разные уровни сложности. Рассматриваются проанализированные методы статистической обработки, возможности их применения для обработки теста диагностики ИП. Из всех проанализированных методов статистической оценки качества заданий во второй главе, с учетом интерпретации результатов, нами были выделены: один метод нахождения валидности – вычисление коэффициента корреляции по формуле Пирсона; один метод нахождения надежности - вычисление коэффициента надежности теста формулой Кюдера-Ричардсона; и один метод нахождения дискриминативности, который вычисляет индекс дискриминации. Анализ формулы нахождения дискриминативности (14, стр.192) показал, что с учетом интерпретации результатов, ее можно применять для подтверждения уровня заданий теста диагностики ИП.

Таким образом, была разработана методика использования методов, которые применимы для обработки теста диагностики ИП, а также выделен дополнительный критерий для подтверждения уровня заданий.

Практическая часть заключалась в применении разработанных методов при обработке результатов теста диагностики ИП по двум срезам, а также в подтверждении уровня заданий по выделенному дополнительному критерию.

В заключении описываются основные результаты работы, а также результаты обработки заданий. Результаты обработки показали, что выделенные нами новые методы «работают» и выделенный дополнительный критерий, действительно, подтверждает уровень задания. Таким образом, наша гипотеза о том, что модифицированнуюформулу нахождения дифференцирующей способности (14, стр.192) можно применять для подтверждения уровня задания теста диагностики ИП, подтвердилась на практике.


ГЛАВА 1. СОДЕРЖАНИЕ И СТРУКТУРА ПЕДАГОГИЧЕСКИХ ТЕСТОВ

§1.1 ПОНЯТИЕ ПЕДАГОГИЧЕСКОГО ТЕСТА

педагогический тест качество знание статистика

Педагогические тесты – тесты, цель которых – не измерение психических свойств, а измерение уровня усвоения определенных знаний, умений и навыков, предусмотренных учебной программой. Тест как метод предполагает технологию измерения, которая включает в себя:

ü разработку системы тестовых заданий с заданными качественными и количественными характеристиками для объективного и надежного оценивания учебных достижений испытуемых;

ü стандартизированную процедуру проведения тестирования;

ü методы статистической обработки, анализа и интерпретации полученных результатов (17).

Содержание и форма педагогического теста зависит от целей его использования. Следовательно, структура педагогического теста может быть разной. Таким образом, понятие педагогического теста можно определить как систему заданий определенного содержания, возрастающей трудности, специфичной формы, которая позволяет измерить уровень знаний, умений, навыков и представлений. Выделим несколько основных характеристик педагогического теста:

1. Специфическое содержание и форма, определяемые целями тестирования.

2. Наличие эталона (ответа), т.е. правильного метода выполнения каждого задания.

3. Указание метода обработки результатов (баллов) и критериев оценивания (шкала измерения).

4. Возможность оценки качества каждого тестового задания с помощью статистических методов обработки результатов тестирования.

5. Наличие инструкции по использованию широко применяемых тестов, в которой отражены цели тестирования, характеристика заданий и ожидаемых ответов, методика возможного использования и интерпретации тестовых результатов (17).

Педагогические тесты можно разделить на классические (например, тест ЕГЭ, см. Приложение 1) и неклассические (например, тест диагностики ИП, см. Приложение 2). Их отличие заключается в структуре и целях их использования. В следующем параграфе мы рассмотрим основные структурные компоненты педагогического теста и дадим определения этим понятиям.

§1.2 СТРУКТУРА ПЕДАГОГИЧЕСКОГО ТЕСТА

Структурными компонентами теста являются: тестовое задание – задача в тестовой форме, предназначенная для выполнения, к которой помимо содержания предъявляются требования тестовой формы и эталон – образец полного и правильного выполнения действия, служащий для сравнения достигнутого уровня с планируемым. Поскольку тестовое задание – это некоторая задача, которую приходится решать испытуемому, то необходимо усвоить понятие задачи. Под задачей понимается сформулированное для испытуемого задание по достижению определённой цели в известных условиях раннее изученными методами деятельности. В современной тестологии используют 4 формы тестовых заданий:

· задания закрытой формы (с множественным выбором), в которых тестируемый выбирает правильный ответ из данного набора ответов;

· задания открытой формы (задания на дополнение), требующие от тестируемого самостоятельное получение ответа;

· задания на установление соответствия (с множественным выбором), выполнение которых связано с выявлением соответствия между элементами двух множеств;

· задания на установления правильной последовательности, в которых тестируемый должен указать порядок действий или процессов (8).

Форма тестового задания выбирается в зависимости от целей тестирования и содержания проверяемой дисциплины. Независимо от формы тестового задания можно сформулировать ряд требований:

ü тестовое задание должно быть сформулировано четко, ясно, конкретно, не допуская двусмысленности в ответе;

ü в тексте тестового задания не должно быть непреднамеренных подсказок;

ü основной текст задания и ответы формулируются с соблюдением орфографических, пунктуационных и грамматических правил;

ü среди вариантов ответа должен существовать только один правильный или наиболее правильный ответ (17).

Мы рассмотрели основные формы и требования к составлению тестовых заданий. В следующем параграфе мы рассмотрим этапы создания педагогического теста.

§1.3 ЭТАПЫ СОЗДАНИЯ ПЕДАГОГИЧЕСКОГО ТЕСТА

Процесс создания педагогического теста должен быть эффективным, научно обоснованным средством измерения учебных достижений (8). В своей статье «Тестовые задания» Герасименко Д. рассматривает ряд этапов создания педагогического теста. Мы проанализировали эти этапы и разделили их на 4  основных блока.

1-й блок включает в себя:

1. Определение цели тестирования, области содержания, выбор вида теста, подхода к его созданию;

2. Анализ содержания учебной дисциплины и отбор содержания для теста;

3. Определение структуры теста;

4. Составление тестовых (предтестовых) заданий.

Результатом этого блока являются тестовые задания готовые для апробации.

2-й блок включает в себя экспертный анализ содержания и формы тестовых заданий и, следовательно, переработку содержания и формы заданий по результатам экспертизы. Соответственно, результатом этого блока будут являться переработанные тестовые задания, которые будут включаться в тест.

3-й блок предполагает проведение тестирования и обработку результатов тестирования. Результатом этого блока является качественная оценка тестовых заданий.

Последний блок включает в себя корректировку заданий по результатам предыдущих этапов. Итогом является составление окончательного варианта теста.

Практически первые два блока включают анализ качества теста – комплексная экспертиза, которая при разработке тестовых заданий является обязательным элементом. Последние два блока направлены на корректировку заданий для составления окончательного варианта теста (8).

Вывод: таким образом, мы видим, что статистические методы используются не только для обработки данных тестирования (данных об испытуемых), но и существенно используются при составлении теста (тестовых заданий).


ГЛАВА 2. ПРИМЕНЕНИЕ СТАТИСТИЧЕСКИХ МЕТОДОВ В ТЕСТИРОВАНИИ

§2.1 ОСНОВНЫЕ ПОНЯТИЯ СТАТИСТИКИ, ИСПОЛЬЗУЕМЫЕ В ТЕСТОЛОГИИ

2.1.1 Предмет статистической обработки

Все современные тесты построены на основе статистической теории измерений, а в основе определения тестов как стандартизированного инструмента лежит идея эталона оценки (21).

В учебно-методической литературе появилось большое количество разнообразных тестов, причем не всегда хорошего качества. Как утверждает Шкерина (21), как правило, это является результатом некачественной обработки тестовых заданий. Поэтому в такой ситуации для создателей теста (тестовых заданий) необходимо владеть методами статистической обработки для оценки качества тестовых заданий.

Оценка качества тестовых заданий заключается в расчете таких характеристик, как валидность, надежность, дифференцирующая способность. Рассмотрим эти понятия подробнее.

Валидность одна из важнейших характеристик теста, которая означает соответствие формы и содержания теста тому, что он должен оценивать или измерять по замыслу его создателей. Для различных видов валидности могут быть использованы одни и те же методы определения и, наоборот, одни и те же данные могут быть интерпретированы с точки зрения разных типов валидности (14).

Надежность теста характеризует степень устойчивости результатов тестирования каждого испытуемого. Фактически коэффициент надежности показывает корреляционную связь между результатами измерений, проведенных в одинаковых условиях. При определении надежности исходят из того, что в каждом измерении присутствуют истинный (Т) и искажающий (Е) компоненты. Определение надежности заключается в оценке соотношения этих компонентов в данных проведенного тестирования (21).

Дифференцирующая способность (ДС) - способность тестового задания дифференцировать (различать) сильных (способных) от слабых. Майоров поясняет это понятие на примере. Представим себе, что мы провели тестирование группы учащихся. В составе этой группы были отличники, хорошисты и двоечники. Логично предположить, что отличники справятся с тестом лучше, чем двоечники. Но выясняется, что с одним из заданий и двоечники, и отличники справились одинаково успешно или неуспешно. Оказывается, такое случается, если задание обладает существенными недостатками. Типичными недостатками низкодискриминативных заданий являются: излишняя сложность, запутанность формулировки; очевидность решения; абсурдность, нереальность вариантов ответов; появление двух и более правильных ответов, не оговоренных в условии. Действительно, в том случае, если задания обладают перечисленными недостатками, вероятность того, что с ними одинаково справятся (не справятся) и отличники, и двоечники довольно высока (14).

Существуют различные подходы к описанию и расчету этих характеристик. Все они основаны на статистической теории измерения. Но для расчета этих характеристик необходимо сначала подсчитать и проанализировать различные статистические показатели, которые описаны в классической теории тестирования.

Далее мы рассмотрим основные понятия статистики, для того чтобы при анализе методов оценки качества педагогического теста нам было легче понимать, в чем они заключаются.

2.1.2 Основные понятия статистики

Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. Задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов (7).

Многие авторы (4,14,17,20,21) используют разные обозначения статистических понятий. В этом параграфе мы соотнесем и систематизируем основные понятия статистики, которые мы будем использовать при анализе методов обработки педагогического теста (тестовых заданий).

Исходным понятием статистики является понятие случайной величины. Случайной называют величину, которая в результате испытания примет одно и только одно возможное значение, наперед неизвестное и зависящее от случайных причин, которые заранее не могут быть учтены (7). При статистической обработке тестов (тестовых заданий) мы используем две случайные величины:

1. первая случайная величина характеризует испытуемых;

2. вторая случайная величина характеризует задания.

Далее рассмотрим следующие основные понятия статистики. К ним относятся:

1. Среднее значение – сумма всех значений, деленная на их количество

;

2. Дисперсия – среднее значение квадрата отклонения

;

3. Среднее квадратическое отклонение – квадратный корень из дисперсии

;

4. Коэффициент корреляции – отношение корреляционного момента к произведению средних отклонений этих величин

 (7).

Мы рассмотрели основные понятия статистической теории измерения, которые мы будем использовать далее при анализе методов статистической обработки качества заданий теста. В следующем пункте рассмотрим первичные и вторичные статистические показатели.

2.1.3 Первичные и вторичные статистические показатели

Условно статистические показатели, описанные в классической теории тестирования, мы можем разделить на две группы: первичные (базовые) и вторичные. К первичным относятся те показатели, которые используются в различных статистических методах оценки качества теста. Вторичные показатели – те, которые вычисляются с помощью первичных. Рассмотрим подробнее первичные и вторичные показатели, и разберем на примере, как они вычисляются. Представим результаты выполнения теста ЕГЭ в виде таблицы (таблица 1).

Первичные:

1. Общий тестовый балл . Получается сложением всех единиц соответствующей строки;

2. Средний тестовый балл группы . Вычисляется как частное суммы всех тестовых баллов и количества испытуемых в группе.

,

где  - количество испытуемых. В рассматриваемом примере ;

3. Достижение -го испытуемого . Находится как частное количества правильно выполненных заданий и общего числа заданий.

,

где  - количество правильно выполненных заданий,  - общее число заданий.

4. Среднее достижение группы  - частное от суммы всех достижений группы на общее число испытуемых.

,

в нашем примере .

5. Отклонение достижения каждого учащегося от достижения группы  - разность среднего достижения группы и достижения -го испытуемого.

Также первичные показатели характеризуют достижения испытуемых, на основании которых делаются выводы об уровне усвоения материала и качестве его усвоения на этом уровне.

Далее рассмотрим вторичные показатели:

1. Среднее отклонение достижений испытуемых . Вычисляется по формуле


,

в нашем примере .

Таблица 1. Вычисление первичных и вторичных показателей.

Испы-

туемые

ЗаданияОбщий тестовый балл Х

Достижение

Отклонение

12345678910
1110100011050,50,06
2110001000140,40,16
3010101001150,50,06
4111001111180,80,24
5000111000140,40,16
6111100101170,70,14
7111000101160,60,04
8111111001180,80,24
Педагогическая коррекция агрессивного поведения подростков с нарушением интеллекта


Построение проектной деятельности с детьми 3 класса на основе дидактической среды Лого Миры


Проектная деятельность как средство предпрофильной подготовки учащихся


Развитие критического мышления учащихся при обучении монологической речи на немецком языке на старшем этапе обучения


Разработка урока по теории вероятности


Актуально: