Главная страница
qrcode

описание метода и анализ результатов. Item Response Theory


НазваниеItem Response Theory
Анкорописание метода и анализ результатов
Дата16.12.2017
Размер0.86 Mb.
Формат файлаdocx
Имя файлаcompare_vars_fin.docx
ТипДокументы
#50
Каталогdocs

С этим файлом связано 1 файл(ов). Среди них: iumk_eco_web.rar, compare_vars_fin.docx.
Показать все связанные файлы


Для інтерпретації результатів тестування використовується теорія педагогічних вимірювань Item Response Theory (IRT), яка з'явилася в 60-ті - 80-ті роки ХХ ст. Item Response Theory (IRT) – англійська назва теорії, що використовується переважно в педагогічних і психологічних вимірюваннях ([11], [22]). Ця теорія привернула до себе увагу класиків світової теорії педагогічних вимірювань і психометрики, математиків, статистиків, програмістів, педагогів та управлінців сфери освіти багатьох країн світу. До теперішнього часу за кордоном з'явилися десятки тисяч наукових досліджень з IRT, виникла ефективна практика розробки тестів, на її основі створюються адаптивні навчальні та контролюючі системи багатьох університетів і країн. У Росії назву IRT перекладають як «теорія латентних рис», «теорія характеристичних кривих завдань», «теорія моделювання та параметризації педагогічних тестів». Її активно використовують такі російські дослідники як B.C. Аванесов ([33], [44]), В.П. Беспалько [55], Д. А. Новіков [66], Кім В. С. [77] та ін.

IRT-статистика являє собою математичний інструментарій як для ранжирування учнів, так і для оцінки дифференцюючої здатності тестових завдань - кількісного показника запитання, що показує зв'язок між відповіддю на конкретне запитання і загальним результатом тестування. Розрахунки можуть проводитися за допомогою статистичних пакетів Winsteps, RUMM 2020 або процесорів електронних таблиць (MS Excel, OpenOffice Calc тощо).

Провідна ідея IRT полягає в обґрунтуванні можливості ефективного прогнозування результатів тестування за рахунок розподілу тесту на завдання різного рівня складності. Такий прогноз особливо необхідний в системах професійного відбору, адаптивного навчання та комп’ютеризованого тестового контролю знань. Прогноз заснований на твердженні, що імовірність правильної відповіді на завдання j у добре підготовленого учня, що бере участь у випробуваннях, повинна бути більше ймовірності правильної відповіді у слабо підготовленого учня: чим вище підготовка випробуваного, тим вище може бути ймовірність правильної відповіді на завдання даного рівня складності. Це твердження іноді формулюється у зворотному вигляді: чим нижче рівень підготовленості, тим меншою має бути ймовірність правильної відповіді на завдання того ж фіксованого рівня складності.

Особливість застосування IRT полягає в тому, що відповіді великої кількості учнів, що беруть участь у випробуваннях, на велику кількість завдань тесту прогнозуються на основі математичних моделей за наявності емпірично отриманої матриці вихідних тестових балів Xij, де індекс i вказує на номер досліджуваного, а індекс j - на номер завдання. Тому на основі проведення педагогічного експерименту в базових школах було складено саме таку матрицю вихідних тестових балів (для 81 учня з 5 різних класів академічного рівню)8, з позначенням правильності відповіді на кожне з використаних завдань тесту, що розроблявся нами.

Традиційна практика полягає у присвоєнні значення Xij один бал, якщо відповідь учня i на завдання j правильна, і нуль - якщо відповідь не правильна. (Можуть використовуватися і інші оцінки, особливо при застосуванні завдань різних типів [99]).

IRT спирається на такі поняття, як рівеньскладності завдання (item difficulty) та диференцююча здатність завдання (discriminant ability).

Як перший спосіб вимірювання складності завдань обирається частка неправильних відповідей учнів, що брали участь у випробуванні, на кожне завдання проектованого тесту (qj). Це вихідне значення складності кожного завдання, яке знаходять емпірично, з матриці тестових результатів, за формулою

qj = Wj / N,

де Wj - число неправильних відповідей на завдання під номером j і N – кількість учасників випробування.

Саме це значення складності представлено в таблиці з обробленими результатами педагогічного експерименту.

В подальшому поняття складності зазнає подальшого математичного уточнення. Спочатку розраховується відношення qj/pj, що є показовою мірою складності завдання, з високою варіацією результатів; воно було запропоновано Г. Рашем [1010] і може бути умовно назване потенціалом складності завдання.

Після цього розраховується для кожного завдання значення натурального логарифма відношення qj/pj, що дає сумарний показник ln qj/p. Останнє значення (в IRT його називають параметром складності завдання) використовується для побудови єдиної шкали рівня складності завдань і рівня підготовленості випробуваних, завдячуючи чому можна провести шкалювання учнів – розрахунок рейтингу з уточненими рейтинговими балами, що залежать не тільки від загальної кількості правильних відповідей, а й від складності завдань. (Точніше, для кожного з завдань беруться до уваги три формальних властивості: рівень складності, диференцююча здатність завдань (discriminant ability) і апріорна ймовірність вгадати правильну відповідь на завдання з боку непідготовленого учня.) Через те, що в дослідженнях брали участь учні різних класів і шкіл, шкалювання та розрахунок рейтингових балів учнів не проводилися.

IRT дозволяє отримати дві порівнянні шкали: одну для досліджуваних, іншу - для завдань. Для цього використовується логістична регресія (логіт-регресія) – статистична модель, яка використовується для передбачення ймовірності виникнення певної події (в нашому випадку – отримання правильної відповіді на завдання в залежності від загальної успішності проходження тесту) шляхом наближення даних до логістичної кривої. Саме в такий спосіб була побудована шкала логіт рівня складності завдань, яка дозволила отримати значення показника диференцюючої здатності aj кожного завдання.
Рис. 1. Графік логістичної функції

.
Розглянемо поняття дифернцюючої здатності на прикладі (Рис. 2). Графік показує, як залежить кількість балів, набрана за конкретне запитання (вісь у) від загальної оцінки за тест (вираженої в частках від 1, так саме, як і частка тих, хто відповів на конкретне запитання). Ідеальне запитання - таке, що дозволило б чітко розмежувати учнів, яким до снаги впоратися із завданням, від тих, хто цього зробити не в змозі (А): всі учні з балом за весь тест менше 0,3, із завданням не впоралися, всі з балом 0,3 - впоралися. Таких завдань в реальних тестах (особливо якщо розглядається статистика по великій вибірці) не буває: хтось списав, хтось припустився помилки через неуважність, хтось вгадав. Варіант Б, коли ймовірність відповіді на запитання рівномірно зростає, здається більш реальним, але таке запитання погане з точки зору завдань педагогічного вимірювання: адже на виході потрібно отримати оцінку, що розділяє учнів на класи, запитання Б для цього непридатне. Запитання В відрізняється кращою дифференціюючою здатністю: частка учнів, які відповіли на нього з загальним балом за тест менше 0,6, не перевищила 20%, тоді як серед тих, хто впорався з тестом на рівні 0,8-1 - перевищує 90%. Навпаки, запитання Г складене так, що сильні учні (ті, хто отримав більші бали за тест в цілому) відповідають на нього гірше, ніж слабкі (ті, хто набрали менший загальний бал); таке запитання потрібно відбраковувати (проблема лише в тому, що знайти його можна тільки за допомогою IRT-статистики).

Частка відповідей на конкретне запитання




Загальний бал за тестову роботу



Рис. 2. Диференціююча здатність запитань за IRT - статистикою.
IRT-статистика виділяє такі групи запитань за диференцюючою здатністю (показник aj):

Диференцююча здатність завдання

Показник (aj)

1) відсутня

0

2) дуже низька

0,01- 0,34

3) низька

0,35- 0, 64

4) середня

(окремо можна виділити підгрупу «середня +», якщо значення показника більше 1,0)

0,65-1,0

1,0-1,34

5) висока

1,35- 1,69

6) дуже висока

>1,70


Значення основних показників завдань, розрахованих за роботами учнів на апробаційних площадках наведені в таблиці. Для кожного завдання кожного з варіантів розраховано складність завдання qj та диференцюючу здатність завдання за IRT-статистикою (показник диференцюючої здатності завдання aj та група за диференцюючою здатністю ДЗ). Також в таблиці наведені завдання та правильні відповіді на них. Розрахунки проводилися за допомогою процесора електронних таблиць MS Excel 2007.





1 варіант

qj

aj

ДЗ

2 варіант

qj

aj

ДЗ

1

Роздивіться мікрофотографію та вкажіть, за якою з хромосом спостерігається моносомія.



А. Y

Б. Х

В. 11 (+)

Г. 16




0,119

1,38

висока

Роздивіться мікрофотографію та вкажіть, за якою з хромосом спостерігається трисомія.



А. 18

Б. 13 (+)

В. 3

Г. 15




0,000

0

відсутня

2

Зобразимо один із фрагментів хромосоми у вигляді такої послідовності її ділянок: ABCDEF. Вкажіть зображення видозміненого фрагменту, якщо відбудеться транслокація - перенесення на цей фрагмент хромосоми ділянки іншої хромосоми.

А. ABCDCDEF

Б. ABCDEFQP (+)

В. ABEF

Г. ABDCEF




0,119

0,86

середня

Зобразимо один із фрагментів хромосоми у вигляді такої послідовності її ділянок: ABCDEF. Вкажіть зображення видозміненого фрагменту, якщо відбудеться інверсія.


А. ABCDCDEF

Б. ABCDEFQP

В. ABEF

Г. ABDCEF (+)




0,026

0,38

низька

3

Вкажіть, що з наведеного нижче НЕ відноситься до хромосомних перебудов.

А. Переміщення ділянки однієї хромосоми в іншу

Б. Зменшення вдвічі загальної кількості хромосом (+)

В. Втрата ділянки хромосоми

Г. Обертання ділянки хромосоми на 180°




0,143

0,54

низька

Вкажіть, що з перерахованого нижче НЕ відноситься до генних мутацій.

А. Втрата нуклеотидних пар

Б. Вставка нових нуклеотидних пар

В. Заміна нуклеотидних пар: пурину на пурин, піримідину на піримідин або пурину на піримідин

Г. Зміна кількості хромосом (+)




0,128

0,64

низька

4

Вкажіть, для якого спадкового захворювання характерний каріотип, представлений на малюнку.



А. Синдром Патау

Б. Синдром Клайнфельтера (+)

В. Синдром Морріса

Г. Синдром Едвардса




0,262

0,42

низька

Вкажіть, для якого спадкового захворювання характерний каріотип, представлений на малюнку.



А. Синдром Патау

Б. Синдром Клайнфельтера

В. Синдром Морріса

Г. Синдром Шерешевського-Тернера (+)




0,205

0,63

низька

5

Визначте, яка мутація структурного гена призведе до найбільш істотної зміни послідовності амінокислот у білку, що кодується цим геном.

А. Втрата одного нуклеотиду (+)

Б. Заміна одного нуклеотиду на інший

В. Обертання триплету (трійки) нуклеотидів на 180°

Г. Втрата трьох сусідніх нуклеотидів




0,095

1,09

середня +

Яка властивість генетичного коду сприяє зменшенню кількості точкових (генних) мутацій?

А. Виродженість (+)

Б. Триплетність

В. Наявність стоп-кодонів

Г. Те, що кодони не перекриваються




0,436

0,98

середня

6

Роздивіться таблицю генетичного коду, яка містить інформацію про те, яку саме амінокислоту шифрує (кодує) той чи інший триплет нуклеотидів. В і-РНК триплет УГГ кодує амінокислоту триптофан (Трп).

Визначте, яку амінокислоту буде кодувати даний триплет, якщо в результаті мутації відбудеться заміна гуаніну аденіном.

А. Цистеїн (Цис)

Б. Тирозин (Тир)

В. Аргінін (Арг)

Г. Утвориться триплет, що не кодує амінокислоту (стоп-кодон) (+)




0,048

0,31

дуже низька

Роздивіться таблицю генетичного коду, яка містить інформацію про те, яку саме амінокислоту шифрує (кодує) той чи інший триплет нуклеотидів - кодон - інформаційної РНК (ДНК). В і-РНК триплет ГУА кодує амінокислоту валін.

Визначте, яку амінокислоту буде кодувати даний триплет, якщо в і-РНК урацил заміниться на цитозин.

А. Аланін (Ала) (+)

Б. Аспарагінова кислота (Асп)

В. Метіонін (Мет)

Г. Жодну – триплет, що утвориться, буде стоп-кодоном




0,103

0,42

низька

7

Оберіть, який вигляд має типова варіаційна крива у більшості випадків.

А. Пряма лінія, паралельна осі абсцис

Б. Куполоподібна крива (+)

В. Експонента

Г. Пряма лінія, яка йде під гострим кутом до осі абсцис




0,167

0,70

середня

Визначте, яка особливість є характерною ознакою варіаційного ряду, що відрізняє його від інших статистичних рядів.

А. Відбір даних проводиться випадково

Б. Частіше зустрічаються середні значення ознаки

В. Значення ознаки, яка досліджується, варіюють та розташовані у порядку збільшення (+)

Г. Частіше зустрічаються низькі або високі значення ознаки




0,487

0,84

середня

8

Серед запропонованих статистичних рядів вкажіть такий, що НЕ є варіаційним.

А. Розподіл людей за часом повного виведення лікарської речовини з організму

Б. Розподіл людей, що хворіють на цукровий діабет II стадії, за рівнем глюкози в крові (в мг%)

В. Розподіл видів одного з класів хордових тварин за кількістю хромосом у їхніх диплоїдних клітинах (+)

Г. Розподіл за часом формування рухової реакції у відповідь на звуковий сигнал (у секундах)




0,095

1,15

середня +

Серед запропонованих статистичних рядів вкажіть такий, що НЕ є варіаційним.

А. Розподіл новонароджених дівчаток за масою в місті К

Б. Розподіл жінок, що живуть у горах, за кількістю еритроцитів (млн в 1 мм3) в крові

В. Розподіл людей, що перехворіли на грип у місті М (на 1000 мешканців) по місяцях за останній календарний рік (+)

Г. Розподіл собак однієї породи по кількості цуценят у поносі




0,103

0,37

низька

9

Назвіть один з фактів, пов'язаних із спадковістю та мінливістю людини, який вдалося встановити за допомогою генеалогічного методу.

А. Механізм виникнення генних і хромосомних мутацій

Б. Кількість і будову хромосом

В. Зчеплене успадкування деяких ознак (+)

Г. Будову деяких генів




0,167

0,67

середня

Вкажіть, який метод НЕ використовують при вивченні спадковості та мінливості людини:



А. близнюковий

Б. генеалогічний

В. гібридологічний (+)

Г. цитогенетичний




0,256

1,22

середня +

10

Наведено родовід родини, в якій зустрічаються випадки альбінізму. Визначте тип успадкування цієї ознаки та запишіть генотипи вказаних членів родини.
Знайдіть відповідність між представниками родини (цифри) та їхніми генотипами (літери):

А. АА; Б. Аа; В. аа










На малюнку зображено родовід родини, частина членів якої хворіє на кістозно-аденоїдну епітеліому. Визначте, як успадковується захворювання, та визначте генотипи вказаних членів родини.
Знайдіть відповідність між представниками родини (цифри) та їхніми генотипами (літери):

А. АА; Б. Аа; В. аа













1. II,4 (Б)

0,143

1,05

середня +

1. І,1 (Б)

0,308

1,23

середня +




2. II,5 (В)

0,190

1,25

середня +

2. І,2 (Б)

0,103

0,76

середня




3. III,1 (В)

0,143

1,73

дуже висока

3. II,6 (В)

0,179

0,57

низька




4. III,2 (Б)

0,167

1,08

середня +

4. II,7 (А)

0,282

0,77

середня




5. III,3 (В)

0,214

0,49

низька

5. II,8 (В)

0,386

1,32

середня +

12

Розташуйте перераховані нижче ознаки в порядку збільшення норми реакції, тобто в порядку розширення діапазону, в якому ці ознаки можуть виявлятися в різних умовах середовища. (Вважаємо, що незалежно від того, про які фізичні або фізіологічні характеристики йдеться, ознака, яка варіює в діапазоні ±10 %, має вужчу норму реакції порівняно з ознакою, яка здатна змінюватися в кілька разів). (5. 2. 3. 4. 1.)

1. Кількість ударів серця за хвилину

2. pH крові

3. Температура тіла

4. Артеріальний тиск

5. Хімічний склад молекули гемоглобіну




0,447

0,63

низька

Розташуйте мутації в порядку збільшення генетичного матеріалу, який у них задіяний.

(1. 3. 5. 4. 2.)

1. Точкова заміна нуклеотиду

2. Поліплоідія

3. Делеція триплету

4. Трисомія

5. Вбудовування в хромосому вірусної ДНК




0,687

0,77

середня


Аналіз результатів статистичної обробки завдані дозволяє зробити такі висновки:

  • Більшість завдань розробленого тесту має середню диференцюючу здатність (8 завдань з 15 як у першому, так і в другому варіанті), що є доволі високим показником для тестів із вибіркою до 500 учасників досліджень.

  • Лише одне завдання другого варіанту продемонструвало відсутність диференцюючої здатності через стовідсоткове виконання учнями завдання (що може свідчити як про надмірно низьку складність завдання, так і про певні порушення процедури тестування – в учнів була можливість обмінятися результатами виконання завдання).

  • Лише одне завдання першого варіанту (6) показало дуже низький рівень диференцюючої здатності також на фоні доволі низької складності завдання. Взагалі завдання 6 обох варіантів (робота з таблицею генетичного коду) показало доволі високий відсоток виконання при низькій диференцюючій здатності, що зазвичай буває у випадках, коли практичні навички роботи з таблицею засвоюють учні, які зазвичай не демонструють високого рівня володіння теоретичним матеріалом.

  • Дослідження підтвердило конкордатність диференцюючої здатності більшості завдань різних варіантів (або високий рівень показника для обох варіантів, або низький також для обох варіантів), що може говорити про збалансованість варіантів завдань.

  • Дуже показовим є випадок дисконкордатності першого завдання для обох варіантів. За формою завдання були дуже близькими (потрібно було за фотографією обрати номер хромосоми, за якою спостерігається моносемія (1 варіант) або трисомія (2 варіант)), і без статистичної обробки результатів неможливо було передбачити таку різницю в диференцюючій здатності (висока для 1 варіанту і відсутня для 2 варіанту). Пояснити таку різницю можна лише виходячи з неочевидності для учнів того факту, що наявність в каріотипі чоловіка однієї Х-хромосоми та однієї Y-хромосоми не є ознаками моносомії.

На Рис. 3. показано взаємозалежність між диференцюючої здатністю завдань та їхньої складністю.
Завдання 1 варіанту Завдання 2 варіанту
Рис. 3. Взаємозв’язок диференцюючої здатності завдань та їхньої складності.

Як бачимо, прямої залежності немає: серед завдань тестів, розроблених для використання у педагогічному експерименті, є:

  • Складні завдання з більшою диференцюючою здатністю (варіант 2, завдання 9, 10/1, 10/5);

  • Складні завдання з меншою диференцюючою здатністю (завдання 12 обох варіантів);

  • Відносно прості завдання з більшою диференцюючою здатністю (варіант 1, завдання 1 та 10/3);

  • Відносно прості завдання з меншою диференцюючою здатністю (варіант 1, завдання 6, варіант 2, завдання 2, 6 і 8).

Це може свідчити як про різнорівневість і різноплановість тестових завдань, які є необхідною умовою проведення тестів у загальноосвітній школі, так і про певні недоліки організації проведення тестування в деяких класах.

Таким чином, було доведено важливість використання статистичних методів у обробці результатів педагогічних експериментів при розробленні тестових завдань, та практичну ефективність використання IRT-статистики для аналізу побудови завдані та їхньої інтерпретації учнями під час виконання роботи.

1 Hambleton R.K. Aplication of Item Response Theory. -Vancouver: Educ.Res. Inst. B.C., 1983.

2 Crocker Linda, Algina James. Introduction to Classical and Modern Test Theory. –New-York: Harcourt Brace Jovanovich, 1986.

3 Аванесов В.С. Научные проблемы тестового контроля знаний. - М.,1994. - 135с. Сайт Аванесова В.С. – http://www.testolog.narod.ru.

4 Аванесов В.С. Тесты: теория и методика их разработки // Приложение к газете «Первое сентября». – 2001. – № 32.

5 Беспалько, В.П. Слагаемые педагогической технологии. – М.: Педагогика, 1989. – 190 с.:ил.

6 Новиков Д.А. Статистические методы в педагогических исследованиях (типовые случаи). М.: МЗ-Пресс, 2004. – 67 с.

7 Ким В.С. Анализ результатов тестирования в процессе Rasch measurement //Педагогические измерения, N4, 2005. –С.39-45.

8 Варто уточнити, що для більшої достовірності було складено дві матриці окремо для першого та другого варіантів із 42 и 39 учнями відповідно.

9 Аванесов В.С. Форма тестовых заданий. М.: Центр тестирования, 2005. -155 с.

10 Rasch G. Probabilistic Models for Some Intelligence and Attainment Tests. Copenhagen, 1960, Danish Institute of Educational Research. (Expanded edition, Chicago, 1980, The University of Chicago Press).


перейти в каталог файлов


связь с админом