item response analysis

37
ITEM RESPONSE ANALYSIS 1. Понятие латентной переменной. 2. Item Response Theory. 3. Вычисление логита трудности и логита подготовленности. 4. Модели IRT. 5. Основные принципы моделирования теста.

Upload: avak

Post on 11-Jan-2016

63 views

Category:

Documents


1 download

DESCRIPTION

ITEM RESPONSE ANALYSIS. Понятие латентной переменной. Item Response Theory . Вычисление логита трудности и логита подготовленности. Модели IRT. Основные принципы моделирования теста. Латентные переменные. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: ITEM RESPONSE ANALYSIS

ITEM RESPONSE ANALYSIS

1. Понятие латентной переменной.

2. Item Response Theory.

3. Вычисление логита трудности и логита подготовленности.

4. Модели IRT.

5. Основные принципы моделирования теста.

Page 2: ITEM RESPONSE ANALYSIS

Латентные переменные

Свойство личности, измеряемое косвенным образом, посредством индикаторов, называется латентным (скрытым).

Специалисты такую переменную могут описать, перечислив признаки, характеризующие проявление интересующего свойства.

Например, «интеллект» непосредственно не измеряется, однако по

проявляемым признакам можно оценить уровень интеллекта индивида;

«подготовленность студентов», «знание учебной дисциплины», «способность понимать».

Page 3: ITEM RESPONSE ANALYSIS

Латентные переменные

Чтобы измерить способность студента, необходимо разработать шкалу измерения, то есть сконструировать «линейку», позволяющую получить количественное значение способности студента. Это даст возможность сравнения нескольких индивидов.

Теоретический диапазон изменения значений способности личности – от минус бесконечности до плюс бесконечности, со средним значением в области 0. На практике, при измерении способности, ограничиваются интервалом от -5 до +5, хотя надо иметь в виду, что возможны значения и за пределами выбранного диапазона.

Page 4: ITEM RESPONSE ANALYSIS

Item Response TheoryItem Response Theory

Теория ответов на задания

Современная теория тестов

Теория латентных черт

Теория характеристических кривых заданий

Современная теория параметризации и моделирования тестов

Page 5: ITEM RESPONSE ANALYSIS

Item Response TheoryItem Response Theory Классическая теория – Уровень подготовленности зависит от

трудности заданий, включенных в тест Трудность задания зависит от уровня

подготовленности студентов, выполнивших тест (Hambleton и Swamination, 1985).

Поэтому при использовании различных тестов характеристики задания и уровень подготовленности студентов измерены в различных шкалах, и, как следствие, несопоставимы (Wright & Stone, 1979).

Page 6: ITEM RESPONSE ANALYSIS

Item Response TheoryItem Response Theory IRT базируется на двух постулатах:

1. Результат выполнения студентом тестового задания может быть предсказан набором факторов, представленных скрытыми способностями.

2. Отношение между результатом выполнения студентом тестового задания и набором черт, лежащих в основе выполнения данного задания могут быть определены характеристической кривой задания (Hambleton & Swaminathan, 1985).

Page 7: ITEM RESPONSE ANALYSIS

Item Response TheoryItem Response Theory

В IRT рассматривается три основных модели:1) Трехпараметрическая модель, 2) Двухпараметрическая модель,3) Однопараметрическая модель.

Трехпараметрическая модель (Warm, 1978) – форма характеристической кривой определяется тремя параметрами:

a – параметр дифференцирующей способности задания – задает крутизну характеристической кривой.

b – параметр трудности тестового задания – указывает местоположение на оси уровня подготовленности (θ), где вероятность правильного ответа составляет 50%, Р(θ)=0,5.

с – параметр угадывания – вероятность угадывания правильного ответа на задание.

Page 8: ITEM RESPONSE ANALYSIS

Трехпараметрическая модель

Характеристические кривые заданий

Page 9: ITEM RESPONSE ANALYSIS

Двухпараметрическая модель

Характеристические кривые заданий

Page 10: ITEM RESPONSE ANALYSIS

Однопараметрическая модель

Характеристические кривые заданий

Page 11: ITEM RESPONSE ANALYSIS

Item Response TheoryItem Response TheoryВ IRT принимаются во внимание несколько мер

трудности заданий:

1. Доля неправильных ответов испытуемых на каждое задание проектируемого теста (qj);

2. Отношение qj/pj , предложена Г. Рашем, ее можно условно назвать потенциалом трудности задания;

3. Значение натурального логарифма отношения qj/pj;

4. Корректированные в процессе шкалирования значения ln qj/p. В качестве окончательной меры трудности заданий принимается именно эта мера. В IRT она называется параметром трудности задания. Скорректированные значения ln pi/qi называются параметром подготовленности испытуемого.

Page 12: ITEM RESPONSE ANALYSIS

Item Response TheoryItem Response Theory Основная цель IRT-моделей Анализ различий в тестовых оценках, которые

первоначально не линейны (Wright & Stone, 1973).

Преобразование вероятностей в логиты позволяет исследователям сравнивать трудности заданий и уровень подготовленности студента независимо от используемого теста (Warm, 1978).

График вероятностей доли правильных ответов и график логит-преобразованных вероятностей

Page 13: ITEM RESPONSE ANALYSIS

Первичные баллы. Нелинейность.

Теория утверждает, а практика подтверждает, что даже небольшое изменение состава теста (в рамках той же учебной программы) приводит к другому ранжированию. При этом вполне возможна инверсия, то есть вполне может случиться так, что после этого изменения уже студент B окажется лучше студента A.

Понятно, что ни о какой объективности и точности баллов здесь говорить не приходится.

Увеличение такого балла на единицу дает различный вклад в реальный уровень подготовленности испытуемого в зависимости от того, к какому количеству баллов эта единица добавляется. Поэтому подобные баллы не являются взаимозаменяемыми, а соответствующая шкала не линейна, что недопустимо для объективных измерений.

Page 14: ITEM RESPONSE ANALYSIS

Первичные баллы. Линеаризация.

Необходимая линеаризация состоит в выражении имеющейся в первичных баллах информации в терминах такой новой единицы, которая является неизменной на всем используемом диапазоне соответствующей метрической шкалы. Такой единицей является логит.

Page 15: ITEM RESPONSE ANALYSIS

Первичные баллы – исходные данные, а не результаты.

Кстати, термин "балл" часто смущает и приводит к спорам о том, сколько баллов приписать верному выполнению того или иного задания. Споры эти беспочвенны, так как речь должна идти только о подсчете количества положительных исходов.

Так что первичный балл - это, по существу, вовсе и небалл! Это не конечные результаты, а, наоборот, исходные данные.

Если же пользоваться ими как результатом, то ни о какой объективности говорить не приходится. Невозможно всерьез говорить и о точности первичных баллов.

По образному выражению одного из классиков тестологии, первичные баллы - это кривое зеркало, способное исказить реальную ситуацию причудливым образом и сделать серьезное дело смешным.

Page 16: ITEM RESPONSE ANALYSIS

Графическая интерпретация инвариантности оценок

учебных достижений

Page 17: ITEM RESPONSE ANALYSIS

Графическая интерпретация неинвариантности первичных баллов.

Page 18: ITEM RESPONSE ANALYSIS

  Разница в первичных баллах

В случае инвариантности оценок учебных достижений разность между баллами двух испытуемых по результатам выполнения разных тестов должна остаться неизменной.

При отсутствии инвариантности разности между баллами двух испытуемых по результатам выполнения обоих тестов различны, например, как на предыдущих слайдах.

Таким образом, первичные баллы определяют собой конкретные факты и являются важными исходными данными, но не конечными результатами.

Для того чтобы из фактов извлечь нужную информацию об уровне подготовленности испытуемых, необходима специальная теория, обеспечивающая, в частности, линеаризацию первичных баллов.

Page 19: ITEM RESPONSE ANALYSIS

Графическая иллюстрация линеаризации первичных баллов

Page 20: ITEM RESPONSE ANALYSIS
Page 21: ITEM RESPONSE ANALYSIS
Page 22: ITEM RESPONSE ANALYSIS
Page 23: ITEM RESPONSE ANALYSIS

Логит трудности

Вычисляются:1. Начальные значения логита трудности

тестовых заданий;

2. Среднее значение для логита трудности, где р – количество заданий:

3. Вариация для логита трудности, где р – количество заданий:

p

p

jj

сред

1

.

1

)( 2.

1

2

p

pU

сред

p

ii

Page 24: ITEM RESPONSE ANALYSIS

Пример.

Page 25: ITEM RESPONSE ANALYSIS

Логит подготовленности:

Вычисляются:1. Начальные значения логита подготовленности;

2. Среднее значение для логита подготовленности, где n – количество тестируемых:

3. Вариация для логита подготовленности, где n – количество тестируемых:

n

n

ii

сред

1

.

1

)( 2.

1

2

n

nV

сред

n

ii

Page 26: ITEM RESPONSE ANALYSIS

Пример.

Page 27: ITEM RESPONSE ANALYSIS

Выравнивание логитов: Цель:

Устранение зависимости логита трудности тестовых заданий и логита подготовленности тестируемого от выборки тестируемых и используемого теста.

35.8/1

89.2/1

VU

UX

35.8/1

89.2/1

VU

VY

Поправочные коэффициенты: Ошибка измерения:

Для логита трудности:

Для логита подготовленности:

Для логита трудности:

Для логита подготовленности:

ii

iqpn

XS

)( *

jj

jqpn

YS

)( *

Page 28: ITEM RESPONSE ANALYSIS

Скорректированные значения логита

Номер задания

Количество

правильных ответов на задание

логит трудности, δj

Скорректированный логит

трудности, δj*Y

4, 5 32 -2,997 -4,395

7 30 -2,240 -3,284

6, 9 26 -1,403 -2,058

8 25 -1,246 -1,828

10 23 -0,962 -1,411

11 13 0,255 0,374

13 9 0,797 1,169

12 6 1,316 1,930

14 4 1,790 2,625

15 2 2,548 3,736

16, 17 1 3,272 4,798

U= 4,841

V= 0,722

Y= 1,466

Возможный балл

Частота, f

логит подготовленност

и, θi

Скорректированный логит

подготовленности, θi*X

1 0 -2,565 -5,503

2 2 -1,792 -3,844

3 2 -1,299 -2,787

4 1 -0,916 -1,966

5 4 -0,588 -1,261

6 7 -0,288 -0,617

7 9 0,000 0,000

8 1 0,288 0,617

9 2 0,588 1,261

10 3 0,916 1,966

11 1 1,299 2,787

12 2 1,792 3,844

13 0 2,565 5,503

U= 4,841

V= 0,722

X= 2,145

Page 29: ITEM RESPONSE ANALYSIS

Однопараметрическая модель

Первая модель появилась в 1958 году, когда у Г. Раша возникла идея выразить вероятность правильного ответа на задание j посредством функции вида

θ - уровень подготовленности (знаний), латентная переменная;

δ - уровень трудности конкретного, латентная переменная;

e – константа, иррациональное число, равное округлённо 2,72.

11( )1 1p e e e

e e

Page 30: ITEM RESPONSE ANALYSIS

Однопараметрическая модель педагогического измеренияВ начале 50-х годов прошлого столетия датский математик

G.Rasch стал рассматривать матрицу тестовых данных как результат взаимодействия множества испытуемых с множеством заданий.

При этом естественным образом принималась аксиома - чем труднее задание для данного испытуемого, тем ниже вероятность правильного ответа.

Из этой аксиомы следует свойство функциональности модели: вероятность правильного ответа испытуемых на задание j есть функция от взаимодействия двух параметров – от уровня подготовленности испытуемых θ и от уровня трудности задания δ.

Формально это условие можно записать P(θ) = f(θ - δ), что позволяет говорить, что эта функция от одной переменной величины, от разности значений θ-δ.

Page 31: ITEM RESPONSE ANALYSIS

Графический образ функции

Page 32: ITEM RESPONSE ANALYSIS

Двухпараметрическая модель

Вероятность правильного ответа на задание j вычисляется посредством функции вида

θ – уровень подготовленности (знаний), латентная переменная;

δ – уровень трудности конкретного, латентная переменная;

e – константа, иррациональное число, равное округлённо 2,72;

aj – дифференцирующая способность задания j.

1)(1 jaep

Page 33: ITEM RESPONSE ANALYSIS

Трехпараметрическая модель

Вероятность правильного ответа на задание j вычисляется посредством функции вида

θ – уровень подготовленности (знаний), латентная переменная;

δ – уровень трудности конкретного, латентная переменная;

e – константа, иррациональное число, равное округлённо 2,72;

aj – дифференцирующая способность задания j;cj – коэффициент угадывания.

1)()1( ja

jj ecсp

Page 34: ITEM RESPONSE ANALYSIS

Взаимное расположение заданий и уровней подготовленности на шкале логитов

Page 35: ITEM RESPONSE ANALYSIS

Взаимное расположение заданий и уровней подготовленности на шкале логитов

Page 36: ITEM RESPONSE ANALYSIS

План апробации тестовых заданий

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Page 37: ITEM RESPONSE ANALYSIS

Спасибо за внимание!