item response analysis

ITEM RESPONSE ANALYSIS

1. Понятие латентной переменной.

2. Item Response Theory.

3. Вычисление логита трудности и логита подготовленности.

4. Модели IRT.

5. Основные принципы моделирования теста.

Латентные переменные

Свойство личности, измеряемое косвенным образом, посредством индикаторов, называется латентным (скрытым).

Специалисты такую переменную могут описать, перечислив признаки, характеризующие проявление интересующего свойства.

Например, «интеллект» непосредственно не измеряется, однако по

проявляемым признакам можно оценить уровень интеллекта индивида;

«подготовленность студентов», «знание учебной дисциплины», «способность понимать».

Латентные переменные

Чтобы измерить способность студента, необходимо разработать шкалу измерения, то есть сконструировать «линейку», позволяющую получить количественное значение способности студента. Это даст возможность сравнения нескольких индивидов.

Теоретический диапазон изменения значений способности личности – от минус бесконечности до плюс бесконечности, со средним значением в области 0. На практике, при измерении способности, ограничиваются интервалом от -5 до +5, хотя надо иметь в виду, что возможны значения и за пределами выбранного диапазона.

Item Response TheoryItem Response Theory

Теория ответов на задания

Современная теория тестов

Теория латентных черт

Теория характеристических кривых заданий

Современная теория параметризации и моделирования тестов

Item Response TheoryItem Response Theory Классическая теория – Уровень подготовленности зависит от

трудности заданий, включенных в тест Трудность задания зависит от уровня

подготовленности студентов, выполнивших тест (Hambleton и Swamination, 1985).

Поэтому при использовании различных тестов характеристики задания и уровень подготовленности студентов измерены в различных шкалах, и, как следствие, несопоставимы (Wright & Stone, 1979).

Item Response TheoryItem Response Theory IRT базируется на двух постулатах:

1. Результат выполнения студентом тестового задания может быть предсказан набором факторов, представленных скрытыми способностями.

2. Отношение между результатом выполнения студентом тестового задания и набором черт, лежащих в основе выполнения данного задания могут быть определены характеристической кривой задания (Hambleton & Swaminathan, 1985).

Item Response TheoryItem Response Theory

В IRT рассматривается три основных модели:1) Трехпараметрическая модель, 2) Двухпараметрическая модель,3) Однопараметрическая модель.

Трехпараметрическая модель (Warm, 1978) – форма характеристической кривой определяется тремя параметрами:

a – параметр дифференцирующей способности задания – задает крутизну характеристической кривой.

b – параметр трудности тестового задания – указывает местоположение на оси уровня подготовленности (θ), где вероятность правильного ответа составляет 50%, Р(θ)=0,5.

с – параметр угадывания – вероятность угадывания правильного ответа на задание.

Трехпараметрическая модель

Характеристические кривые заданий

Двухпараметрическая модель


Однопараметрическая модель


Item Response TheoryItem Response TheoryВ IRT принимаются во внимание несколько мер

трудности заданий:

1. Доля неправильных ответов испытуемых на каждое задание проектируемого теста (qj);

2. Отношение qj/pj , предложена Г. Рашем, ее можно условно назвать потенциалом трудности задания;

3. Значение натурального логарифма отношения qj/pj;

4. Корректированные в процессе шкалирования значения ln qj/p. В качестве окончательной меры трудности заданий принимается именно эта мера. В IRT она называется параметром трудности задания. Скорректированные значения ln pi/qi называются параметром подготовленности испытуемого.

Item Response TheoryItem Response Theory Основная цель IRT-моделей Анализ различий в тестовых оценках, которые

первоначально не линейны (Wright & Stone, 1973).

Преобразование вероятностей в логиты позволяет исследователям сравнивать трудности заданий и уровень подготовленности студента независимо от используемого теста (Warm, 1978).

График вероятностей доли правильных ответов и график логит-преобразованных вероятностей

Первичные баллы. Нелинейность.

Теория утверждает, а практика подтверждает, что даже небольшое изменение состава теста (в рамках той же учебной программы) приводит к другому ранжированию. При этом вполне возможна инверсия, то есть вполне может случиться так, что после этого изменения уже студент B окажется лучше студента A.

Понятно, что ни о какой объективности и точности баллов здесь говорить не приходится.

Увеличение такого балла на единицу дает различный вклад в реальный уровень подготовленности испытуемого в зависимости от того, к какому количеству баллов эта единица добавляется. Поэтому подобные баллы не являются взаимозаменяемыми, а соответствующая шкала не линейна, что недопустимо для объективных измерений.

Первичные баллы. Линеаризация.

Необходимая линеаризация состоит в выражении имеющейся в первичных баллах информации в терминах такой новой единицы, которая является неизменной на всем используемом диапазоне соответствующей метрической шкалы. Такой единицей является логит.

Первичные баллы – исходные данные, а не результаты.

Кстати, термин "балл" часто смущает и приводит к спорам о том, сколько баллов приписать верному выполнению того или иного задания. Споры эти беспочвенны, так как речь должна идти только о подсчете количества положительных исходов.

Так что первичный балл - это, по существу, вовсе и небалл! Это не конечные результаты, а, наоборот, исходные данные.

Если же пользоваться ими как результатом, то ни о какой объективности говорить не приходится. Невозможно всерьез говорить и о точности первичных баллов.

По образному выражению одного из классиков тестологии, первичные баллы - это кривое зеркало, способное исказить реальную ситуацию причудливым образом и сделать серьезное дело смешным.

Графическая интерпретация инвариантности оценок

учебных достижений

Графическая интерпретация неинвариантности первичных баллов.

Разница в первичных баллах

В случае инвариантности оценок учебных достижений разность между баллами двух испытуемых по результатам выполнения разных тестов должна остаться неизменной.

При отсутствии инвариантности разности между баллами двух испытуемых по результатам выполнения обоих тестов различны, например, как на предыдущих слайдах.

Таким образом, первичные баллы определяют собой конкретные факты и являются важными исходными данными, но не конечными результатами.

Для того чтобы из фактов извлечь нужную информацию об уровне подготовленности испытуемых, необходима специальная теория, обеспечивающая, в частности, линеаризацию первичных баллов.

Графическая иллюстрация линеаризации первичных баллов

Логит трудности

Вычисляются:1. Начальные значения логита трудности

тестовых заданий;

2. Среднее значение для логита трудности, где р – количество заданий:

3. Вариация для логита трудности, где р – количество заданий:

p

p

jj

сред

1

.

1

)( 2.

1

2

p

pU

сред

p

ii

Пример.

Логит подготовленности:

Вычисляются:1. Начальные значения логита подготовленности;

2. Среднее значение для логита подготовленности, где n – количество тестируемых:

3. Вариация для логита подготовленности, где n – количество тестируемых:

n

n

ii

сред

1

.

1

)( 2.

1

2

n

nV

сред

n

ii

Пример.

Выравнивание логитов: Цель:

Устранение зависимости логита трудности тестовых заданий и логита подготовленности тестируемого от выборки тестируемых и используемого теста.

35.8/1

89.2/1

VU

UX

35.8/1

89.2/1

VU

VY

Поправочные коэффициенты: Ошибка измерения:

Для логита трудности:

Для логита подготовленности:

Для логита трудности:

Для логита подготовленности:

ii

iqpn

XS

)( *

jj

jqpn

YS

)( *

Скорректированные значения логита

Номер задания

Количество

правильных ответов на задание

логит трудности, δj

Скорректированный логит

трудности, δj*Y

4, 5 32 -2,997 -4,395

7 30 -2,240 -3,284

6, 9 26 -1,403 -2,058

8 25 -1,246 -1,828

10 23 -0,962 -1,411

11 13 0,255 0,374

13 9 0,797 1,169

12 6 1,316 1,930

14 4 1,790 2,625

15 2 2,548 3,736

16, 17 1 3,272 4,798

U= 4,841

V= 0,722

Y= 1,466

Возможный балл

Частота, f

логит подготовленност

и, θi

Скорректированный логит

подготовленности, θi*X

1 0 -2,565 -5,503

2 2 -1,792 -3,844

3 2 -1,299 -2,787

4 1 -0,916 -1,966

5 4 -0,588 -1,261

6 7 -0,288 -0,617

7 9 0,000 0,000

8 1 0,288 0,617

9 2 0,588 1,261

10 3 0,916 1,966

11 1 1,299 2,787

12 2 1,792 3,844

13 0 2,565 5,503

U= 4,841

V= 0,722

X= 2,145

Однопараметрическая модель

Первая модель появилась в 1958 году, когда у Г. Раша возникла идея выразить вероятность правильного ответа на задание j посредством функции вида

θ - уровень подготовленности (знаний), латентная переменная;

δ - уровень трудности конкретного, латентная переменная;

e – константа, иррациональное число, равное округлённо 2,72.

11( )1 1p e e e

e e

Однопараметрическая модель педагогического измеренияВ начале 50-х годов прошлого столетия датский математик

G.Rasch стал рассматривать матрицу тестовых данных как результат взаимодействия множества испытуемых с множеством заданий.

При этом естественным образом принималась аксиома - чем труднее задание для данного испытуемого, тем ниже вероятность правильного ответа.

Из этой аксиомы следует свойство функциональности модели: вероятность правильного ответа испытуемых на задание j есть функция от взаимодействия двух параметров – от уровня подготовленности испытуемых θ и от уровня трудности задания δ.

Формально это условие можно записать P(θ) = f(θ - δ), что позволяет говорить, что эта функция от одной переменной величины, от разности значений θ-δ.

Графический образ функции

Двухпараметрическая модель

Вероятность правильного ответа на задание j вычисляется посредством функции вида

θ – уровень подготовленности (знаний), латентная переменная;

δ – уровень трудности конкретного, латентная переменная;

e – константа, иррациональное число, равное округлённо 2,72;

aj – дифференцирующая способность задания j.

1)(1 jaep

Трехпараметрическая модель

Вероятность правильного ответа на задание j вычисляется посредством функции вида

θ – уровень подготовленности (знаний), латентная переменная;

δ – уровень трудности конкретного, латентная переменная;

e – константа, иррациональное число, равное округлённо 2,72;

aj – дифференцирующая способность задания j;cj – коэффициент угадывания.

1)()1( ja

jj ecсp

Взаимное расположение заданий и уровней подготовленности на шкале логитов

План апробации тестовых заданий

1.

2.

3.

4.

5.

6.

7.

8.

9.

10.

Спасибо за внимание!

item response analysis

Documents

item response theory

item response analysis

item response theoryirt

qjpj ln qjp irt

wright stone

qj qjpj

hambleton swamination

aj jcj