chinese/english journal of educational measurement and

17
Chinese/English Journal of Educational Measurement and Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊 Evaluation | 教育测量与评估双语季刊 Volume 1 Issue 1 Article 6 2020 二十世纪参数项目反应理论模型思想史 二十世纪参数项目反应理论模型思想史 David Thissen Lynne Steinberg Follow this and additional works at: https://www.ce-jeme.org/journal Recommended Citation Recommended Citation Thissen, David and Steinberg, Lynne (2020) "二十世纪参数项目反应理论模型思想史," Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊: Vol. 1 : Iss. 1 , Article 6. Available at: https://www.ce-jeme.org/journal/vol1/iss1/6 This Article is brought to you for free and open access by Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊. It has been accepted for inclusion in Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊 by an authorized editor of Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊.

Upload: others

Post on 07-Jul-2022

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Chinese/English Journal of Educational Measurement and

Chinese/English Journal of Educational Measurement and Chinese/English Journal of Educational Measurement and

Evaluation | 教育测量与评估双语季刊 Evaluation | 教育测量与评估双语季刊

Volume 1 Issue 1 Article 6

2020

二十世纪参数项目反应理论模型思想史 二十世纪参数项目反应理论模型思想史

David Thissen

Lynne Steinberg

Follow this and additional works at: https://www.ce-jeme.org/journal

Recommended Citation Recommended Citation Thissen, David and Steinberg, Lynne (2020) "二十世纪参数项目反应理论模型思想史," Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊: Vol. 1 : Iss. 1 , Article 6. Available at: https://www.ce-jeme.org/journal/vol1/iss1/6

This Article is brought to you for free and open access by Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊. It has been accepted for inclusion in Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊 by an authorized editor of Chinese/English Journal of Educational Measurement and Evaluation | 教育测量与评估双语季刊.

Page 2: Chinese/English Journal of Educational Measurement and

教育测量与评估双语季刊Vol.1, 44-59, Dec 2020 44

二十世纪参数项目反应理论模型思想史

David Thissen a, Lynne Steinberg b

a The University of North Carolinab University of Houston

摘要参数项目反应理论 (IRT)模型的思想史可以追溯到20世纪初 E.L. Thorndike,L.L. Thurstone和 Percival Symonds的想法。伴随着一系列潜变量模型的出现,参数项目反应理论模型逐渐形成,并在 Paul Lazarsfeld和 Federic Lord 1950年左右的文章发表后正式创立。然而在很长的一段时间里,IRT的发展一直停留在理论层面,直至 20世纪 70年代,随着计算机技术的进步,应用 IRT模型进行数据分析成为可能。大约在同一时期,原始的正态肩形模型 (normal ogivemodel)和简单 logistic模型 (simple logistic model)拓展到了更丰富的测验情景,出现可以适用于多项选择题和多级评分题 (polytomous items)的复杂模型。从20世纪 90年代一直到 21世纪初,IRT已经成为大规模教育评估的主要基础。

关键词项目反应理论;心理测量学;测验理论;历史

项目反应理论 (IRT)的历史可以回溯到近 100年前(Bock, 1997)。在最初的 25年里,心理测量学家们发展了 IRT 的三个基本要素:(1) 测验题目 (items) 和“能力”(ability) 变量可以被“定位”在同一量尺上; (2)“能力”变量是一种潜在特质 (或无法直接观察);以及 (3)观察得到的被试在题目上的作答,完全由不可观察的潜在特质解释和预测。在这之后的 25年里,实用的计算机软件不断发展,使该理论得以在实践中应用。在二十世纪下半叶,IRT为大规模教育测量中的项目分析 (item analysis) 和测验评分 (test scoring) ,以及包括健康结果测量 (health outcomes measurement) 在内的其它领域,提供了重要的方法学指导。除此以外,IRT也日益广泛地应用到了行为和社会学数据模型的大环境当中。

本文分为三个部分:首先我们将回顾二级计分项目反应 (dichotomous item responses) 模型的发展 (以正确或错误评分的能力或成就测验题目,以是或否、对或错评分的性格或态度题目),因为 IRT的大部分基础理念都由这个最简单的例子发展起来。在第二部分中,我们从著名的 Likert (1932)量表及其前身开始,对多级计分项目反应模型进行讨论。第三部分是关于参数估计方法演变的简要总结,正是这些方法最终使得 IRT成为测验发展和评分的可用工具。

1 二级计分项目反应模型

1.1 第一个想法:正态肩形模型 (The NormalOgive Model)

L.L. Thurstone 在他 20 世纪 20 年代中期发表的文章中提出了 IRT 建立的思想基石和基础。 Thur-stone (1925)在《A Method o f Scaling Psychological andEducational Tests》中提出了一种分析方法,该方法适用于那些“能够判断出对错,且对连续的年龄或年级组分别有不同标准的测试题目”。 Thurstone的灵感来源于 Cyril Burt (1922)的研究数据,该数据收集自 Burt译制的英文版比奈-西蒙量表。 Burt (1922)在书中呈现了一张表格,列举出英国儿童正确作答各个测验项目的百分比。

Thurstone (1925) 绘制了 Burt (1922) 表中 11 个问题的正确作答百分比随儿童年龄变化的图。图 1 的下半部分呈现的是这些数据的现代版本,其中,测验题目的编号与 Burt 书中的编号一致 (6, 11, 19 等)。根据Thurstone的例子,图中每个年龄的点分别位于对应年份的中点 (4.5, 5.5, 6.5等),这是因为在原本的列表中,数据是以年龄 (年为单位) 进行分类的。 Thurstone 对这些根据实测得来的曲线和累积正态 (或正态肩形)曲线间的相似性感到惊讶。虽然在1925年,想要在图上绘制概率单位曲线 (probit curves)并不容易,但图 1的下半部分用虚线表示了这些曲线。因为虚线和实线间的相似性,以及这些题目测量“心理年龄”的作用,

通讯作者: David Thissen. [email protected]. L.L. Thurstone Psychometric Laboratory, 235 E. Cameron Avenue, ChapelHill, NC 27599.译者: Sijia Huang. [email protected]. Mathematical Sciences Building. 520 Portola Plaza, Los Angeles, CA 90095.

Page 3: Chinese/English Journal of Educational Measurement and

45 Thissen & Steinberg

4 6 8 10 12 14

0.0

0.2

0.4

Mental Age

P D

ensi

ty

4 6 8 10 12 14

020

4060

80100

Chronological Age

% C

hild

ren

Cor

rect

6

1119

31

35

41 46 51 55

60

65

图 1.上方:两条正态曲线分别表示6岁和7岁组儿童的心理年龄分布[依照Thurstone (1925)中图2制作],其对应均值分别为 6.5和 7.5 (年为单位),x轴上的圆圈表示 9个题目的“位置”。下方:基于Burt (1922, pp. 132-133)的数据,计算出的儿童在11个比奈-西蒙项目上实测的正确作答比例 (实线) 随年龄变化的曲线[依照Thurstone (1925)中图 5制作]。其中,两个箭头分别表示 6岁与 7岁儿童在题目 35上的正确作答概率,即上图右侧的面积。虚线是每条实线的拟合累积正态 (肩形)曲线。

Thurstone想到:正确作答比例随儿童年龄变化的曲线可以看作正态密度曲线下的面积 (或积分)。

Thurstone通过图 1中的上半部分表达了他的想法,他写道,图中的横坐标代表“成就,或测验问题的相对难度” (Thurstone, 1925, p. 437),而两条曲线 (图 1上半部分)分别为两个组别的心理年龄分布。1 他将右侧的正态曲线描述为“7 岁儿童的比奈智力测验得分分布” (Thurstone, 1925, p. 434),用来说明他的想法梗概,即为何有些儿童能够答对题目,而有些不能。他的想法是,把题目定位到 50%的儿童能够对其正确作答的年龄量尺上,该位置上的垂直线将各个年龄组假定的智力高斯分布分为两个部分:(1)直线右侧的阴影部分代表智力超过该题目难度的儿童,他们能够答对该题目,(2)左侧则代表了智力未超过该题目难度的儿

1Thurstone交替使用心理年龄 (mental age),成就 (achievement)和智力 (intelligence)这三个术语。

童,他们不能正确作答该道题。图 1上半部分中,x轴上的圆圈表示 Burt (1922)数据中的 9个比奈-西蒙测验题目;深色和浅色的阴影区域分别表示 6岁和 7岁儿童中,能够答对题目 35所占的面积或比例。

Thurstone的想法对两个及两个以上年龄组的数据具有意义。图 1 上半部分中,曲线下的阴影区域对应下半部分中题目 35的正态累积曲线上的两个点。通过图中的箭头,这些区域和点之间建立了联系。他的想法是:对每个年龄组,都存在着类似于上半部分中的正态曲线—这些曲线会被垂直于 x轴的线分割,产生类似于下半部分中实测正答比例的正态肩形曲线。

Thurstone (1925)用以上这些想法发展了一种方法,该方法将不同年龄组的测验分数置于同一量尺上。随后,Thurstone (1938)又用一个更好的方法替代了前者。该方法称作:发展性量表化 (developmental scaling) 或垂直链接 (vertical linking) [对此话题更多的讨论请见

Page 4: Chinese/English Journal of Educational Measurement and

CEJEME 46

-2 -1 0 1 2 3 4

020

4060

80

Level of Ability

% T

asks

Per

form

ed

A B C D E F G H I J K L M

图 2.“一系列代表不同难度题目的肩形曲线,它们展示了能力和正确作答百分比之间的关系” (Symonds, 1929,p. 483);图中的字母代表了几组同等难度的项目,类似于 Ayres (1915)拼写测验中的单词组。

(1983), Patz and Yao (2007), Williams, Pommerich, andThissen (1998),或 Yen and Burket (1997)]。在二十世纪 20 年代,Thurstone 的研究重心并

非教育测量而是心理量化,即对物理对象或心理对象赋予数值 (量表值)。Thurstone (1927) 的《Law o fComparative Judgment》中体现了一种思想:与刺激物连结的“反应过程”(数值) 可以认为是服从正态分布的 (类似于图 1上半部分中的两个正态分布),并且,反应过程之间的比较,类似于来自正态分布的随机样本间的比较。在那时,Thurstone并未将他在心理测量研究中的这两个支线联系在一起,但是他关于正态分布的潜在反应过程数值的想法为 IRT 埋下了种子,并伴随着 IRT的发展而重新出现。从现代角度来讲,Thurstone的描述缺乏细节。虽

然他在描述中使用了正态曲线等等,而使其看起来具有统计意义,但是其中并不包含任何关于抽样过程和统计估计的内容。然而,考虑到那些概念在当时还未有准确的定义,这个过于简单的描述也并不令人意外。由此看来,IRT的发展并不是一蹴而就,而是逐步演化的。在其发展过程中得到的一个关键概念要素是,测验题目能够与其测量的建构定位在同一个量尺上。通过这个关系,我们可以同时量化测验题目和其所测的建构。

Percival Symonds 进一步完善了 E.L. Thorndike 提出的建议 (Thorndike et al., 1926),他通过分析 Ayres(1926)的《Measuring Scale f or Ability in Spelling》,为IRT的发展提供了另一种思路。2 在 Ayres (1915)的研

2在《T he Measurement o f Intelligence》中, E.L. Thorndike(1926) 将难度相似的智力测验题目称为“集合”(composites),并

究中,先是收集了英语写作中“最常用的 1000 个词汇”,并且在许多小学老师的帮助下收集了全美 84个城市各年级儿童的拼写测验数据。然后, Ayres 将这1000 个词汇分为 26 个列表,并以字母 A 到 Z 对列表命名。每个列表所包含的词汇按照以下规则安排,根据答对该词汇的儿童人数的百分比来计算标准正态离差,然后将具有相近标准正态离差的词汇归为同一列表。例如,列表 A 包括 me 和 do 两个单词,列表M包括 trust,extra,dress,beside等等,列表 V 包括principal,testimony,discussion,arrangement 等具有相同难度的单词,列表 Z 包括 judgment,recommend以及 allege。 Ayres (1915, p. 36) 写道,每个列表中的单词“几乎都具有同等的拼写难度”,并公开了所使用的单词列表和评分表,以便其余研究者用以与他的正态样本进行比较。

Symonds (1929)以 Ayres的拼写测验作为背景,用与图 2 类似的图描述了拼写能力和正确完成一组同样难度的“任务”或者项目之间的关系。图2中 (假定的)平行的累积曲线对应了 Ayres (1915)拼写测验中列表 A到 M。3

图 2与图 1下半部分在某种程度上很相似,但是它们之间有一个重要的概念上的区别:Thurstone (1925)的图 (图 1下半部分)是相似儿童对同一题目的正答百

且用肩形曲线来描述个体被试或被试组的正确作答比例与难度逐渐增加的集合的关系。 Thorndike的集合包含不同类别的题目,分别测量他所认为的智力的四个方面:完成 (句子),算数问题,词汇和 (领会)指示。与之不同的是,Symonds (1929)对 Ayres拼写测验的运用,则更清晰地预示了从单维领域抽样的思想。 Thorndike是Symonds在 Columbia大学的导师。

3Symonds (1929)图 2可由图 2旋转 90度得到。

Page 5: Chinese/English Journal of Educational Measurement and

47 Thissen & Steinberg

-3 -2 -1 0 1 2 3

0.0

0.5

1.0

Scale of Ability

Pro

porti

on o

f Suc

cess

esA B C

D

图 3.“四条肩形曲线说明,随着个体能力的增加,成功作答该题目的概率也随之增大。”Guilford (1936, p. 427)x轴表示标准单位能力,0代表群体均值。

分比,而 Symonds (1929) 的图则是同一能力水平的儿童对相似题目的正答百分比。这两个概念在随后的心理测量的文献中都会重复出现,并且时而与其它概念混淆。 Holland (1990)将他所称的 IRT模型的“随机抽样理念”(“random sampling rationale”; Holland, 1990,p. 581)与“随机被试理念” (“stochastic subject ratio-nale”; Holland, 1990, p. 582)进行对比,前者对应 Thur-stone的儿童样本的概念,而后者与 Thurstone (1927)在《T he Law o f Comparative Judgment》中阐述的想法更为接近。Holland (1990)并未对类似于 Symonds的题目抽样理念的想法表现出兴趣,因为其并不适用于固定题目的测验。但是,在拼写测验或其它有着明确定义的教育目标的情境下,以题目的领域作为参考则是合理的 (Bock, Thissen, & Zimowski, 1997)。4

在 Guilford (1936)第一版《Psychometric Methods》出版时,用来说明能力和“成功比例”(“proportionof successes”) 关系的肩形曲线是关于心理测验项目的标准的描述性工具 (p. 427)。图 3 依照 Guilford的图 41绘制,该图被用以讨论难度和区分度的概念:题目 A 和题目 B 的难度相同,项目 C 较难,项目 D 最难。Guilford还提到了另一点,曲线陡度或者斜率上的差异代表了题目的“诊断价值”。Guilford写到“如果能够用心理单位来衡量难度,那么就能够以测验题目在这个难度量尺上的中间值和‘精确度’来标识该题. . .这是测验学者近年来一直追寻的目标,并且已不断完善用于实现该目标的各种工具” (pp. 427-428)。然而,“完善”这些方法花费了 50年以上的时间,直到二

4确实,Darrell Bock 本人从单词列表中随机抽取单词作为拼写测验,他的文章和其它 IRT 文献基于由此得到的测验数据绘制图例。

十世纪 80年代,IRT才接近了 Guilford的“理想”。在这个过程中,Richardson (1936), Ferguson (1943), Law-ley (1943), 和 Tucker (1946) 等人为 IRT 的形成贡献了力量。

1.2 潜变量的引入

Paul Lazarsfeld (1950) 在《T he American Soldier》系列中的章节提出了一些模型,这些模型描述了可观察的题目反应数据和以反映题目作答反应概率随一个潜在 (不可观察的)变量 x变化的曲线的关系。 Lazars-feld在数理社会学的研究与前文提到的心理测量学研究并没有很多的联系。虽然他没有提到正态肩形曲线,而是使用线性轨迹线 (linear trace line) ,但是他所描述的测验过程标志了潜变量时代的开端。 Lazarsfeld写道“我们现在将连续体 x 的纯粹测验定义为具有以下特性的题目集合:题目之间所有的相互关系,应该完全由每道题各自与潜在连续体的关系所解释” (p.367)。Lazarsfeld体系中的“纯粹测验”是指,该测验的作答数据能够拟合单维 (unidimensionality)且局部独立 (local independence)的模型。

Lazarsfeld (1950, p. 369) 继续用 x 指代被测量的潜变量,写道“整个样本因此服从分布函数 φ(x),使得每一个长度为 dx 的区间中有 φ(x)dx 个人的分数位于这个区间。我们现在可以通过轨迹线 fi(x)来表示整个样本中对项目 i 做出正向回应的被试比例 . . .” 也就是说,Lazarsfeld不仅明确地说明,可观察的作答反应是由潜在 (不可观察的)变量决定的,还指出其中存在着两个不同的函数:潜变量的总体分布 (populationdistribution) φ(x)和项目 i的“轨迹线 fi(x)”。Lazarsfeld在方程中描述了如何将题目作答反应组合的联合概率

Page 6: Chinese/English Journal of Educational Measurement and

CEJEME 48

(joint probabilities) 模型化为轨迹线的乘积。尽管在当时 Lazarsfeld的工作对量化心理学的影响很小,但是如今我们看到了他在概念上的重要贡献。

Lord (1952) 将能力描述为一个根据其与题目反应间的关系定义的潜变量,5 这标志着二十世纪 20至 40年代间心理测量学文献所缺乏的细节开始得到补充和澄清。 Lord专著的主要论点在于,区分不可观察的能力变量特性和可观察的测验分数。Lord (1952, p. 1)写道:

通常,研究者会根据测验分数来衡量受试者的心理特质,而测验分数取决于受试者在一组测验题目上的作答反应。为了方便起见,我们在这里将测验所测的特质统称为“能力”,尽管我们的研究结论有可能会应用于测量非传统意义上的“能力”的心理特质测验。由于能力本身不是一个可直接观察的变量,所以,其大小 . . .只能间接地从受试者对测验项目的反应中得出。

Lord (1952, 1953a) 在早期的文章中明确地指出,潜变量和可观察的测验 (总)分是两个不同的东西。到了二十世纪 50 年代初,建立 IRT 所需的所

有概念要素都已具备。这些思想分别为:(1) 题目和“能力”变量可以被“定位”在同一量尺上 (Thurstone,1925); (2) 能力变量是潜在 (或不可观察的) 变量(Lazarsfeld, 1950; Lord, 1952);以及 (3) 不可观察的变量解释了观察的到的题目作答反应之间的关系 (Lazars-feld, 1950)。可惜的是,这些思想仅在 Lord (1952, 1953a),

Solomon (1956, 1961),Sitgreaves (1961a, 1961b, 1961c)和其它一些学者关于心理测验结构的理论工作中得到了应用。那时还没有可行的方式能够实现通过可观察的题目作答反应数据对参数 (题目位置参数和区分度)进行估计。

1.3 Lord和 Novick (1968)所做的融合在二十世纪 70年代 Lord和 Novick (1968)的著作

《Statistical T heories o f Mental Test Scores》出版之前,IRT 主要还是测验理论学家 (相对于测验实践者) 的一个概念模型。 Lord 和 Novick (1968) 整合了很多之前的工作,他们的著作和当时刚出现的电子计算机一起,标志着测验理论新纪元的开始。

5Lazarsfeld 的章节在《T he American Soldier》上发表时,Lord正在纽约市完成他的博士论文。然而,我们并不清楚 Lazarsfeld的研究成果对 Lord 有多少直接影响。 Lord (1952) 并未引用 Lazars-feld的研究,另外,在 Lord (1953a, 1953b)中也只是简单地提到了Lazarsfeld (1950)。

Lord 和 Novick (1968, p. 366) 整理了直至当时的IRT 的理论发展;他们描述了一种以正态肩形模型为基础的心理学理论,这种理论具备了 (几乎)所有必要的元素。图 4 的下半部分以 Lord 和 Novick (1968, p.371) 中的图 16.6.1 为灵感绘制,它反映了对于某个特定的题目,潜变量 θ (通常称为“能力”),和不可观察的反应过程变量 Y,阈值参数 γ,以及答对这道题的概率 T 之间的关系。图 4 表达的想法是:存在一个潜在的反应过程变

量 Y,它和潜变量 θ 存在线性的关联;题目的参数即为这个线性关系 (图 4中的回归线)的斜率和截距。任意的 θ 值都对应着一个 Y 值的分布,即竖直的正态密度曲线。6 这些密度被常数 γ 分成了两部分 — γ 以上的阴影区域对应上图中的正确反应的条件概率,也就是 Lazarsfeld所说的轨迹线 T。在随后的图中 (Lord & Novick, 1968, 图 16.11.1, p.

380),他们画了第二种正态密度曲线— θ 在群体中的分布 (Lazarsfeld称其为 φ(x));这个分布在图 1用了虚线来表示。通过这种表示方式,Thurstone (1925) 的想法被表达为一个成熟的统计模型,该模型区别了同为正态分布的易混淆的群体分布和反应过程变量。所以,在 Lord和 Novick (1968)的文章发表时,正态肩形模型已经从最初的描述观察到的实测数据的尝试,转变为关于潜在的、无法观察的,同时可能产生可观察数据的反应过程的理论。

1.4 Logistic IRT模型

Allan Birnbaum (1968) 在为 Lord 和 Novick (1968)一书撰写的章节中指出,由于计算更为简便,logistic函数已经在生物鉴定 (Berkson, 1953, 1957)和其它应用中替代了正态肩形模型。 Haley (1952, p. 7;见 Camilli,1994) 已证明,如果将 logistic 乘以 1.7 来进行调整,即:

Ψ(x) = e1.7x/(1+ e1.7x)= 1/

(1+ e−1.7x)

6Holland (1990) 指出,图 4 中竖直的正态密度存在多种解释。其中的一个解释是频率学派的 (frequentist) — 可以想象一组有着同样 θ 值的受试者,其中的一部分知道答案 (Y > γ),而另一部分不知道。还有一种解释是,我们可以采用 Holland 所称的“随机被试”的观点,即竖直的密度曲线代表了某个心理过程,它在单个受试者内部是变化的。这种解释和 Thurstone (1927)的《Law o fComparative Judgment》中比较对象的概念很接近。第三种解释和Symonds (1929)的拼写测验分析有关,即这个竖直的密度曲线可能代表了可以互换的项目全域,例如,某一受试者可能知道也可能不知道的同等拼写难度的单词。这三种解释究竟如何选择,主要取决于具体的测验题目和被测量的建构。

Page 7: Chinese/English Journal of Educational Measurement and

49 Thissen & Steinberg

-3 -2 -1 0 1 2 3

0.0

0.5

1.0

θ

T

-3 -2 -1 0 1 2 3

-3-2

-10

12

3

θ

Y

γ

图 4. 正态肩形模型中的假定关系,该图详细地解释了 Lord & Novick (1968)中的图 16.6.1。上半部分中的肩形曲线表示 T,即轨迹线或者正向反应 (答对)的概率,T 逐一对应正态分布的反应过程在 γ 以上的区域,这些正态密度曲线的均值是 θ 的线性函数。下半部分展示了三个反应过程,其底部的点状曲线代表 θ 的群体分布。

结果产生的曲线和正态肩形曲线 Φ(x)在任意的 x值上的差异都小于 0.01。7

Birnbaum (1968) 也为现在普遍应用于多选题的三参数 logistic (3PL) 模型提供了一些数学统计结果。这个想法植根于 Lord (1953b, p. 67),其中写道“假定任意一位不知道某一多选题答案的受试者有1/k的可能猜对答案。如果我们用 P′i 代表这道多选题的项目特征曲线(item characteristic function),则有:

P′i = Pi +Qi/k.”8

Lord (1953b)没有继续探讨这个想法,而 Birnbaum将其阐述为:

即便是能力水平很低的被试,有时也会偶

7通过乘以常数 1.7,logistic的 a (斜率)的数值能够几乎和正态肩形模型的一样。然而,由于近几十年来 logistic IRT模型已经成为了主流,1.7经常被省略而直接吸收到 a值中。

8在Lord的公式中, Qi = 1−Pi。

然地答对多选题。一个高度图式化的心理学假说提出了关于这类题目的模型。这个模型假设,如果一位受试者的能力为 θ,那么他知道正确答案的概率可以用正态肩形函数表示为 Φ[ag(θ −bg)] . . . [这个模型]进一步假设,如果受试者不知道正确答案,该受试者就会去猜测答案,并有 cg 的概率猜对。若服从这些假设,那么错误作答的概率可以表示为,

Qg(θ) = {1−Φ[ag(θ −bg)]}(1− cg)

正确作答的概率,即项目特征曲线为,

Pg(θ) = cg +(1− cg)Φ[ag(θ −bg)].

. . .类似地,采用 logistic模型可以表示为. . .

Pg(θ) = cg +(1− cg)Ψ[ag(θ −bg)].

因为这个模型包含三个题目参数 (ag, bg 和 cg),所

Page 8: Chinese/English Journal of Educational Measurement and

CEJEME 50

以被称为“三参数 logistic ”(3PL) 模型,另外,通过用 logistic形式取代原本的正态肩形模型,即“两参数logistic”(2PL)模型。

1.5 Rasch模型和单参数模型Georg Rasch (1960; Fischer, 2007)基于数学上的要

求发展了一个项目反应模型,这个要求是使得“一个被试的能力 (ξ ) 是另一个被试的两倍 (ξ1 = 2ξ2)”,或“一个项目的难度 (δ ) 是另一个的两倍 (δ1 = 2δ2)”类似的表述具有意义。9 Rasch (1960, pp. 74ff) 写道这个模型服从:

ξ1

δ1=

ξ2

δ2

被试 1正确作答题目 1的概率应该等于被试 2 正确作答题目 2 的概率。这意味着,正确作答概率是关于比率 ξ

δ的函数,该比率由

被试能力和题目难度之比计算得到,而并不单独取决于 ξ 和 δ 的值。. . .如果我们令 ξ

δ= ζ,. . .我所知的最简单的

随 ζ 从 0到 ∞而从 0到 1的函数,是 ζ

(1+ζ )。

按照 Rasch (1960) 的说法,这个模型和前文所讨论的模型有所差异。但是,如果将这个模型重新参数化,把 ξ 改为 eθ,δ 改为 eb,那么该模型就等价于一个没有明确的斜率或者区分度参数的 logistic函数。Birnbaum (1968, p. 402) 指出, Rasch (1960) 的模型是一个限制的 logistic模型,其对于所有题目都有着共同的 (相等)区分度参数,并且对一些测验来讲,这个限制或许是合理的。

虽然 Rasch最初写道,他为了简单而选择了 logis-tic 函数,但在其后续的文章中,Rasch 和其它学者表示,为了获得有效的测量,必须要满足 Rasch 的模型假设。 Rasch写道 (Rasch 1966, pp. 104-105):

事实上,任意两名被试间的比较可以仅涉及该两名被试的参数,而不涉及任何其他参数—既不涉及其它被试的参数,也不涉及任何刺激物参数。与之类似,任意两个刺激物间的比较,可以独立于除它们的参数之外的所有其它参数. . .建议将在这种情况下进行的比较称为“具

体地客观 (specifically objective)。”

9Rasch模型几乎是独立于与前文中的 IRT历史而发展起来的。Rasch (1960, p. 116)提到了正态肩形曲线 (将其归功于 Lord (1953a)),但是只是说它和 logistic是同等随机的 (在 Rasch的观点中),并且“由于其存在额外的一组参数,它不属于本文的研究范围。”

Rasch (1966, p.107) 总结道:“我必须指出,数据和模型之间的关系,不仅是要试着挑选一个模型去拟合数据,看看这个模型是否合适;也是关于如何使得观察记录得到具体地客观”。随后,Rasch (1977)和其他学者 (Fischer, 1974, 1985; Wright & Douglas, 1977;Wright & Panchapakesan, 1969)强调,“具体地客观”这个概念是心理测量的一个要求。

即便在 Rasch 传统的学者之间,关于具体地客观是否有必要也没有达成一致。 de Leeuw 和 Verhelst(1986, p. 187)写道,尽管“产生. . .具体地客观. . .的因式分解很方便,但是它的重要性被一些学者夸大了。”虽然 Rasch 传统和 Thurstone-Lazarsfeld-Lord-Birnbaum传统都形成了相等区分度参数的 logistic 项目反应模型,但是因其产生于不同的概念体系,所以以两个不同的名字来命名这两个模型是很有用的。 Wainer et al.(2007) 建议把来自 Rasch 传统的模型称为“Rasch 模型”,而把来自 Birnbaum 传统的有着相等区分度参数的 logistic项目反应函数称为“单参数 logistic”(1PL)。

2 多级计分项目反应模型

2.1 Likert量表Rensis Likert10 (1932)在他的专著 (和博士论文)《A

Technique f or the Measurement o f Attitudes》中提出了现在普遍使用的“Likert-类型”反应量表。在这之前,收集多级计分的项目反应数据的过程相对笨拙:在位于芝加哥的 Thurstone 心理测量实验室,研究被试需要对印有题干内容 (item-stems) 的卡片进行排序并分成 11 堆,来表示其从最积极到中立到最消极的反应(Thurstone & Chave, 1929)。在爱荷华大学,Hart (1923)描述了一项研究,其中被试首先对一个题目做出积极、中立或消极的反应,然后通过增加一条或两条下划线来强调某些反应,从而产生一个 7 点量表。这样的评分作为代表认可“难度”的项目分数。总分是被试所认可的陈述的项目分数之和。在 Likert 的博士论文发表之前, Teachers College的 Neumann (1926)也用了一个与之类似的程序,但从第二个研究开始,他使用了Likert形式的 5点量表作为一种节约时间的方法。然而,Likert专著中想表达的重点并非是他日后最

广为人知的贡献 — 反应量表,而是提出了 Thurstone基于正态分布的评分思想的一种变体,即“sigma 评分”。对有着 5点反应量表 (非常同意,同意,未决定,不同意,非常不同意)的测量态度的问题,Likert提出将图 5 正态分布中相应的百分位数区间的平均标准正

10人们对于Likert名字的发音经常存在困惑。根据认识他的人,Likert的名字的发音是lick-ert,不是 like-ert (Wimmer, 2012; Likertscale, 2020)。

Page 9: Chinese/English Journal of Educational Measurement and

51 Thissen & Steinberg

-3 -2 -1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Standard Normal Deviates

Pro

babi

lity

Den

sity

-1.63 -0.43 0.43 0.99 1.76

图 5. Likert (1932)的想法图示,将正态密度的五个有序部分的平均数作为五个等级反应选项 (例如,非常同意,同意,未决定,不同意,非常不同意)的分数值。

态离差作为每个选项的数值。11然后 Likert提出将这样计算出来的“sigma”值之和或平均数作为最终分数。他的出发点是,想要有一个比 Thurstone 心理测量实验室使用的评价系统更为简单的评分方法 (Thurstone,1928; Thurstone & Chave, 1929)。 Likert 以分数与其他变量的相关为标准,将“sigma评分”和“简单”地将五个反应对应的1-5数值相加的方法进行对比,结果发现二者几乎没有差异。Sigma评分逐渐被人遗忘,但是这个评分方式预示了多级评分项目反应理论的发展。

2.2 Samejima的等级模型二十世纪 60 年代末,Samejima (1969, 2016) 在

ETS 访问 Fred Lord 小组时,提出了针对两个以上有序反应选项的题目的等级项目反应模型。这个模型原本是为拟合教育多选题的所有选项的数据而提出的。尽管在此之前已经开发了能够更好服务于这个目的的模型 (见 Thissen & Steinberg, 1984, 1997),Samejima的等级模型仍然广泛用于 Likert 形式的分类反应量表的题目。这个模型的基本思想 (一旦被指出) 非常简单:使用现有的正态肩形 (或者 logistic)模型,通过将高于或等于 2的反应与低于 2的反应进行比较 (即 1),接着将高于或等于 3的反应与低于 3的反应进行比较 (即 1或 2),然后将高于或等于 4的反应和低于 4的反应进行比较 (即 1,2,或 3),以此类推,进而得到一连串的二类划分。于是,这些“高于或等于该反应”的曲线之间的差异就是该反应等级的轨迹线。 Samejima (1969)的专著中包含了等级模型的正态肩形版本和 logistic版本的核心运算的发展。图 6 的左侧呈现了一个 5 级计

11Likert (1932)的专著中不包含图。 Likert用了 Thorndike (1913)提供的表来计算正态分布百分位数区间的平均。

分题目的轨迹线。

2.3 Bock的称名模型称名反应模型 (Bock, 1972; Thissen & Cai, 2016)的

灵感来源于 Samejima (1969, 2016) 的等级反应模型,最初也是为了拟合多选题所有选项的轨迹线而提出。和 Samejima (1969)的模型一样,称名反应模型为此被多选模型所取代 (Thissen & Steinberg, 1984, 1997)。然而,称名模型还有三个用途 (Thissen et al., 2010):(1)对纯称名反应的题目进行项目分析和评分;(2)实际检验项目选项是否如设想的一样依序排列 (Thissen et al.,2007);(3)应用于题组反应 (Wainer et al., 2007)。图 6的右侧展示了一个有 5 个选项的题目:最左侧的两条轨迹线对应两个反应,这两个反应都能表示被测量的特质处于一个较低的水平,并且反应 2 比反应 1 更有可能处于低水平;然后有两个有序反应“低于”一个非常有区分度的最高 (第五个)选项。等级模型不能拟合具有类似图 6右侧形成过程的数据。

2.4 “Rasch家族”的多级计分模型Rasch (1961)建议在多维和单维的情景下将他原本

的二级计分 logistic模型拓展到多级计分。然而,这一想法一直没有取得多大的进展,直至 Andersen (1977)证明了多级计分 Rasch模型中所谓的“评分函数 (scor-ing functions)”必须和连续的整数成比例,才能使其拥有原本的 Rasch 模型的特性,即测验总分是被试能力的充分统计量。

Andrich (1978, 2016)针对 Likert类型的有序反应提出了评分量表模型 (rating scale [RS] model):这个模型用连续的整数作为评分函数的值,同时把一个题目的

Page 10: Chinese/English Journal of Educational Measurement and

CEJEME 52

-3 -2 -1 0 1 2 3

0.0

0.5

1.0

θ

T1

23

4

555555

-3 -2 -1 0 1 2 3

0.0

0.5

1.0

θ

T

1

23 4

555555

图 6. 选择每个反应选项的概率如何随潜在建构的值变化的轨迹线。左侧呈现的是使用 Samejima (1969)的等级模型拟合的示例题目的轨迹线。右侧呈现的是使用 Bock (1972) 的称名模型拟合的轨迹线:最左侧的两条轨迹线对应两个反应,这两个反应都表明被测量的特质处于一个较低的水平,并且反应 2比反应 1更有可能处于低水平;然后有两个有序反应“低于”一个非常有区分度的最高 (第五个)选项。

“阈值”或“位置”参数集分为了一个整体的“难度”参数和一组反映等级量表上各选项相对宽度的阈值参数。他的想法是,这组阈值参数可以看作是反应量表的特性,对所有题目都是一样的,而题目间唯一的区别在于总体的认可程度。另外, Masters (1982, 2016)发展了 Rasch家族的分部评分模型 (partial credit [PC]model),顾名思义,该模型用于教育测验中开放问答题的多等级的评分。

RS 和 PC 模型的数学原理与 Bock (1972) 的称名反应模型截然不同。因此,尽管它们的轨迹线方程在许多方面都看起来很相似,但人们还是花了一些时间才发现 RS和 PC模型是限定参数的称名模型 (Thissen& Steinberg, 1986)。事实上,称名模型可以看作是一个模板模型,通过对其添加不同的限制条件,可以得到具有不同属性的模型。例如,Muraki (1992; Muraki andMuraki, 2016)的广义分部评分模型 (generalized partialcredit (GPC) model),和 (等价的) Yen (1993)的两参数分部评分模型。这两个模型均通过类比 2PL模型和 Rasch模型之间的关系而 (单独)发展起来,并旨在拓展 PC模型使其拥有不相等的潜在区分度参数。

3 参数估计在二十世纪 70 年代之前,IRT 并未用于实证的

项目分析或测验评分,因为那时计算上没有可行的方式去估计轨迹线模型中的参数。Sitgreaves (1961c) 通过最小化期望均方误差,推导出了正态肩形模型参数估计所必须的公式。但是她的结果非常复杂,她也总结道,“总的来说,这些结果用处不大” (Sitgreaves,

1961c, p. 59)。第一个用于估计正态肩形模型参数的完整的极大

似然 (maximum likelihood [ML])方法由 Bock和 Lieber-man (1970)提出。在当时,ETS为 LSAT做数据分析,Fred Lord给他们提供了现在很著名 (或许不著名了)的“LSAT第 6和第 7部分”的数据,他们用模型来拟合由五个二级计分题构成的题目组数据。但问题是,当时的计算机几乎不能处理 Bock和 Lieberman (1970)的估计程序。 Bock和 Lieberman (1970, p. 180)在结论中写道,“这里介绍的极大似然方法不推荐用于日常的项目分析。计算上的难度限制了任意一次分析中的题目数量不能超过 10或 12题—这个数字对于典型的心理测验来说太小了。本解法的重要性在于它的理论意义以及它提供了一个标准,使其它解法 . . .可以比较”。

3.1 启发式算法 (Heuristics)和“联合极大似然”估计 (··Joint Maximum Likelihood”Estima-tion)

Lord和 Novick (1968)的关于正态肩形模型的章节中,不仅包括 IRT 模型参数与正确作答比例之间关系的公式,还包括单因素模型的因素载荷。他们提出,对题目间的四分相关系数矩阵与每道题的正确作答比例的因素分析,可以转换为对正态肩形模型斜率和阈值参数的启发式估计。这一建议并未得到广泛使用,或许是因为基于四分相关系数的因素分析本身几乎和IRT参数估计问题一样难。

ETS的 Fred Lord研究小组提供了一个叫做“联合极大似然 (Joint Maximum Likelihood [JML])”估计的方

Page 11: Chinese/English Journal of Educational Measurement and

53 Thissen & Steinberg

法,之所以这样命名是因为该方法“联合地”计算题目参数和受试者潜在变量 (θ ) 的极大似然估计值。这种方法遵循了 Lord (1951)的建议,尽管在 Lord提出这个想法的时候,它在计算上还不可行。但到了二十世纪 70年代,该方法可以用大型计算机通过交替算法来完成,即首先使用 θ 的临时估计值作为已知条件,去估计 logistic模型的题目参数,相当于对题目反应进行logistic回归分析;然后,根据 Lawley (1943)的方法计算出 θ 的极大似然估计值,并以此来替代之前使用的θ 临时估计值。计算机程序 LOGIST (Wingersky et al.,1982)采用了这个算法,并且首先在 ETS内部使用,继而逐渐在 ETS以外得到广泛应用。在二十世纪70年代,其它一些不那么广为人知或小范围内使用的软件也使用了这个算法的某些变体。

Neyman 和 Scott (1948) 在 IRT 程序被写出来之前就已经认为 JML是行不通的,因为这个方法存在一个缺点,即需要估计的参数数量会随着观察样本数量增加而增加。的确,JML IRT软件的效果并不是很好,它需要各种专门的修补才能运作。 Haberman (in press)对研究者们仍在使用联合估计算法的计算机程序感到很失望,因为这些程序有着众所周知的统计缺陷,而且早已有了更好的算法。

3.2 Rasch家族模型:条件和对数线性估计在 Rasch模型发展的第一个十年里,Wright & Pan-

chapakesan (1969)发表了一个JML算法和相应用于题目参数估计的计算机程序 (对于 Rasch模型而言,即为题目难度值)。不久之后,Andersen (1973) 便表明,JML的估计结果正如预期那样并不具有一致性。即便是在Anderson所考虑的只有两个题目的例子中,JML估计值的表现也并不好。

但是 Andersen (1970, 1972)已经解决了条件极大似然 (CML) 估计的数学统计问题,并且证明 CML 能够得到一致的 Rasch模型题目参数估计值。Rasch模型在所有二级计分项目反应潜变量模型中是很独特的,因为对它来说,简单的测验总分是被试的潜变量的充分统计量;对于总分相同的被试,无论他们的作答反应模式是否一样,他们的潜变量的估计值都是相同的。可以先分别写出每一个总分组内 (以各总分为条件)的IRT 模型的似然函数,再将各总分条件下的似然函数合并为总体似然,最后通过极大化总体似然函数来计算题目参数估计值。考虑到这种算法需要计算 (至少看起来)所有作答反应模式,二十世纪 70年代关于 Rasch模型的文章有很多都对这个计算上的挑战提出了解决方法,从而使得 CML可以得到实际应用。在二十世纪 80年代早期,很多学者从不同角度证

明,Rasch模型也是一个用于分析作答反应模式频次表

的对数线性模型,对于 n 道二级计分题目,该频次表大小为 2n (Tjur, 1982; Cressie & Holland, 1983; Duncan,1984; Kelderman, 1984)。这意味着已经在软件中开发和实现的算法可以用于计算 Rasch 模型参数的 ML 估计值。de Leeuw和 Verhelst (1986)表明,对于 Rasch模型,通过对数线性模型和 CML得到的参数估计值是完全一样的。12

3.3 The Bock-Aitkin EM算法Bock 和Aitkin (1981) 采用了 EM 算法 (Dempster

et al., 1977)中的要素,重新排列了 Bock-Lieberman极大似然估计方法中隐含的计算,从而使得对大量题目进行参数估计成为可能。他们把这个方法称为“边际极大似然估计” (marginal maximum likelihood, MML),以表明对 θ 的总体分布的“边际”操作 (或者涉及到对其进行积分),同时以此区别于 JML 和 CML 方法。后来,“边际极大似然估计”被重新排列为语义上更为正确的“极大边际似然估计” (maximum marginallikelihood,仍是 MML)。统计学家简单地把它称为极大似然,因为在统计学中通常都会把潜变量或者多余的变量 (nuisance variables)“积分出去”。

Bock-Aiktin 算法被用于专门的 IRT 软件,比如Bilog-MG, Parscale 和 Multilog (du Toit, 2003),并且能够用于对涉及现实情境中数量的题目数和样本量的数据进行 IRT 模型参数估计。除了 Bilog-MG 以外,其它软件已经没人使用了。第二代的软件包括 IRTPRO(Cai et al., 2011), flexMIRT (Cai, 2017), R 中的 mirt 包(Chalmers, 2012) 以及 Stata 中的 IRT 程序 (StataCorp,2019)等等,均实现了前文描述的大多数模型的 Bock-Aiktin 算法。这些软件包使得 IRT 成为绝大多数大规模测验项目的基础。

3.4 IRT的MCMC估计尽管以前已经有一些关于 IRT 模型估计的贝叶

斯研究,但是 Albert (1992) 用马尔科夫链蒙特卡洛“Markov chain Monte Carlo (MCMC)” 算法估计正态肩形模型中的参数仍然是具有历史意义的。原因有二,第一个原因是它标志着用 MCMC 进行参数估计的新时代的开始,许多新的 IRT 模型首次“尝试”使用 MCMC 方法,较于 ML,MCMC 方法不仅速度更快,也更容易实现。第二个原因是,Albert (1992) 利用 Tanner 和 Wong (1987) 的“数据扩张”的思想,产

12Cressie and Holland (1983) 证明在用对数线性或者 CML 对Rasch 模型进行估计时有一个“潜在的小问题”:虽然在方程中θ 的群体分布并未出现,但是它必须存在,并且要满足任意合适的分布密度的矩不等式。虽然对数线性或者 CML估计中都没有明确地检验那些不等式是否被满足,但这个检验是必要的。de Leeuw &Verhelst (1986)拓展了 Cressie & Holland (1983)的检验规范。

Page 12: Chinese/English Journal of Educational Measurement and

CEJEME 54

生了一种 Gibbs 抽样算法,其中所有的抽样步骤都是闭式 (closed form)。尽管这样做是完全出于统计学上的原因,但有趣的是,扩张数据既是潜变量 θ 的值,也是图 4 (或 Lord和 Novick,1968)中反应过程变量 Y 的值!统计学和心理学理论融合了。

Albert (1992)的数据扩张方法仅对正态肩形模型有很好的效果,但在这扇门被打开之后,研究者们为许多 IRT模型提供了其它的Gibbs抽样算法。来自二十世纪 (接近二十一世纪)的例子包括 Patz & Junker (1999a,1999b)和 Bradlow et al. (1999)的MCMC算法。全贝叶斯估计包括计算参数后验分布 (posterior distribution)的平均数 (mean),而非通过 ML 算法得到的似然的众数(mode)。 MCMC估计在运算方面消耗很大,但是反观过去的几十年并且进行展望,计算能力已经变得越来越廉价和充足,从而使得MCMC估计方法成为新型或传统 IRT模型的备选工具。

4 结论

我们从 Thurstone、Lazarsfeld、Lord、Birnbaum和Rasch的研究开始,回溯了参数 IRT模型的起源和早期发展。我们所描述的“标准” IRT 模型目前的用途包括:项目分析、量表开发、侦测项目反应中的组别差异、估计计算机化自适应测验中的题目参数、解释因为使用题组而引起的局部依赖,以及加深对学术、社会学和人格相关问题的外显反应之下的心理过程的理解。

在过去的三四十年中, IRT 模型的具体应用实现了的爆炸式增长。在最近出版的《Handbook o f ItemResponse T heory, Volume One: Models》(van der Linden,2016b)13 就包括 33 个章节,将近 600 页。本文仅仅提到了该书所涵盖的模型中的一小部分,其中的大部分都是在过去几十年中出现的。大的通用类模型囊括了许多包括适用于多维潜变量的 IRT 扩展模型 (mul-tidimensional IRT, or MIRT; Reckase, 2009),以及阶层(hierarchical)或多水平 (multilevel)项目反应模型 (比如,Fox and Glas, 2001)。在广义潜变量模型的范围内,不同于传统的现代综合体将 IRT 和因素分析框架融合在一起 (Skrondal & Rabe-Hesketh, 2004; Rabe-Hesketh,Skrondal, & Pickles, 2004; Bock & Moustaki, 2007)。认知诊断模型 (cognitive diagnostic models)应用于结构化教育评估,以判断受试者是否掌握某项具体技能 (vonDavier & Lee, 2019)。更具体的模型包括非补偿性多维模型 (non-compensatory multidimensional models),它可用于成就测验或能力测验,以测量加工过程中涉及的多种能力 (比如, Embretson and Yang, 2013),或

13限于空间,在此仅引用关于这些主题的代表性文献。

者用于人格或态度量表,以测量项目组的反应 (比如,Thissen-Roe and Thissen, 2013)。还有一些针对相对不常用的反应模式和过程的模型 (比如, Mellenbergh, 1994;Roberts, Donoghue, and Laughlin, 2000),以及针对目前计算机化测验中会收集的反应时的模型 (比如, van derLinden, 2016)。解释性项目反应模型 (Explanatory itemresponse models)是为了解释和检验关于加工过程的心理学假设而建立的特殊 IRT 模型 (De Boeck & Wilson,2004)。同时,还有一些非参数的分析传统,旨在提供与参数 IRT 模型相似或补充性的数据分析结果 (比如,Sijtsma and Molenaar, 2002; Ramsay, 2016)。但这已经是 IRT 的当代发展而非历史了。总的来

说,IRT 是一个活跃的研究领域,并将继续扩大和发展。

参考文献Albert, J. H. (1992). Bayesian estimation of normal ogive

item response curves using Gibbs sampling. Jour-nal of Educational Statistics, 17, 251–269. Retrievedfrom https://doi.org/10.2307/1165149

Andersen, E. B. (1970). Asymptotic properties of con-ditional maximum-likelihood estimators. Journal ofthe Royal Statistical Society: Series B (Methodologi-cal), 32(2), 283–301. Retrieved from https://doi.org/10.1111/j.2517-6161.1970.tb00842.x

Andersen, E. B. (1972). The numerical solution of a setof conditional estimation equations. Journal of theRoyal Statistical Society: Series B (Methodological),34, 42–54. Retrieved from https://doi.org/10.1111/j.2517-6161.1972.tb00887.x

Andersen, E. B. (1973). Conditional inference and modelsfor measuring. Copenhagen: Mentalhygiejnisk for-lag.

Andersen, E. B. (1977). Sufficient statistics and latent traitmodels. Psychometrika, 42, 69–81. Retrieved fromhttps://doi.org/10.1007/BF02293746

Andrich, D. (1978). A rating formulation for ordered re-sponse categories. Psychometrika, 43, 561–573. Re-trieved from https://doi.org/10.1007/BF02293814

Andrich, D. (2016). Rasch rating-scale model. In W. J. vander Linden (Ed.), Handbook of item response theory,volume one: Models (pp. 75–94). Boca Raton, FL:Chapman & Hall/CRC.

Ayres, L. P. (1915). A measuring scale for ability inspelling. N.Y.: Russell Sage Foundation.

Berkson, J. (1953). A statistically precise and rel-atively simple method of estimating the bio-assay

Page 13: Chinese/English Journal of Educational Measurement and

55 Thissen & Steinberg

with quantal response, based on the logistic func-tion. Journal of the American Statistical Association,48, 565–599. Retrieved from https://doi.org/10.1080/01621459.1953.10483494

Berkson, J. (1957). Tables for the maximum likelihoodestimate of the logistic function. Biometrics, 13, 28–34. Retrieved from https://doi.org/10.2307/3001900

Birnbaum, A. (1968). Some latent trait models and theiruse in inferring an examinee’s ability. In F. M. Lord& M. R. Novick (Eds.), Statistical theories of mentaltest scores (pp. 392–479). Reading MA: Addison-Wesley.

Bock, R. D. (1972). Estimating item parameters and la-tent ability when responses are scored in two or morenominal categories. Psychometrika, 37, 29–51. Re-trieved from https://doi.org/10.1007/BF02291411

Bock, R. D. (1983). The mental growth curve reexamined.In D. J. Weiss (Ed.), New horizons in testing (pp. 205–219). N.Y.: Academic Press.

Bock, R. D. (1997). A brief history of item response theory.Educational Measurement: Issues and Practice, 16,21–33. Retrieved from https://doi.org/10.1111/j.1745-3992.1997.tb00605.x

Bock, R. D., & Aitkin, M. (1981). Marginal maximum like-lihood estimation of item parameters: Application ofan EM algorithm. Psychometrika, 46, 443–459. Re-trieved from https://doi.org/10.1007/BF02291262

Bock, R. D., & Lieberman, M. (1970). Fitting a responsemodel for n dichotomously scored items. Psychome-trika, 35, 179–197. Retrieved from https://doi.org/10.1007/BF02291262

Bock, R. D., & Moustaki, I. (2007). Item response theoryin a general framework. In C. R. Rao & S. Sinharay(Eds.), Handbook of Statistics Volume 26: Psycho-metrics (pp. 469–513). Amsterdam: North-Holland.

Bock, R. D., Thissen, D., & Zimowski, M. F. (1997). IRTestimation of domain scores. Journal of EducationalMeasurement, 34, 197–211. Retrieved from https://doi.org/10.1111/j.1745-3984.1997.tb00515.x

Bradlow, E. T., Wainer, H., & Wang, X. (1999). A Bayesianrandom effects model for testlets. Psychometrika,64, 153–168. Retrieved from https://doi.org/10.1007/BF02294533

Burt, C. (1922). Mental and scholastic tests. London,P.S.King.

Cai, L. (2017). flexMIRT® version 3.51: Flexible multi-level multidimensional item analysis and test scoring[Computer software]. Chapel Hill, NC: Vector Psy-

chometric Group.Cai, L., Thissen, D., & du Toit, S. H. C. (2011). IRTPRO

for Windows [Computer software]. Lincolnwood, IL:Scientific Software International.

Camilli, G. (1994). Origin of the scaling constant d=1.7in item response theory. Journal of Educational andBehavioral Statistics, 19, 293–295. Retrieved fromhttps://doi.org/10.2307/1165298

Chalmers, R. P. (2012). mirt: A Multidimensional Item Re-sponse Theory Package for the R Environment. Jour-nal of Statistical Software, 48, 1–29. Retrieved fromhttps://doi.org/10.18637/jss.v048.i06

Cressie, N., & Holland, P. W. (1983). Characterizing themanifest probabilities of latent trait models. Psy-chometrika, 48, 129–141. Retrieved from https://doi.org/10.1007/BF02314681

De Boeck, P., & Wilson, M. (Eds.). (2004). Explanatoryitem response models: A generalized linear and non-linear approach. New York: Springer.

de Leeuw, J., & Verhelst, N. (1986). Maximum likelihoodestimation in generalized Rasch models. Journal ofEducational Statistics, 11, 183–196. Retrieved fromhttps://doi.org/10.3102\%2F10769986011003183

Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Max-imum likelihood from incomplete data via the EMalgorithm. Journal of the Royal Statistical Society:Series B, 39, 1–38. Retrieved from https://doi.org/10.1111/j.2517-6161.1977.tb01600.x

Duncan, O. D. (1984). Rasch measurement: Further ex-amples and discussion. In C. F. Turner & E. Mar-tin (Eds.), Surveying subjective phenomena, volume2 (pp. 367–403). New-York, NY: Russell Sage Foun-dation.

du Toit, M. (Ed.). (2003). IRT from SSI: BILOG-MG MUL-TILOG PARSCALE TESTFACT. Lincolnwood, IL:Scientific Software International.

Embretson, S. E., & Yang, X. (2013). A MulticomponentLatent Trait Model for Diagnosis. Psychometrika,78, 14–36. Retrieved from https://doi.org/10.1007/s11336-012-9296-y

Ferguson, G. A. (1943). Item selection by the constantprocess. Psychometrika, 7, 19–29. Retrieved fromhttps://doi.org/10.1007/BF02288601

Fischer, G. H. (1974). Einfuhrung in die theorie psycholo-gischer tests. Bern: Huber.

Fischer, G. H. (1985). Some consequences of specific ob-jectivity for the measurement of change. In E. E.Roskam (Ed.), Measurement and personality assess-

Page 14: Chinese/English Journal of Educational Measurement and

CEJEME 56

ment (pp. 39–55). Amsterdam: North-Holland.Fischer, G. H. (2007). Rasch models. In C. R. Rao & S.

Sinharay (Eds.), Handbook of statistics volume 26:Psychometrics (pp. 515–585). Amsterdam: North-Holland.

Fox, J.-P., & Glas, C. A. W. (2001). Bayesian estima-tion of a multilevel IRT model using Gibbs sam-pling. Psychometrika, 66, 269–286. Retrieved fromhttps://doi.org/10.1007/BF02294839

Guilford, J. P. (1936). Psychometric methods. N.Y.:McGraw-Hill. Retrieved from https://doi.org/10.1007/BF02287877

Haberman, S. (in press). Statistical theory and assessmentpractice. Journal of Educational Measurement.

Haley, D. C. (1952). Estimation of the dosage mortalityrelationship when the dose is subject to error. Stan-ford: Applied Mathematics and Statistics Laboratory,Stanford University, Technical Report 15.

Hart, H. N. (1923). Progress report on a test of social atti-tudes and interests. In B. T. Baldwin (Ed.), Universityof Iowa Studies in Child Welfare (Vol.2) (pp. 1–40).Iowa City: The University.

Holland, P. W. (1990). On the sampling theory founda-tions of item response theory models. Psychometrika,55, 577–601. Retrieved from https://doi.org/10.1007/BF02294609

Kelderman, H. (1984). Loglinear Rasch model tests. Psy-chometrika, 49, 223–245. Retrieved from https://doi.org/10.1007/BF02294174

Lawley, D. N. (1943). On problems connected withitem selection and test construction. Proceed-ings of the Royal Society of Edinburgh, 62-A, PartI, 74–82. Retrieved from https://doi.org/10.1017/S0080454100006282

Lazarsfeld, P. F. (1950). The logical and mathematicalfoundation of latent structure analysis. In S. A. Stouf-fer, L. Guttman, E. A. Suchman, P. F. Lazarsfeld, S.A. Star, & J. A. Clausen (Eds.), Measurement andPrediction (pp. 362–412). New York: Wiley.

Likert, R. (1932). A technique for the measurement ofattitudes. Archives of Psychology, 140, 4-55.

Likert scale. (2020, June 11). Retrieved June16, 2020, from https://en.wikipedia.org/wiki/Likertscale#Pronunciation

Lord, F. M. (1951). A maximum likelihood approach to testscores (ETS Research Bulletin Series No. RB-51-19).Educational Testing Service. Retrieved from https://doi.org/10.1002/j.2333-8504.1951.tb00219.x

Lord, F. M. (1952). A theory of test scores. PsychometricMonographs, Whole No.7.

Lord, F. M. (1953a). An application of confidence intervalsand of maximum likelihood to the estimation of anexaminee’s ability. Psychometrika, 18, 57–76. Re-trieved from https://doi.org/10.1007/BF02289028

Lord, F. M. (1953b). The relation of test score to the traitunderlying the test. Educational and PsychologicalMeasurement, 13, 517–548. Retrieved from https://doi.org/10.1177/001316445301300401

Lord, F. M., & Novick, M. R. (1968). Statistical Theories ofMental Test Scores. Reading, MA: Addison-Wesley.

Masters, G. N. (1982). A Rasch model for partial creditscoring. Psychometrika, 47, 149–174. Retrievedfrom https://doi.org/10.1007/BF02296272

Masters, G. N. (2016). Partial credit model. In W. J. vander Linden (Ed.), Handbook of item response theory,volume one: Models (pp. 109–126). Boca Raton, FL:Chapman & Hall/CRC.

Mellenbergh, G. J. (1994). A unidimensional latent traitmodel for continuous item responses. MultivariateBehavioral Research, 29, 223–236. Retrieved from10.1207/s15327906mbr2903 2

Muraki, E. (1992). A generalized partial credit model:Application of an EM algorithm. Applied Psycho-logical Measurement, 29, 159–176. Retrieved fromhttps://doi.org/10.1177/014662169201600206

Muraki, E., & Muraki, M. (2016). Partial credit model.In W. J. van der Linden (Ed.), Handbook of item re-sponse theory, volume one: Models (pp. 127–137).Boca Raton, FL: Chapman & Hall/CRC.

Neumann, G. B. (1926). A study of international attitudesof high school students. New York,NY: Teachers Col-lege, Columbia University, Bureau of Publications.

Neyman, J., & Scott, E. L. (1948). Consistent estimatesbased on partially consistent observations. Econo-metrica, 16, 1–32. Retrieved from https://doi.org/10.2307/1914288

Patz, R. J., & Junker, B. W. (1999a). Applications and ex-tensions of MCMC in IRT: Multiple item types, miss-ing data, and rated responses. Journal of Educationaland Behavioral Statistics, 24, 342–366. Retrievedfrom https://doi.org/10.3102/10769986024004342

Patz, R. J., & Junker, B. W. (1999b). A straightforwardapproach to Markov chain Monte Carlo methods foritem response models. Journal of Educational andBehavioral Statistics, 24, 146–178. Retrieved fromhttps://doi.org/10.3102/10769986024002146

Page 15: Chinese/English Journal of Educational Measurement and

57 Thissen & Steinberg

Patz, R. J., & Yao, L. (2007). Vertical scaling: Statisticalmodels for measuring growth and achievement. In C.R. Rao & S. Sinharay (Eds.), Handbook of statisticsvolume 26: Psychometrics (pp. 955–975). Amster-dam: North-Holland. Retrieved from https://doi.org/10.1016/S0169-7161(06)26030-9

Rabe-Hesketh, S., Skrondal, A., & Pickles, A. (2004).GLLAMM Manual (Second Edition). Berkeley, CA:U.C. Berkeley Division of Biostatistics Working Pa-per Series University of California Working Paper160.

Ramsay, J. O. (2016). Functional approaches to modelingresponse data. In W. J. van der Linden (Ed.), Hand-book of item response theory, volume one: Mod-els (pp. 337–350). Boca Raton, FL: Chapman &Hall/CRC.

Rasch, G. (1960). Probabilistic models for some intelli-gence and attainment tests. Copenhagen: DenmarksPaedagogiske Institut.

Rasch, G. (1961). On General Laws and the Meaning ofMeasurement in Psychology. Proceedings of the IVBerkeley Symposium on Mathematical Statistics andProbability, 4, 321–333.

Rasch, G. (1966). An individualistic approach to item anal-ysis. In P. Lazarsfeld & N. V. Henry (Eds.), Read-ings in mathematical social science (pp. 89–108).Chicago: Science Research Associates.

Rasch, G. (1977). On specific objectivity: An attempt atformalizing the request for generality and validity ofscientific statements. In M. Blegvad (Ed.), The Dan-ish yearbook of philosophy. Copenhagen: Munks-gaard.

Reckase, M. D. (2009). Multidimensional item responsetheory models. N.Y.: Springer. Retrieved fromhttps://doi.org/10.1007/978-0-387-89976-3

Richardson, M. W. (1936). The relationship between thedifficulty and the differential validity of a test. Psy-chometrika, 1, 33–49. Retrieved from https://doi.org/10.1007/BF02288003

Roberts, J. S., Donoghue, J. R., & Laughlin, J. E. (2000).A General Item Response Theory Model for Unfold-ing Unidimensional Polytomous Responses. AppliedPsychological Measurement, 24, 3–32. Retrievedfrom https://doi.org/10.1177/01466216000241001

Samejima, F. (1969). Estimation of latent ability usinga response pattern of graded scores. PsychometrikaMonograph, No. 17, 34, Part 2. Retrieved fromhttps://doi.org/10.1007/BF03372160

Samejima, F. (2016). Graded response models. In W. J. vander Linden (Ed.), Handbook of item response theory,volume one: Models (pp. 95–107). Boca Raton, FL:Chapman & Hall/CRC.

Sijtsma, K., & Molenaar, I. W. (2002). MeasurementMethods for the Social Science: Introduction to non-parametric item response theory. Thousand Oaks,CA: Sage Publications, Inc. Retrieved from https://doi.org/10.4135/9781412984676

Sitgreaves, R. (1961a). Further contributions to the theoryof test design. In H. Solomon (Ed.), Studies in itemanalysis and prediction (pp. 46–63). Stanford, CA:Stanford University Press.

Sitgreaves, R. (1961b). Optimal test design in a specialtesting situation. In H. Solomon (Ed.), Studies in itemanalysis and prediction (pp. 29–45). Stanford, CA:Stanford University Press.

Sitgreaves, R. (1961c). A statistical formulation of the at-tenuation paradox in test theory. In H. Solomon (Ed.),Studies in item analysis and prediction (pp. 17–28).Stanford, CA: Stanford University Press.

Skrondal, A., & Rabe-Hesketh, S. (2004). Generalized la-tent variable modeling: Multilevel, longitudinal, andstructural equation models. Boca Raton, FL: Chap-man & Hall/CRC. Retrieved from https://doi.org/10.1201/9780203489437

Solomon, H. (1956). Probability and statistics in psycho-metric research: item analysis and classification tech-niques. In J. Neyman (Ed.), Proceedings of the thirdberkeley symposium on mathematical statistics andprobability (Vol. 5, pp. 169–184). Berkeley, CA: Uni-versity of California Press.

Solomon, H. (1961). Classification procedures based on di-chotomous response vectors. In H. Solomon (Ed.),Studies in item analysis and prediction (pp. 177–186). Stanford, CA: Stanford University Press.

StataCorp. (2019). Stata: Release 16 [Statistical Software].College Station, TX: StataCorp LLC.

Symonds, P. M. (1929). Choice of items for a test on the ba-sis of difficulty. Journal of Educational Psychology,20, 481–493. Retrieved from https://doi.org/10.1037/h0075650

Tanner, M. A., & Wong, W. H. (1987). The calculationof posterior distributions by data augmentation (withdiscussion). Journal of the American statistical Asso-ciation, 82, 528–540. Retrieved from https://doi.org/10.1080/01621459.1987.10478458

Thissen, D., & Cai, L. (2016). Nominal categories mod-

Page 16: Chinese/English Journal of Educational Measurement and

CEJEME 58

els. In W. J. van der Linden (Ed.), Handbook of itemresponse theory, volume one: Models (pp. 51–73).Boca Raton, FL: Chapman & Hall/CRC.

Thissen, D., Cai, L., & Bock, R. D. (2010). The nomi-nal categories item response model. In M. L. Nering& R. Ostini (Eds.), Handbook of polytomous item re-sponse theory models (pp. 43–75). New York, NY:Routledge.

Thissen, D., Reeve, B. B., Bjorner, J. B., & Chang, C.-H. (2007). Methodological issues for building itembanks and computerized adaptive scales. Quality ofLife Research, 16, 109–116. Retrieved from https://doi.org/10.1007/s11136-007-9169-5

Thissen, D., & Steinberg, L. (1984). A responsemodel for multiple choice items. Psychometrika,49, 501–519. Retrieved from https://doi.org/10.1007/BF02302588

Thissen, D., & Steinberg, L. (1997). A response modelfor multiple choice items. In W. J. van der Linden &R. K. Hambleton (Eds.), Handbook of modern itemresponse theory (pp. 51–65). New York: Springer-Verlag. Retrieved from https://doi.org/10.1007/978-1-4757-2691-6 3

Thissen-Roe, A., & Thissen, D. (2013). A two-decisionmodel for responses to Likert-type items. Jour-nal of Educational and Behavioral Statistics, 38,522–547. Retrieved from https://doi.org/10.3102/1076998613481500

Thorndike, E. L. (1913). An introduction to the theory ofmental and social measurements (Second ed.). NewYork, NY: Teachers College, Columbia University.Retrieved from https://doi.org/10.1037/10866-000

Thorndike, E. L., Bregman, E. O., Cobb, M. V., Woodyard,E., & Institute of Educational Research, Division ofPsychology, Teachers College, Columbia University.(1926). The measurement of intelligence. Teach-ers College Bureau of Publications. Retrieved fromhttps://doi.org/10.1037/11240-000

Thurstone, L. L. (1925). A method of scaling psychologi-cal and educational tests. Journal of Educational Psy-chology, 16, 433–449. Retrieved from https://doi.org/10.1037/h0073357

Thurstone, L. L. (1927). A law of comparative judgment.Psychological Review, 34, 273—286. Retrieved fromhttps://doi.org/10.1037/h0070288

Thurstone, L. L. (1928). Attitudes can be measured. Amer-ican Journal of Sociology, 33, 529–554. Retrievedfrom https://doi.org/10.1086/214483

Thurstone, L. L. (1938). Primary mental abilities. Chicago:University of Chicago Press.

Thurstone, L. L., & Chave, E. J. (1929). The Measure-ment of Attitude. Chicago, IL: University of ChicagoPress.

Tjur, T. (1982). A connection between Rasch’s item analy-sis model and a multiplicative poisson model. Scan-dinavian Journal of Statistics, 9, 23–30.

Tucker, L. R. (1946). Maximum validity of a test withequivalent items. Psychometrika, 11, 1–13. Retrievedfrom https://doi.org/10.1007/BF02288894

van der Linden, W. J. (2016a). Handbook of item re-sponse theory, volume one: Models. Boca Raton,FL: Chapman & Hall/CRC. Retrieved from https://doi.org/10.1201/9781315374512

van der Linden, W. J. (2016b). Lognormal responsetime model. In W. J. van der Linden (Ed.), Hand-book of item response theory, volume one: Mod-els (pp. 261–282). Boca Raton, FL: Chapman &Hall/CRC. Retrieved from https://doi.org/10.1201/9781315374512

von Davier, M., & Lee, Y.-S. (Eds.). (2019). Handbookof Diagnostic Classification Models. New York, NY:Springer. Retrieved from https://doi.org/10.1007/978-3-030-05584-4

Wainer, H., Bradlow, E. T., & Wang, X. (2007). Test-let response theory and its applications. New York:Cambridge University Press. Retrieved from https://doi.org/10.1017/CBO9780511618765

Williams, V. S. L., Pommerich, M., & Thissen, D.(1998). A comparison of developmental scales basedon Thurstone methods and item response theory.Journal of Educational Measurement, 35, 93–107.Retrieved from https://doi.org/10.1111/j.1745-3984.1998.tb00529.x

Wimmer, R. (2012). Likert Scale-Dr. RensisLikert Pronunciation-Net Talk. Retrieved June16, 2020, from https://www.allaccess.com/forum/viewtopic.php?t=24251

Wingersky, M. S., Barton, M. A., & Lord, F. M. (1982). LO-GIST user’s guide. Princeton NJ: Educational TestingService.

Wright, B. D., & Douglas, G. A. (1977). Best proceduresfor sample free item analysis. Applied PsychologicalMeasurement, 1, 281–295.

Wright, B. D., & Panchapakesan, N. (1969). A procedurefor sample-free item analysis. Educational and Psy-chological Measurement, 29, 23–48. Retrieved from

Page 17: Chinese/English Journal of Educational Measurement and

59 Thissen & Steinberg

https://doi.org/10.1177/001316446902900102Yen, W. M. (1993). Scaling performance assessments:

Strategies for managing local item dependence. Jour-nal of Educational Measurement, 30(3), 187–213.Retrieved from https://doi.org/10.1111/j.1745-3984.1993.tb00423.x

Yen, W. M., & Burket, G. R. (1997). Comparison ofitem response theory and Thurstone methods of ver-tical scaling. Journal of Educational Measurement,34, 293–313. Retrieved from https://doi.org/10.1111/j.1745-3984.1997.tb00520.x