chap. 4 uuuššš˙˙˙uuu - ustcstaff.ustc.edu.cn/~zfw/nonpara/chapter4.pdf · 2019. 9. 2. ·...
TRANSCRIPT
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
基于秩的检验方法
线性秩检验
符号秩检验
两独立样本数据的位置和尺度参数的检验
多组数据的位置参数的检验
秩相关
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Chap. 4 基于秩的检验方法
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定义 1: 设 X1, ...,Xn 为样本 (不必同分布或独立),其值两两不同,记
Ri =n∑
j=1
I(Xj ≤ Xi)
则称 Ri 为 Xi 在样本 X1, ...,Xn 中的秩,R = (R1, ...,Rn) 称为样本 X1, ...,Xn 的秩统计量。
▶ 以下假设样本 X1, ...,Xn iid ∼ 连续分布 F, 则有定理 4.1 设样本 X1, ...,Xn iid ∼ 连续分布 F, R = (R1, ...,Rn) 为相应的秩统计量,r = (r1, ..., rn) 为 (1, ..., n) 的任一置换,则
P(R = r) = 1
n!
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定义 1: 设 X1, ...,Xn 为样本 (不必同分布或独立),其值两两不同,记
Ri =n∑
j=1
I(Xj ≤ Xi)
则称 Ri 为 Xi 在样本 X1, ...,Xn 中的秩,R = (R1, ...,Rn) 称为样本 X1, ...,Xn 的秩统计量。
▶ 以下假设样本 X1, ...,Xn iid ∼ 连续分布 F, 则有定理 4.1 设样本 X1, ...,Xn iid ∼ 连续分布 F, R = (R1, ...,Rn) 为相应的秩统计量,r = (r1, ..., rn) 为 (1, ..., n) 的任一置换,则
P(R = r) = 1
n!
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定理 4.2 设样本 X1, ...,Xn iid ∼ 连续分布 F, 则 R = (R1, ...,Rn) 的边际分布也是均匀分布,特别一维边际分布为
P(Ri = r) = 1
n, r = 1, 2, ..., n
二维边际分布为P(Ri = r,Rj = s) = 1
n(n− 1), r = s.
▶ 定理 4.3 设样本 X1, ...,Xn iid ∼ 连续分布 F, 则 R = (R1, ...,Rn) 有
E(Ri) =n + 1
2, Var(Ri) =
(n + 1)(n− 1)
12, i = 1, ..., n
Cov(Ri,Rj) = −n + 1
12, i = j.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定理 4.2 设样本 X1, ...,Xn iid ∼ 连续分布 F, 则 R = (R1, ...,Rn) 的边际分布也是均匀分布,特别一维边际分布为
P(Ri = r) = 1
n, r = 1, 2, ..., n
二维边际分布为P(Ri = r,Rj = s) = 1
n(n− 1), r = s.
▶ 定理 4.3 设样本 X1, ...,Xn iid ∼ 连续分布 F, 则 R = (R1, ...,Rn) 有
E(Ri) =n + 1
2, Var(Ri) =
(n + 1)(n− 1)
12, i = 1, ..., n
Cov(Ri,Rj) = −n + 1
12, i = j.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定理 4.4 设样本 X1, ...,Xn iid ∼ 连续分布 F, 记 X0 = (X(1), ...,X(n)) 和R = (R1, ...,Rn) 分别为次序统计量与秩统计量,则 R 和 X0 相互独立。
▶ 例设样本 x1 = 4.3, x2 = 6, x3 = 3.6 iid ∼ 连续分布 F(x),y1 = 7.4, y2 = 5.5, y3 = 6.2 iid ∼ 连续分布 F(x−∆), 试检验假设
H0 : ∆ = 0↔ H1 : ∆ > 0.
▶ 当样本 X1, ...,Xn iid 存在结时,即 (X1, ...,Xn) = (t1, ..., tn) 可以分成 k 个组 (k个不同的值),各组依次有 n1, ..., nk 个值,则 (t1, ..., tn) 的不同置换共有 n!
n1!...nk!种,X = (X1, ...,Xn) 取其中任一置换的概率均为
n1!...nk!
n!.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定理 4.4 设样本 X1, ...,Xn iid ∼ 连续分布 F, 记 X0 = (X(1), ...,X(n)) 和R = (R1, ...,Rn) 分别为次序统计量与秩统计量,则 R 和 X0 相互独立。
▶ 例设样本 x1 = 4.3, x2 = 6, x3 = 3.6 iid ∼ 连续分布 F(x),y1 = 7.4, y2 = 5.5, y3 = 6.2 iid ∼ 连续分布 F(x−∆), 试检验假设
H0 : ∆ = 0↔ H1 : ∆ > 0.
▶ 当样本 X1, ...,Xn iid 存在结时,即 (X1, ...,Xn) = (t1, ..., tn) 可以分成 k 个组 (k个不同的值),各组依次有 n1, ..., nk 个值,则 (t1, ..., tn) 的不同置换共有 n!
n1!...nk!种,X = (X1, ...,Xn) 取其中任一置换的概率均为
n1!...nk!
n!.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
秩统计量
▶ 定理 4.4 设样本 X1, ...,Xn iid ∼ 连续分布 F, 记 X0 = (X(1), ...,X(n)) 和R = (R1, ...,Rn) 分别为次序统计量与秩统计量,则 R 和 X0 相互独立。
▶ 例设样本 x1 = 4.3, x2 = 6, x3 = 3.6 iid ∼ 连续分布 F(x),y1 = 7.4, y2 = 5.5, y3 = 6.2 iid ∼ 连续分布 F(x−∆), 试检验假设
H0 : ∆ = 0↔ H1 : ∆ > 0.
▶ 当样本 X1, ...,Xn iid 存在结时,即 (X1, ...,Xn) = (t1, ..., tn) 可以分成 k 个组 (k个不同的值),各组依次有 n1, ..., nk 个值,则 (t1, ..., tn) 的不同置换共有 n!
n1!...nk!种,X = (X1, ...,Xn) 取其中任一置换的概率均为
n1!...nk!
n!.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
4.1 线性秩检验
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
线性秩统计量
▶ 定义 2: 设 X1, ...,Xn 为样本,其对应的秩统计量为 R = (R1, ...,Rn)。若c1, ..., cn 和 a(1), ..., a(n) 为两组常数,组内 n 个数不全相同,则称
L =n∑
i=1
cia(Ri)
为 R 的线性秩统计量,称 c1, ..., cn 为回归常数,a(1), ..., a(n) 为得分。
▶ 定理 4.5 设样本 X1, ...,Xn iid ∼ 连续分布 F, 则线性秩统计量 L 的期望和方差分别为
E(L) = nca, Var(L) = 1
n− 1{
n∑i=1
(a(i)− a)2}{n∑
i=1
(ci − c)2}.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
线性秩统计量
▶ 定义 2: 设 X1, ...,Xn 为样本,其对应的秩统计量为 R = (R1, ...,Rn)。若c1, ..., cn 和 a(1), ..., a(n) 为两组常数,组内 n 个数不全相同,则称
L =n∑
i=1
cia(Ri)
为 R 的线性秩统计量,称 c1, ..., cn 为回归常数,a(1), ..., a(n) 为得分。
▶ 定理 4.5 设样本 X1, ...,Xn iid ∼ 连续分布 F, 则线性秩统计量 L 的期望和方差分别为
E(L) = nca, Var(L) = 1
n− 1{
n∑i=1
(a(i)− a)2}{n∑
i=1
(ci − c)2}.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Wilcoxon 秩和统计量
▶ 两样本问题:设样本 X1, ...,Xn iid ∼ F(x), 样本Y1, ...,Ym iid ∼ G(y) = F(y− θ), 且两样本独立,考虑假设
H0 : θ = 0←→ H1 : θ > 0
构造秩统计量
WY =
m∑i=1
Rn+i
其中 Rn+i 表示 Yi 在合样本 X1, ...,Xn,Y1, ...,Ym 中的秩,则 WY 是一个线性秩统计量,
E(WY) =m(n + m + 1)
2, Var(WY) =
nm(n + m + 1)
12.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
线性秩统计量
▶ (1)Fisher-Yates:an(i) = E(ξni ), 其中 ξn1 ≤ ... ≤ ξnn 为 N(0, 1) 中抽取的次序统计量。
▶ (2)VanderWaerden:an(i) = Φ−1(i/(n + 1)).▶ (3)F 轻尾 (强调极端值):
an(i) =
i
n+1− 1
4, 1 ≤ i ≤ n+1
4,
0, n+14
< i < 3(n+1)4
,i
n+1− 3
4,
3(n+1)4≤ i ≤ n.
▶ (4)F 重尾 (降低极端值):
an(i) =
− n+1
4, 1 ≤ i ≤ n+1
4,
i− n+12
, n+14
< i < 3(n+1)4
,n+14
,3(n+1)
4≤ i ≤ n.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
线性秩统计量
▶ (5)F 右偏 (强调小值):
an(i) ={
i− n+12
, i ≤ n+12
,
0, n+12
< i.
▶ (6)F 左偏 (强调大值):
an(i) ={
0, i ≤ n+12
,
i− n+12
, n+12
< i.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
线性秩统计量
▶ 定理 4.6 对于线性秩统计量 L =∑n
i=1 cia(Ri),如果下述条件至少一个成立
a(i) + a(n + 1− i) = a(1) + a(n), i = 1, ..., nci + cn+1−i = c1 + cn, i = 1, ..., n
则 L 的分布关于其期望 nca 对称。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
线性秩统计量▶ 定理 4.7 设样本 X1, ...,Xn iid ∼ 连续分布 F, 对于线性秩统计量
Ln =∑n
i=1 cnian(Ri),如果下述条件成立▶ (1) {cn1, ..., cnn : n ≥ 1} 满足 Noether 条件 (1949)
max (cni − cn)2∑ni=1(cni − cn)2
−→ 0
▶ (2) 分值函数 {an(i)} 满足
an(i) = bnϕ(i
n + 1) + dn, i = 1, ..., n
其中 bn, dn 仅依赖于 n, 且 ϕ(u) 满足▶ (a) ϕ(u) 与 n 无关▶ (b) ϕ 可以表示为两个非降函数之差,即 ϕ(u) = ϕ1(u)− ϕ2(u),
ϕ1(u) 和 ϕ2(u) 均为 u 的非降函数。▶ ϕ 平方可积,即 0 <
∫ 10 (ϕ(u)− ϕ)2du <∞, ϕ =
∫ 10 ϕ(u)du.
则当 n→∞ 时,
Ln − E(Ln)√Var(Ln)
−→ N(0, 1), in distribution.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
基于秩的检验方法
线性秩检验
符号秩检验
两独立样本数据的位置和尺度参数的检验
多组数据的位置参数的检验
秩相关
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
4.2 符号秩检验
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
符号秩统计量▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x− θ), 其中 F 关于原点对称,考虑检验问题
(θ0 已知)
H0 : θ = θ0 ←→ H1 : θ = θ0 (1)H0 : θ ≥ θ0 ←→ H1 : θ < θ0 (2)H0 : θ ≤ θ0 ←→ H1 : θ > θ0. (3)
▶ 设 θ0 = 0, 则
H0 : θ = 0←→ H1 : θ = 0 (4)H0 : θ ≥ 0←→ H1 : θ < 0 (5)H0 : θ ≤ 0←→ H1 : θ > 0. (6)
▶ 定义 3: 设 |X1|, ..., |Xn| 为互不相同的样本,记 Φi = Φ(Xi) = I(Xi > 0), R+i 表
示 |Xi| 在 {|X1|, ..., |Xn|} 中的秩,则称统计量为 R+ = (Φ1R+1 , ...,ΦnR+
n ) 为样本 |X1|, ..., |Xn| 的秩向量,而称
L+n =
n∑i=1
Φia(R+i )
为线性符号秩统计量。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
符号秩统计量▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x− θ), 其中 F 关于原点对称,考虑检验问题
(θ0 已知)
H0 : θ = θ0 ←→ H1 : θ = θ0 (1)H0 : θ ≥ θ0 ←→ H1 : θ < θ0 (2)H0 : θ ≤ θ0 ←→ H1 : θ > θ0. (3)
▶ 设 θ0 = 0, 则
H0 : θ = 0←→ H1 : θ = 0 (4)H0 : θ ≥ 0←→ H1 : θ < 0 (5)H0 : θ ≤ 0←→ H1 : θ > 0. (6)
▶ 定义 3: 设 |X1|, ..., |Xn| 为互不相同的样本,记 Φi = Φ(Xi) = I(Xi > 0), R+i 表
示 |Xi| 在 {|X1|, ..., |Xn|} 中的秩,则称统计量为 R+ = (Φ1R+1 , ...,ΦnR+
n ) 为样本 |X1|, ..., |Xn| 的秩向量,而称
L+n =
n∑i=1
Φia(R+i )
为线性符号秩统计量。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
符号秩统计量
▶ 定理 4.8 设 X ∼ 连续分布 F, 其分布关于 0 点对称,则 |X| 和 Φ 相互独立。
▶ 定理 4.9 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,对于统计量为 R+ = (R+
1 , ...,R+n ) 和 Φi = Φ(Xi) = I(Xi > 0) 有
▶ (1) Φ1, ...,Φn,R+ 相互独立;▶ (2) Φi ∼ B(1, 1
2 );▶ (3) R+ 在集合 F 上均匀分布。
▶ 定理 4.10 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,则有
L+n =
n∑i=1
Φia(R+i ) =
n∑i=1
Φia(i) in distribution.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
符号秩统计量
▶ 定理 4.8 设 X ∼ 连续分布 F, 其分布关于 0 点对称,则 |X| 和 Φ 相互独立。
▶ 定理 4.9 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,对于统计量为 R+ = (R+
1 , ...,R+n ) 和 Φi = Φ(Xi) = I(Xi > 0) 有
▶ (1) Φ1, ...,Φn,R+ 相互独立;▶ (2) Φi ∼ B(1, 1
2 );▶ (3) R+ 在集合 F 上均匀分布。
▶ 定理 4.10 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,则有
L+n =
n∑i=1
Φia(R+i ) =
n∑i=1
Φia(i) in distribution.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
符号秩统计量
▶ 定理 4.8 设 X ∼ 连续分布 F, 其分布关于 0 点对称,则 |X| 和 Φ 相互独立。
▶ 定理 4.9 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,对于统计量为 R+ = (R+
1 , ...,R+n ) 和 Φi = Φ(Xi) = I(Xi > 0) 有
▶ (1) Φ1, ...,Φn,R+ 相互独立;▶ (2) Φi ∼ B(1, 1
2 );▶ (3) R+ 在集合 F 上均匀分布。
▶ 定理 4.10 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,则有
L+n =
n∑i=1
Φia(R+i ) =
n∑i=1
Φia(i) in distribution.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
符号秩统计量
▶ 定理 4.11 设样本 X1, ...,Xn iid ∼ 连续分布 F, 其分布关于 0 点对称,对于线性符号统计量为 L+
n =∑n
i=1 Φia(R+i ) 有
▶ (1)
E(L+n ) = na/2, Var(L+
n ) =n∑
i=1
a2(i)/4,
其中 a =∑n
i=1 a(i)/n;▶ (2) L+
n 的分布关于 na/2 对称;▶ (3) 若 max{a2n(i)}/A2
n → 0, 则当 n → ∞ 时,
L+n − na/2
An/2−→ N(0, 1),
其中 A2n =
∑ni=1 a(i)2.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Wilcoxon 秩检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x− θ), 其分布关于 0 点对称,考虑假设检验问题: H0 : θ = θ0 ←→ H1 : θ = θ0, 不妨设 θ0 = 0.▶ 检验统计量 W+ =
∑ni=1 ΦiR+
i ;▶ 拒绝域 {W+ < c1 or W+ > c2};▶ 阈值 c1, c2 由下式确定
c01 = sup{c1 : PH0(W+ < c1) ≤ α/2}
c02 = inf{c2 : PH0(W+ > c2) ≤ α/2}
▶ 当 n 较小 (n ≤ 30) 时,可由 W+ 的在原假设下的精确分布计算。
▶ 当 n 较大时,可由 W+ 的在原假设下的渐近分布计算。
▶ 打结情况: 原假设下的大样本分布需要修正
W+ − EW+√Var(W+)− b
−→ N(0, 1) in distribution,
其中 b = 148
∑gk=1(τ
3k − τk), g 为结的个数, τk 为第 k 个结中观测者的个数,称
为结的长度。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Wilcoxon 秩检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x− θ), 其分布关于 0 点对称,考虑假设检验问题: H0 : θ = θ0 ←→ H1 : θ = θ0, 不妨设 θ0 = 0.▶ 检验统计量 W+ =
∑ni=1 ΦiR+
i ;▶ 拒绝域 {W+ < c1 or W+ > c2};▶ 阈值 c1, c2 由下式确定
c01 = sup{c1 : PH0(W+ < c1) ≤ α/2}
c02 = inf{c2 : PH0(W+ > c2) ≤ α/2}
▶ 当 n 较小 (n ≤ 30) 时,可由 W+ 的在原假设下的精确分布计算。
▶ 当 n 较大时,可由 W+ 的在原假设下的渐近分布计算。
▶ 打结情况: 原假设下的大样本分布需要修正
W+ − EW+√Var(W+)− b
−→ N(0, 1) in distribution,
其中 b = 148
∑gk=1(τ
3k − τk), g 为结的个数, τk 为第 k 个结中观测者的个数,称
为结的长度。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Wilcoxon 秩检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x− θ), 其分布关于 0 点对称,考虑假设检验问题: H0 : θ = θ0 ←→ H1 : θ = θ0, 不妨设 θ0 = 0.▶ 检验统计量 W+ =
∑ni=1 ΦiR+
i ;▶ 拒绝域 {W+ < c1 or W+ > c2};▶ 阈值 c1, c2 由下式确定
c01 = sup{c1 : PH0(W+ < c1) ≤ α/2}
c02 = inf{c2 : PH0(W+ > c2) ≤ α/2}
▶ 当 n 较小 (n ≤ 30) 时,可由 W+ 的在原假设下的精确分布计算。
▶ 当 n 较大时,可由 W+ 的在原假设下的渐近分布计算。
▶ 打结情况: 原假设下的大样本分布需要修正
W+ − EW+√Var(W+)− b
−→ N(0, 1) in distribution,
其中 b = 148
∑gk=1(τ
3k − τk), g 为结的个数, τk 为第 k 个结中观测者的个数,称
为结的长度。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Wilcoxon 秩检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x− θ), 其分布关于 0 点对称,考虑假设检验问题: H0 : θ = θ0 ←→ H1 : θ = θ0, 不妨设 θ0 = 0.▶ 检验统计量 W+ =
∑ni=1 ΦiR+
i ;▶ 拒绝域 {W+ < c1 or W+ > c2};▶ 阈值 c1, c2 由下式确定
c01 = sup{c1 : PH0(W+ < c1) ≤ α/2}
c02 = inf{c2 : PH0(W+ > c2) ≤ α/2}
▶ 当 n 较小 (n ≤ 30) 时,可由 W+ 的在原假设下的精确分布计算。
▶ 当 n 较大时,可由 W+ 的在原假设下的渐近分布计算。
▶ 打结情况: 原假设下的大样本分布需要修正
W+ − EW+√Var(W+)− b
−→ N(0, 1) in distribution,
其中 b = 148
∑gk=1(τ
3k − τk), g 为结的个数, τk 为第 k 个结中观测者的个数,称
为结的长度。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
基于秩的检验方法
线性秩检验
符号秩检验
两独立样本数据的位置和尺度参数的检验
多组数据的位置参数的检验
秩相关
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
4.3 两独立样本数据的位置和尺度参数的检验
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
位置参数的检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F(x), Y1, ...,Ym iid ∼ 连续分布 F(x− θ), 且两组样本相互独立。考虑检验问题
H0 : θ = 0←→ H1 : θ = 0 (7)H0 : θ ≥ 0←→ H1 : θ < 0 (8)H0 : θ ≤ 0←→ H1 : θ > 0. (9)
▶ 记 Rn+j 表示 Yj 在合样本中的秩,定义 Wilcoxon 秩和统计量
WY =m∑
j=1
Rn+j =m∑
j=1
[n∑
i=1
I(Xi < Yj) +m∑
k=1
I(Yk ≤ Yj)].
▶ 精确分布:
P0(WY = w) =∑
S
n!(n + m)!
其中 S 是集合 {r1 + · · ·+ rm = w, (r1, ..., rm) ⊂ (1, ...,m + n)}
▶ 渐近分布:WY ∼ N(EWY, Var(WY))
▶ 打结情形: WY ∼ N(EWY, Var(WY)− b),其中 b = nm
12N(N−1)
∑gk=1(τ
3k − τk), N = n + m.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F( x−θ1
σ1), Y1, ...,Ym iid ∼ 连续分布 F( x−θ2
σ2),
且两组样本相互独立。考虑检验问题
H0 : σ1 = σ2 ←→ H1 : σ1 = σ2 (10)H0 : σ1 ≥ σ2 ←→ H1 : σ1 < σ2 (11)H0 : σ1 ≤ σ2 ←→ H1 : σ1 > σ2 (12)
▶ 位置参数已知下,不妨设 θ1 = θ2 = 0. 在 H0 下,X1, ...,Xn,Y1, ...,Ym iid ∼ 连续分布 F( x
σ).
▶ 在 H0 下,合样本的秩向量服从均匀分布,记 Ri 为 Xi 在合样本中的秩,则
P(Ri = r) = 1
m + n, ERi =
n+m∑i=1
in + m
=n + m + 1
2.
▶ 定义秩和统计量 (Mood test)
M =n∑
j=1
(Ri −n + m + 1
2)2.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F( x−θ1
σ1), Y1, ...,Ym iid ∼ 连续分布 F( x−θ2
σ2),
且两组样本相互独立。考虑检验问题
H0 : σ1 = σ2 ←→ H1 : σ1 = σ2 (10)H0 : σ1 ≥ σ2 ←→ H1 : σ1 < σ2 (11)H0 : σ1 ≤ σ2 ←→ H1 : σ1 > σ2 (12)
▶ 位置参数已知下,不妨设 θ1 = θ2 = 0. 在 H0 下,X1, ...,Xn,Y1, ...,Ym iid ∼ 连续分布 F( x
σ).
▶ 在 H0 下,合样本的秩向量服从均匀分布,记 Ri 为 Xi 在合样本中的秩,则
P(Ri = r) = 1
m + n, ERi =
n+m∑i=1
in + m
=n + m + 1
2.
▶ 定义秩和统计量 (Mood test)
M =n∑
j=1
(Ri −n + m + 1
2)2.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F( x−θ1
σ1), Y1, ...,Ym iid ∼ 连续分布 F( x−θ2
σ2),
且两组样本相互独立。考虑检验问题
H0 : σ1 = σ2 ←→ H1 : σ1 = σ2 (10)H0 : σ1 ≥ σ2 ←→ H1 : σ1 < σ2 (11)H0 : σ1 ≤ σ2 ←→ H1 : σ1 > σ2 (12)
▶ 位置参数已知下,不妨设 θ1 = θ2 = 0. 在 H0 下,X1, ...,Xn,Y1, ...,Ym iid ∼ 连续分布 F( x
σ).
▶ 在 H0 下,合样本的秩向量服从均匀分布,记 Ri 为 Xi 在合样本中的秩,则
P(Ri = r) = 1
m + n, ERi =
n+m∑i=1
in + m
=n + m + 1
2.
▶ 定义秩和统计量 (Mood test)
M =n∑
j=1
(Ri −n + m + 1
2)2.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验
▶ 在 H0 下,当 n,m→∞, 且 n/(n + m) 趋向常数时,
M− EM√Var(M)
−→ N(0, 1), in distribution,
其中 EM = n(N2 − 1)/12, N = n + m, Var(M) = nm(N + 1)(N2 − 4)/180.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验
Talwar and Gentle 平方秩▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F( x−θ1
σ1), Y1, ...,Ym iid ∼ 连续分布 F( x−θ2
σ2),
且两组样本相互独立。考虑检验问题
H0 : σ1 = σ2 ←→ H1 : σ1 = σ2 (13)H0 : σ1 ≥ σ2 ←→ H1 : σ1 < σ2 (14)H0 : σ1 ≤ σ2 ←→ H1 : σ1 > σ2 (15)
▶ 位置参数已知下,令
Ui = |Xi − θ1|, Vj = |Yj − θ2|.
在 H0 下,U1, ...,Un,V1, ...,Vm 的秩是均匀分布的.
▶ 记 Ri 为 Ui 在合样本中的秩,则检验统计量
T =n∑
j=1
R2i .
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验
Talwar and Gentle 平方秩▶ 设样本 X1, ...,Xn iid ∼ 连续分布 F( x−θ1
σ1), Y1, ...,Ym iid ∼ 连续分布 F( x−θ2
σ2),
且两组样本相互独立。考虑检验问题
H0 : σ1 = σ2 ←→ H1 : σ1 = σ2 (13)H0 : σ1 ≥ σ2 ←→ H1 : σ1 < σ2 (14)H0 : σ1 ≤ σ2 ←→ H1 : σ1 > σ2 (15)
▶ 位置参数已知下,令
Ui = |Xi − θ1|, Vj = |Yj − θ2|.
在 H0 下,U1, ...,Un,V1, ...,Vm 的秩是均匀分布的.
▶ 记 Ri 为 Ui 在合样本中的秩,则检验统计量
T =n∑
j=1
R2i .
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验
▶ 在 H0 下,当 n,m→∞, 且 n/(n + m) 趋向常数时, 在合适的条件下,
T− ET√Var(T)
−→ N(0, 1), in distribution,
其中 ET = n(N + 1)(2N + 1)/6, N = n + m,Var(T) = nm(N + 1)(2N + 1)(8N + 11)/180.
▶ 打结情形:
T1 =T− nR2√
nmN(N−1)
∑Ni=1 R4
i −nm
N−1(R2)2
−→ N(0, 1), in distribution,
其中 R2 =∑N
i=1 R2i /N.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
尺度参数的检验
▶ 在 H0 下,当 n,m→∞, 且 n/(n + m) 趋向常数时, 在合适的条件下,
T− ET√Var(T)
−→ N(0, 1), in distribution,
其中 ET = n(N + 1)(2N + 1)/6, N = n + m,Var(T) = nm(N + 1)(2N + 1)(8N + 11)/180.
▶ 打结情形:
T1 =T− nR2√
nmN(N−1)
∑Ni=1 R4
i −nm
N−1(R2)2
−→ N(0, 1), in distribution,
其中 R2 =∑N
i=1 R2i /N.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
基于秩的检验方法
线性秩检验
符号秩检验
两独立样本数据的位置和尺度参数的检验
多组数据的位置参数的检验
秩相关
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
4.4 多组数据的位置参数的检验
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Kruskal-Wallis 检验
▶ 设样本 Xi1, ...,Xini iid ∼ 连续分布 F(x− θi), i = 1, ..., k, 假设(1) 各组样本相互独立(2) 完全随机设计(3) 总体分布中除了位置参数不同外,分布是相似的
▶ 考虑检验问题H0 : θ1 = ... = θk ←→ H1 : θi = θj.
▶ 记 Rij 表示 Xij 在合样本中的秩,i = 1, ..., k, j = 1, ..., ni, 则第 i 组样本的平均秩为
Ri. =Ri.ni
, Ri. =ni∑
j=1
Rij
▶ 合样本的平均秩:R = (n + 1)/2, 其中 n =∑k
i=1 ni合样本的平方秩和:
∑i,j R2
ij = n(n + 1)(2n + 1)/6,合样本的各秩平方和:SST =
∑i,j(Rij − R)2 =
∑i,j R2
ij − R2,
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Kruskal-Wallis 检验
▶ 秩和分解
SST =∑
i,j(Rij − R)2 =
∑i
ni(Ri. − R)2 +∑
i,j(Rij − Ri.)
2
=SSB + SSI
▶ 处理间平方和
SSB =∑
ini(Ri. − R)2 =
∑i
R2i.
ni−
1
4n(n + 1)2
▶ 在 H0 下,
ERi. =n + 1
2, Var(Ri.) =
(n− ni)(n + 1)
12ni,
Cov(Ri., Rj.) = −n + 1
12.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Kruskal-Wallis 检验
▶ Kruskal-Wallis 检验统计量
H =SSBMST
=12
n(n + 1)
∑i
R2i.
ni− 3(n + 1), (16)
其中 MST = SST/(n− 1).▶ 可以证明,在 H0 下,当 n→∞ 时,ni/n→ λi > 0, i = 1, ..., k, 则有
H =
k∑i=1
(1−nin)
Ri. − (n + 1)/2√(n−ni)(n+1)
12ni
2
→ χ2k−1.
▶ 当样本存在结时,
Hc =H
1− 1n3−n
∑gl=1(τ
3l − τl)
,
其中 τl 是第 l 结的长度。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Kruskal-Wallis 检验▶ 多重假设
H0 = ∩i<jH0ij, H0ij : θi = θj, i < j.
▶ 控制一型错误率
P(拒绝 H0|H0) =P(H0ij至少一个被拒绝|H0)
≤∑i<j
P(H0ij被拒绝|H0) = α.
取 α∗ = α/(k(k− 1)/2), 令
P(H0ij被拒绝|H0) ≤ α∗.
▶ Dunn(1964)提出一种检验方法
Dij =|Ri. − Rj.|
SE,
其中 SE =√
MST(1/ni + 1/nj), 拒绝域为{Dij ≥ zα∗/2}, i = 1, ..., k, j = 1, ..., ni。
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Jonckheere-Terpstra 检验
▶ 考虑检验问题
H0 : θ1 = ... = θk ←→ H1 : θ1 ≤ θ2 ≤ ... ≤ θk.
其中至少有一个不等号严格成立。
▶ 记J =
∑i<j
Uij
其中 Uij =∑ni
s=1
∑njt=1 ϕ(xjt − xis), i < j. 拒绝域 {J ≥ c}.
▶ 在 H0 下,min ni →∞,ni/n→ λi > 0, i = 1, ..., k 时,
J− E(J)√Var(J)
−→ N(0, 1),
其中 E(J) = (n2 −∑k
i=1 n2i )/4, Var(J) = (n2(2n + 3)−
∑ki=1 n2
i (2ni + 3))/72.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Jonckheere-Terpstra 检验
▶ 考虑检验问题
H0 : θ1 = ... = θk ←→ H1 : θ1 ≤ θ2 ≤ ... ≤ θk.
其中至少有一个不等号严格成立。▶ 记
J =∑i<j
Uij
其中 Uij =∑ni
s=1
∑njt=1 ϕ(xjt − xis), i < j. 拒绝域 {J ≥ c}.
▶ 在 H0 下,min ni →∞,ni/n→ λi > 0, i = 1, ..., k 时,
J− E(J)√Var(J)
−→ N(0, 1),
其中 E(J) = (n2 −∑k
i=1 n2i )/4, Var(J) = (n2(2n + 3)−
∑ki=1 n2
i (2ni + 3))/72.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Jonckheere-Terpstra 检验
▶ 当存在结时, 可以修正 Uij 为U∗
ij =∑ni
s=1
∑njt=1{ϕ(xjt − xis) +
12
I(xjt = xis)}, i < j.记
J∗ =∑i<j
U∗ij
在 H0 下,min ni →∞,ni/n→ λi > 0, i = 1, ..., k 时,
J∗ − E(J∗)√Var(J∗)
−→ N(0, 1),
其中 E(J∗) = E(J) = (n2 −∑k
i=1 n2i )/4, Var(J∗) =
Var(J)− 172
∑gl=1 τl(τl−1)(2τl+5)+ 1
36n(n−1)(n−2) [∑k
i=1 ni(ni−1)(ni−2)][
∑gl=1 τl(τl−1)(τl−2)]+ 1
8n(n−1) [∑k
i=1 ni(ni−1)][∑g
l=1 τl(τl−1)].
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 假设有 k 个处理,b 个区组,观测数据如下:样本 1 ... 样本 k
区组 1 x11 ... x1k区组 2 x21 ... x2k
... ... ... ...区组 b xb1 ... xbk
▶ (1) 设样本 X11, ...,Xbk 相互独立;(2) xij ∼ Fi(x− θj), i = 1, ..., b, j = 1, ..., k;(3) 分布 Fi 连续。
▶ 考虑检验问题H0 : θ1 = ... = θk ←→ H1 : θi = θj.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 秩数据如下:样本 1 ... 样本 k 秩和 Ri.
区组 1 R11 ... R1kk(k+1)
2
区组 2 R21 ... R2kk(k+1)
2... ... ... ... ...
区组 b Rb1 ... Rbkk(k+1)
2
秩和 R.j R.1 ... R.kbk(k+1)
2
其中 Rij 表示 Xij 在第 i 区组样本中的秩,i = 1, ..., b, j = 1, ..., k. 记
Ri. =Ri.k
, R.j =R.jb
, R.. =
∑kj=1 R.j
kb
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 在 H0 下,我们有
E(R.j) =k + 1
2, Var(R.j) =
k2 − 1
12b, Cov(R.i, R.j) = −
k + 1
12.
▶ 各处理间的平方和
SSt = bk∑
j=1
(R.j − R..)2 =
1
b
k∑j=1
R2.j −
1
4bk(k + 1)2.
构造检验统计量 (Friedman 检验)
Q =12
k(k + 1)SSt =
k− 1
kSSt
Var(Rij).
▶ 在 H0 下, 当 b→∞ 时,Q −→ χ2
k−1.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 在 H0 下,我们有
E(R.j) =k + 1
2, Var(R.j) =
k2 − 1
12b, Cov(R.i, R.j) = −
k + 1
12.
▶ 各处理间的平方和
SSt = bk∑
j=1
(R.j − R..)2 =
1
b
k∑j=1
R2.j −
1
4bk(k + 1)2.
构造检验统计量 (Friedman 检验)
Q =12
k(k + 1)SSt =
k− 1
kSSt
Var(Rij).
▶ 在 H0 下, 当 b→∞ 时,Q −→ χ2
k−1.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 在 H0 下,我们有
E(R.j) =k + 1
2, Var(R.j) =
k2 − 1
12b, Cov(R.i, R.j) = −
k + 1
12.
▶ 各处理间的平方和
SSt = bk∑
j=1
(R.j − R..)2 =
1
b
k∑j=1
R2.j −
1
4bk(k + 1)2.
构造检验统计量 (Friedman 检验)
Q =12
k(k + 1)SSt =
k− 1
kSSt
Var(Rij).
▶ 在 H0 下, 当 b→∞ 时,Q −→ χ2
k−1.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 当数据有结时,
Qc =Q
1−∑g
l=1(τ3l − τl)/(bk(k2 − 1))
.
▶ 当检验结果表明处理之间存在差异时,Hollander-Wolfe (1973) 提出两处理之间的比较公式
Dij =|R.i − R.j|
SE,
其中 SE = Var(R.i − R.j) = kb(k + 1)/6. 若有相同秩, 则SE = kb(k + 1)/6− b
∑gl=1(τ
3l − τl)/(6(k + 1)).
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
区组设计
▶ 当数据有结时,
Qc =Q
1−∑g
l=1(τ3l − τl)/(bk(k2 − 1))
.
▶ 当检验结果表明处理之间存在差异时,Hollander-Wolfe (1973) 提出两处理之间的比较公式
Dij =|R.i − R.j|
SE,
其中 SE = Var(R.i − R.j) = kb(k + 1)/6. 若有相同秩, 则SE = kb(k + 1)/6− b
∑gl=1(τ
3l − τl)/(6(k + 1)).
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
调整秩和检验
▶ (1) 对区组 i, 计算某一位置估计值,例如均值或者中位数。以均值为例:xi. =
∑kj=1 xij/k.
▶ (2) 每个区组中心化: x∗ij = xij − xi.
▶ (3) 对调整后的数据,像 KW 检验一样计算全部数据混合后的值,x∗ij 的秩记为Rij.
▶ (4) 以 R.j 表示第 j 处理的平均秩,在 H0 下,R.j 应和 R.. = (kb + 1)/2 相等,于是检验统计量取为
Q =(k− 1)b2∑ij(Rij − R..)2
k∑j=1
(R.j − R..)2.
▶ 在 H0 下,我们有Q −→ χ2
k−1.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
调整秩和检验
▶ (1) 对区组 i, 计算某一位置估计值,例如均值或者中位数。以均值为例:xi. =
∑kj=1 xij/k.
▶ (2) 每个区组中心化: x∗ij = xij − xi.
▶ (3) 对调整后的数据,像 KW 检验一样计算全部数据混合后的值,x∗ij 的秩记为Rij.
▶ (4) 以 R.j 表示第 j 处理的平均秩,在 H0 下,R.j 应和 R.. = (kb + 1)/2 相等,于是检验统计量取为
Q =(k− 1)b2∑ij(Rij − R..)2
k∑j=1
(R.j − R..)2.
▶ 在 H0 下,我们有Q −→ χ2
k−1.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Page 检验
▶ 考虑检验问题
H0 : θ1 = ... = θk ←→ H1 : θ1 ≤ θ2 ≤ ... ≤ θk.
其中至少有一个不等号严格成立。
▶ 记 Rij 表示 Xij 在第 i 区组样本中的秩,定义统计量
L =k∑
j=1
jR.j.
▶ 在 H0 下,L 服从对称中心 C = bk(k + 1)2/4 的对称分布。所以当 k 固定,b→∞ 时,
L− CσL
−→ N(0, 1),
其中 σL = bk2(k + 1)2(k− 1)/144. 当数据有结时,σL = k(k + 1)[bk(k2 − 1)−
∑gl=1(τ
3l − τl)]/144.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Page 检验
▶ 考虑检验问题
H0 : θ1 = ... = θk ←→ H1 : θ1 ≤ θ2 ≤ ... ≤ θk.
其中至少有一个不等号严格成立。▶ 记 Rij 表示 Xij 在第 i 区组样本中的秩,定义统计量
L =k∑
j=1
jR.j.
▶ 在 H0 下,L 服从对称中心 C = bk(k + 1)2/4 的对称分布。所以当 k 固定,b→∞ 时,
L− CσL
−→ N(0, 1),
其中 σL = bk2(k + 1)2(k− 1)/144. 当数据有结时,σL = k(k + 1)[bk(k2 − 1)−
∑gl=1(τ
3l − τl)]/144.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Page 检验
▶ 考虑检验问题
H0 : θ1 = ... = θk ←→ H1 : θ1 ≤ θ2 ≤ ... ≤ θk.
其中至少有一个不等号严格成立。▶ 记 Rij 表示 Xij 在第 i 区组样本中的秩,定义统计量
L =k∑
j=1
jR.j.
▶ 在 H0 下,L 服从对称中心 C = bk(k + 1)2/4 的对称分布。所以当 k 固定,b→∞ 时,
L− CσL
−→ N(0, 1),
其中 σL = bk2(k + 1)2(k− 1)/144. 当数据有结时,σL = k(k + 1)[bk(k2 − 1)−
∑gl=1(τ
3l − τl)]/144.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
基于秩的检验方法
线性秩检验
符号秩检验
两独立样本数据的位置和尺度参数的检验
多组数据的位置参数的检验
秩相关
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
4.5 秩相关
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
相关系数
▶ 设样本 (x1, y1), ..., (xn, yn) iid ∼ 连续分布 F(x, y), 则 Pearson 相关系数定义为
rxy =
∑i(xi − x)(yi − y)√∑
i(xi − x)2∑
i(yi − y)2.
▶ Spearman 相关系数定义为
rs =
∑i(Ri − R)(Qi − Q)√∑
i(Ri − R)2∑
i(Qi − Q)2,
其中 Ri 表示 xi 在 X 样本中的秩,Qi 表示 yi 在 Y 样本中的秩.▶ 进一步简化,
rs = 1−6
n(n2 − 1)
∑i(Ri − Qi)
2.
▶ 在 H0 下,E(rs) = 0, Var(rs) = 1n−1
,√
n− 1rs → N(0, 1), 当 n→∞.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
Kendall τ 相关系数
▶ 协同 (Concordant): 若 (xj − xi)(yj − yi) > 0, 则称 (xi, yi) 和 (xj, yj) 是协同的。
▶ Kendall τ 相关系数定义为
τ =Nc − Nd
n(n− 1)/2=
2kn(n− 1)
,
其中 Nc 和 Nd 表示数据中的协同和不协同的组数.
▶ 在 H0 下,E(τ) = 0, Var(τ) = 2(2n+5)9n(n−1)
,τ√
Var(τ)→ N(0, 1), 当 n→∞.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
多变量 Kendall τ 相关系数
▶ 设有 m 个变量 X1, ...,Xm, 每个变量有 n 个观测值,第 j 个变量为Xj = (x1j, ..., xnj) j = 1, ...,m. 令 Rij 为 xij 在 x1j, ..., xnj 中的秩,表示如下X1 X2 ... Xm 总和
R11 R12 ... R1m R1.
R21 R22 ... R2m R2.
... ... ... ... ...
Rn1 Rn2 ... Rnm Rn.
▶ 定义
S =n∑
i=1
(Ri. −1
n
n∑i=1
Ri.)2 =
n∑i=1
(Ri. −m(n + 1)
2)2
▶ Kendall τ 系数定义为W =
SSmax
=12S
m2n(n2 − 1),
其中 Smax 表示 S 的最大值.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
...
.
多变量 Kendall τ 相关系数
▶ 在 H0 下,对于固定的 n, 当 m→∞,
m(n− 1)W −→ χ2n−1.