非参数统计部分课后习题参考答案
发布时间:2024-11-10
发布时间:2024-11-10
非参数统计
课后习题参考答案
第一章p23-25
2、(2)有两组学生,第一组八名学生的成绩分别为x1:100,99,99,100,99,100,99,99;第二组三名学生的成绩分别为x2:75,87,60。我们对这两组数据作同样水平a=0.05的t检验(假设总体均值为u):H0:u=100 H1:u<100。第一组数据的检验结果为:df=7,t值为3.4157,单边p值为0.0056,结论为“拒绝H0:u=100。”(注意:该组均值为99.3750);第二组数据的检验结果为:df=2,t值为3.3290,单边p值为0.0398;结论为“接受H0:u=100。”(注意:该组均值为74.000)。你认为该问题的结论合理吗?说出你的理由,并提出该如何解决这一类问题。 答:这个结论不合理(6分)。因为,第一组数据的结论是由于p-值太小拒绝零假设,这时可能犯第一类错误的概率较小,且我们容易把握;而第二组数据虽不能拒绝零假设,但要做出“在水平a时,接受零假设”的说法时,还必须涉及到犯第二类错误的概率。(4分)然而,在实践中,犯第二类错误的概率多不易得到,这时说接受零假设就容易产生误导。实际上不能拒绝零假设的原因很多,可能是证据不足(样本数据太少),也可能是检验效率低,换一个更有效的检验之后就可以拒绝了,当然也可能是零假设本身就是对的。本题第二组数据明显是由于证据不足,所以解决的方法只有增大样本容量。(4分)
第三章p68-71
3、在某保险种类中,一次关于1998年的索赔数额(单位:元)的随机抽样为(按升幂排列): 4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,67200。已知1997年的索赔数额的中位数为5064元。
(1)是否1998年索赔的中位数比前一年有所变化?能否用单边检验来回答这个问题?(4分) (2)利用符号检验来回答(1)的问题(利用精确的和正态近似两种方法)。(10分) (3)找出基于符号检验的95%的中位数的置信区间。(8分)
解:(1)1998年的索赔数额的中位数为9480元比1997年索赔数额的中位数5064元是有变化,但这只是从中位数的点估计值看。如果要从普遍意义上比较1998年与1997年的索赔数额是否有显著变化,还得进行假设检验,而且这个问题不能用单边检验来回答。(4分)
(2)符号检验(5分)
设假设组:H0:M=M0=5064
H1:M≠M0=5064
符号检验:因为n+=11,n-=3,所以k=min(n+,n-)=3
精确检验:二项分布b(14,0.5),
n 0
b(14,1/2) 0.0287
3
,双边p-值为0.0576,大于a=0.05,
所以在a水平下,样本数据还不足以拒绝零假设;但假若a=0.1,则样本数据可拒绝零假设。查二项分布表得a=0.05的临界值为(3,11),同样不足以拒绝零假设。
正态近似:(5分)
np=14/2=7,npq=14/4=3.5
z=(3+0.5-7)/.5≈-1.87>Za/2=-1.96
仍是在a=0.05的水平上无法拒绝零假设。说明两年的中位数变化不大。 (3)中位数95%的置信区间:(5064,21240)(8分)
7、一个监听装置收到如下的信号:0,1,0,1,1,1,0,0,1,1,0,0,0,0,1,1,1,1,1,1,1,1,1,0,1,0,0,1,1,1,0,1,0,1,0,1,0,0,0,0,0,0,0,0,1,0,1,1,0,0,1,1,1,0,1,0,1,0,0,0,1,0,0,1,0,1,0,1,0,0,0,0,0,0,0,0。能否说该信号是纯粹随机干扰?(10分)
非参数统计
解:建立假设组: H0:信号是纯粹的随机干扰
H1:信号不是纯粹的随机干扰(2分)
游程检验:因为n1=42,n2=34,r=37。(2分)根据正态近似公式得:
2 42 342 42 34(2 42 34 42 34)
1 38.58 18.33(2分)U=42 342
(42 34)(42 34 1)
Z
37 38.58
0.08(62分)
18.33
取显著性水平a=0.05,则Za/2=-1.96,故接受零假设,可以认为信号是纯粹的随机干扰的。(2分)
第四章p91-94
1、在研究计算器是否影响学生手算能力的实验中,13个没有计算器的学生(A组)和10个拥有计算器的学生(B组)对一些计算题进行了手算测试.这两组学生得到正确答案的时间(分钟)分别如下:
A组:28, 20,20,27,3,29,25,19,16,24,29,16,29 B组:40,31, 25,29,30,25,16,30,39,25
能否说A组学生比B组学生算得更快?利用所学的检验来得出你的结论.(12分)
解、利用Wilcoxon两个独立样本的秩和检验或Mann-Whitney U检验法进行检验。建立假设组:H0:两组学生的快慢一致;
H1:A组学生比B组学生算得快。(2分) 两组数据混合排序(在B组数据下划线):
3,16,16,16,19,20,20,24,25,25,25,25,27,28,29, 29, 29, 29,30, 30,31,39,40(2分)
A组秩和RA=1+3*2+5+6.5*2+8+10.5+13+14+16.5*3=120; B组秩和RB=3+10.5*3+16.5+19.5*2+21+22+23=156(2分) A组逆转数和UA=120-(13*14)/2=29
B组逆转数和UB=156-(10*11)/2=101(2分)
当nA=13,nB=10时,样本量较大,超出了附表的范围,不能查表得Mann-Whitney秩和检验的临界值,所以用正态近似。计算
Z
UA nAnB/2nAnB(nA nB 1)/12260
29 13*10/2*10*(13 10 1)/12
(2分)
36
36
2.2326
16.1245
当显著性水平a取0.05时,正态分布的临界值Za/2=-1.96(1分) 由于Z<Za/2,所以拒绝H0,说明A组学生比B组学生算得快。(1分)
4、在比较两种工艺(A和B)所生产的产品性能时,利用超负荷破坏性实验。记下损坏前延迟的时间名次(数目越大越耐久)如下:
方法:A B B A B A B A A B A A A B A B A A A A 序: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
用Mann-Whitney秩和检验判断A工艺是否比B工艺在提高耐用性方面更优良?(10分)
解、设假设组:H0:两种工艺在提高耐用性方面的优良性一致;
H1:A工艺比B工艺更优良(1分,假设也可用符号表达式)
非参数统计
根据样本数据知nA=13;nB=7(1分),计算
A工艺的秩和RA=1+4+6+8+9+11+12+13+15+17+18+19+20=153;(1分) B工艺的秩和RB=2+3+5+7+10+14+16=57(1分)
A工艺的Mann-Whitney秩和UA=RA-nA(nA+1)/2=153-(13*14)/2=62(1分) B工艺的Mann-Whitney秩和UB=RB-nB(nB+1)/2=57-(7*8)/2=29(1分)
当nA=13,nB=7时,样本量较大,超出了附表的范围,不能查表得Mann-Whitney秩和检验的临界值,所以用正态近似。计算
Z
UA nAnB/2nAnB(nA nB 1)/1216.5.25
62 13*7/2*7*(13 7 1)/12
(2分)
16.5
1.3075
12.6194
当显著性水平a取0.05时,正态分布的临界值Za/2=1.96(1分)
由于Z<Za/2,所以样本数据提供的信息不足以拒绝H0,可以说A、B两种工艺在提高耐用性方面的优良性一致,A工艺并不比B工艺更优良。(1分)
第五章p118-121
2
1、对5种含有不同百分比棉花的纤维分别做8次抗拉强度试验,试验结果如表4所示(单位:g/cm):
表4
检验法。(14分) 解:建立假设组:
H0:不同百分比纤维的棉花其平均抗拉强度一样; H1:不同百分比纤维的棉花其平均抗拉强度不一样。(2分) 已知,k=5,n1= n2= n3= n4= n5=8(2分)。混合排序后各观察值的秩如表4所示:
表4
非参数统计
根据表4计算得:(6分)
kR2
12j
H 3(N 1) N(N 1)j 1nj
1278.52 1662 250.52 253.52 71.52 3 4140 418 28.6857
由于自由度k-1=5-1=4,nj=8>5,是大样本,所以根据水平a=0.05,查X分布表得临界值C=9.488,(2分)
因为Q>C,故以5%的显著水平拒绝H0假设,不同百分比纤维的棉花其平均抗拉强度不一样。(2分)
7、按照一项调查,15名顾客对三种电讯服务的态度(“满意”或“不满意”)为(15分)
2
解:建立假设组:H0:顾客对3种服务的态度无显著性差异;
H1:顾客对3种服务的态度有显著性差异。(2分)
本例中,k=3,n=15。(2分)又因
xi yj 23
2222X 13 8 2 169 64 4 257 i2y j 4 1 4 1 43
232 3(3 1) 257
3 18.6154
3 23 43
(5分)自由度k-1=3-1=2,(2分)取显著性水平a=0.05,查X分布表得临界值c=5.992,(2分)因为Q>C,故以5%的显著水平拒绝H0假设,即顾客对3种服务的态度有显著性差异。(
2分)
8、调查20个村民对3个候选人的评价,答案只有“同意”或“不同意”两种,结果见表1:
表1
2
试检验村民对这三个候选人的评价有没有区别?
解:建立假设组: H0:三个候选人在村民眼中没有区别
H1:三个候选人在村民眼中有差别(2分)
数据适合用Cochran Q检验(2分)。 而且已知n=20,k=3,∑xi=∑yj =28。(2分)
非参数统计
计算结果见表3:
表3
根据表2计算得:
xi2 92 82 112 266
y2j 12 22 22 48(2分)
Q
k(k 1)[ x
2i
( xi)2
kyj y2j
2
28则3(3 1)(
266 (2分) )
0.7778
3 28 48
取显著性水平a=0.05,查卡方分布表得卡方临界值C=5.9915,由于Q<C,故无法拒绝零假设,可以认为三个候选人在村民眼中没有区别。(2分)
第八章P170-171
2.下面是某车间生产的一批轴的实际直径(单位:mm):
9.967 10.001 9.994 10.023 9.969 10.013 9.992 9.954 9.934 9.965
能否表明该尺寸服从均值为10,标准差为0.022的正态分布?(分别用K-S拟合检验和卡方拟合检验)。当n=10,a=0.05时查表得K-S拟合检验的临界值为0.40925。(24分)
解:建立假设组:H0:该车间生产的轴直径服从均值为10,标准差为0.022的正态分布; H1:该车间生产的轴直径服从均值为10,标准差为0.022的正态分布(2分)
首先将样本数据按升序排列,并对数据进行标准化处理,即Zi=(xi-10)/0.022(1分),并列在计算表中。
(1)K-S正态拟合检验见表1:
非参数统计
n以无法拒绝零假设,即可以说该车间生产的轴直径服从均值为10,标准差为0.022的正态分布(2分)。
(2)卡方正态拟合检验见表2:
表2 卡方拟合检验计算表
频数(该步正确2分)。
从表2得卡方检验统计量Q=1.419(6分),自由度df=k-1=5-1=4(2分),查卡方分布表得a=0.05的临界值C=1.064(左尾),右尾临界值9.488(2分),说明检验统计量Q落在肯定域,不能拒绝零假设,即可以说该车间生产的轴直径服从均值为10,标准差为0.022的正态分布(2分)。
第九章p184-186
1、美国在1995年因几种违法而被捕的人数按照性别为:
表1
从这些罪行的组合看来,是否与性别无关?如果只考虑谋杀与抢劫罪,结论是否一样?(20分) 解:本题适合用独立性卡方检验。 建立假设组H0:犯罪类型与性别无关
H1:犯罪类型与性别有关
r=7,c=2.自由度df=(7-1)(2-1)=6
2
a=0.05,查表得X(0.95,6)=12.592
非参数统计
Eij=ni.。n.j/n
计算结果见下表:
108268.6
由于=108268.6>X(0.95,6)=12.592,所以拒绝零假设,说明罪行与性别有关。
如果只考虑谋杀与抢劫,则 0.168106
由于X=0.1681<X(0.95,1)=3.841,所以假设零假设,说明罪行与性别无关。(20分)
上一篇:人教版八年级上册语文古诗