关于总和生育率的统计分析模型

发布时间:2024-08-30

知识丛林

关于总和生育率的统计分析模型

杨新平

(楚雄师范学院,云南楚雄675000)

要:文章根据2007年高教杯大学生数学建模竞赛A题中的人口数据,针对总和生育率分

别建立指数平滑模型和Gaussian模型,并对我国近年来育龄妇女总和生育率进行预测,合理地刻划了我国总和生育率的长期变化趋势。

关键词:总和生育率;长期趋势;指数平滑;生育率。中图分类号:C92

文献标识码:A

文章编号:1002-6487(2009)05-0150-03

1

赞(x)

Bt(x)-B t

1

1问题及背景

总和生育率是衡量育龄妇女(15岁~49岁妇女)生育水

赞(x),Bt(x)-Bt

2

3

赞(x)Bt(x)-Bt

3

2

赞(x)+α(x)E(x)]Σ[B

x=15

49

(2)

平的常用指标之一,它是女性终身生育率的估计,是将某年某地育龄妇女各年龄段生育率相加求和得到的合计值。每年的人口抽样统计数据构成一个单项式分组表,年龄分组组距为1岁,总和生率等于各年龄别生育率之和。这样来计算总和生育率,忽略了城市、城镇及农村在计划生育政策上的差异。针对这一问题,同样作这样的假定:不论城市、城镇、乡村,育龄妇女在一生中,生育概率保持不变。在此基础之上,根据2001-2005年的1%的人口抽样数据(数据来源:2007年高教杯全国大学生数学建模竞赛A题数据包:

赞(x),α(x)和B

k

E(x)分别称为预测向量,参数矩阵和误差

k

赞(x)=B(x),由(1)容易知道:B赞(x)=B(x),其中:向量,令B1211赞(x)为第k类0≤αk(x)≤1,x=15,16,……,49,t=1,2,3,…,Bt

k

kk

居住地x岁妇女t年生育率的估计,t=1时,B1(x)为第k类居住地x岁女性基期的观测值。

定理1

k

k

赞(x)=B(x),且如果令B11

k

k

n≥3,那么:

k

A2007App2),用指数平滑的方法,对数据进行修匀,消除不

规则变动对数据的影响,得到相对更真实的生育率数据,反映数据的真实变动趋势。并建立总和生育率的指数平滑模型及Gaussian模型,使之能较准确反映近年来我国妇女的终生生育水平,实际应用中,在MATLAB下,通过简单计算,就可得到育龄妇女各个年龄别的生育率近似值。

k

赞(x)=αk(x)(1)Bn

t=1

Σ[1-α

n-2

k

(x)]t-1Bn-t(x)+[1-αk(x)]n-2

(3)

B1(x)

(2)α(x)

k

t=1

Σ[1-α(x)]

k

k

n-2

t-1

+[1-αk(x)]n-2=1(4)

赞(x)是它之前所有时间序列的观测值的由定理可知:预测值Bn

2模型建立

设Bt(x)表示k(k=1,2,3分别表示城市、城镇、乡村三

k

加权平均数,对于k类居住地x岁育龄妇女第n年生育率预测值表达式(3)式中,有一个待估的参数αk(x),确定αk(x)之后,就可计算出第n年k类居住地的x岁育龄妇女的生育

赞率,实际应用中没有必要用以前的的所有的观测值来预测Bn

k

个类别)类居住地x岁女性第t年生育率,αk(x)表示第k类居住地x岁妇女的平滑系数,从而第k类居住地x岁妇女t+

(x),只要用第n-1赞(x)就可年的观测值及预测值Bn-1(x)和Bn-1

k

k

1年的生育率可用下面的平滑模型来估计:

赞(x)=αk(x)Bk(x)+[1-αk(x)]B赞(x)=B赞(t)+αk(x)[Bk(x)-B赞(x)]Bt+1ttttt

用矩阵表示为:

1

计算得到第n年的预测值。

k

kkk

3参数估计

实际应用中,平滑系数αk(x)的估计值必须含有前面n-

Bt(x)Bt(x)Bt(x)

32

=

赞(x) B t赞(x)Bt赞(x)Bt

32

1

+diag(α(x)α(x)α(x)

123

赞(x)

Bt(x)-Bt赞(x)Bt(x)-Bt

3

赞(x)Bt(x)-Bt

3

2

2

1

1

(1)

1年的数据信息,按平滑系数αk(x)的合理性确定准则,选择使用使均方误差达到最小的αk(x)。该问题等价于求解下面

最优化问题:

≥≥≥≥≥≥≥≥≥

则有总和生育率的矩阵形式:

TRFTRFTRF

1

TRFt+1=

t+1 2

t+1

3

t+1

x=15

49

赞(x) B t赞(x)Bt赞(x)Bt

32

1

min{Bn(x)-{αk(x)Σ[1-ak(x)]t-1Bn-t(x)+[1-αk(x)]n-2B1(x)}

t=1

k

n-2

kk

軒(x),α軒(x),α軒(x))+Σdiag(α

x=15

49123

0≤αk(x)≤1

≥≥≥≥≥≥≥≥

2

(5)

軒k(x)。通过求解(5)得到最优解α

统计与决策2009年第5期(总第281期)

知识丛林

赞(x)=B赞(x)+α軒(x)[Bk(x)-B赞(x)]由(1)得平滑模型:Bt+1ttt

最后得到总和生育率平滑模型:

Σ

ΣΣΣΣΣΣΣΣΣΣΣΣΣΣ

Σ赞(x)Σ

BΣt

kkkk

表1各年龄别育龄妇女的平滑系数及2006年生育率预测值

平滑系数

用平滑模型(2.6)预测06年生育率

城市

城镇

乡村

(6)

年龄

15

16

49

0.79650.41360.781210.9781110.9318000.51070.61790.54350.47230.702800.528810.40950.1256110.31520.30010.33940.76850.784000.40220.39920.5981000

0.02650.13510.82870.77950.91230.965910.90360.63110.2160.59940.530798980.64390.10550.50620.43810.491510.21820.019310.12730.61230.49910.5810.60450.30290.11550.830800.23920.09360.8250.8125

0.07770.0200002240.0400365310.1600685550.060.2011546770.6935869960.9300254181110.926410.11781110.88120.70720.78170.19630.40910.210310.75151110.281400.70860.88050.4296110.281200.395710.9561

0.946459333.079.76325778129.0148.1764.6534848385.0799.8108.3459545102.887780393.3511534876.8297912757.91365666

47.335.5052657827.0921.2799909717.5000704812.468.986.3599887374.5100203393.3929247092.6999961721.744830889

0.950.570.4252742020.3907726560.621725212

0.360.360.36

2.279987626.2931807522.7989128567.45812758113.45128.9698774138.077718141.1251555132.3616326114.115677881.4985805773.1439135555.7890241946.8797132541.2297714234.55982819

26.9518.3080431615.31014751

12.639.5898510936.1900061314.3959787983.3300517431.4381549630.7843493621.3100253581.123847446

0.650.4600515150.5600813130.847893750.553261719

4.3713.5836.4893.38610815150.84164.5805273167.17157.27136.96119.1069039103.115221390.0907770280.4401134169.1895971565.4651.1498890740.9130.5900204222.6217.0112.197.194020878

5.683.6613685792.5578181881.949323681.351.670.940017914

0.410.570592942

0.840.799999652

軒1(x),α軒2(x),α軒3(x))TRFt+1=ΣB赞(x)+Σdiag(α

tx=15x=15

赞(x)Bt

13

49

2

Σ

ΣΣΣΣΣΣΣΣΣΣ

ΣΣΣΣΣΣΣΣΣΣΣΣΣΣΣ

Σ赞(x)Σ

Bt(x)-BΣt

1

Σ

2

赞(x)Bt(x)-Bt

2

赞(x)Bt(x)-Bt

3

3

Σ

ΣΣΣΣΣΣΣΣΣΣ

(7)

赞(x)作响应变量进行曲线拟合,用年份x作解释变量,Bt+1

为计算上的方便,先对x作数据变换:x'=x-基期年份,在不致混淆情况下,仍用x来记录变换后的对应值,通过曲线拟合分别得到城市、城镇、乡村育龄期妇女的生育率函数,通过生育率函数模型,计算得到任一年龄15≤x≤49的生育率预测值,最后得到总和生育率预测。

k

44.1

实证分析

统计模型

2007年9月23日,国内同时举行了高教杯全国大学生

数学建模竞赛,A题给出的数据(数据来源:2007年高教杯全国大学生数学建模竞赛A题数据包:A2007App2)包含2000-2005年的全国1%的人口抽样数据,最后三个变量依

次是城市、城镇、乡村育龄妇女各年龄别生育率,均用千分数来表示,其中,2003年的妇女生育率用百分数表示。根据这三个变量,用2000-2004年的数据作样本,由(5)计算平滑模型的参数矩阵(详见表1中第二,第三,第四列构成的35x3矩阵α(x)),代入(1)得到平滑模型:

赞(x)+α(x)E(x)]TRFt+1=TRFt+1=Σ[B

23

X=15

ΣΣΣΣΣΣΣΣΣΣΣ

171819202122232425262728293031323334353637383940414243444546474849

表22002~2006年的总和生育率平滑模型预测值,2002~2005年实际总和

生育率对比表

城市实际总和生育率城市总和生育率预测

误差

城镇实际总和生育率城镇总和生育率预测

误差

乡村实际总和生育率乡村总和生育率预测

误差

TRFt+1

1

TRFt+1

ΣΣΣΣΣΣΣΣΣΣΣΣ

49

(8)

2002年0.960531.00208-0.041551.203391.188640.014751.652671.603990.04868

2003年0.95210.99111711-0.03901711.3171.1943520.1226481.67691.631832460.04506754

2004年1.048310.96787880.08043121.347441.2862250.0612151.686981.66530540.0216746

2005年0.926481.002367-0.0758871.277971.314083-0.0361131.653711.6691205-0.01541

用该模型,对2002~2005年的总和生育率进行预测,得到预测值,并和用2002~2005年实际生育率数据计算得到的实际总和生育率进行对比分析。(详见表2)从计算结果知道:实际值与预测值之间最大误差为0.122648,这个误差有点偏大,原因是2003年数据与其它各年份的数据在统计上有差异造成的(详见数据包:A2007App2中的说明),其它误差均不超过0.0804312,误差平方和为0.044373689,均方误差为

参数

参数值

表3

城市

2006年城市、城镇、乡村妇女生育率函数的参数估计值

城镇

参数值

乡村

参数值

1949年至1983年总和生

育率曲线拟合输出结果

95%的置信区间(49.54,139.3)(24.37,25.23)(3.647,4.671)(1.995,50.18)(23.52,36.22)(2.448,9.622)0.9980783.360211.695

95%的置信区间(21.99,79.14)(23.21,33.51)(2.375,9.521)(56.74,192.3)(22.71,23.54)(2.726,4.285)0.98905845.99665.401

95%的置信区间(96.75,168.5)(22.16,22.54)(2.471,3.446)(75.3,101.3)(25.98,29.25)(4.776,3.397)0.99192872.996355.487

0.008874738,这几个统计度量指标都

非常小,充分说明平滑模型能刻划数据的真实性态。由模型的数学特征可知:只要知道当年数据,用该模型可对未来一年各居住地的生育率进行预测,预测结果也达到实用要求。进一步计算出2006年城市、城镇、乡村总和生育率预测值(见表2最后一

a1b1c1a2b2c2R2SSERMSE

94.4424.84.15926.0929.876.03550.5628.365.948124.523.123.506132.622.352.96888.2827.626.087

95%的置信区间值(-1.139,6.26)2.561(-8.979,8.871)-0.054(-3.84,18.44)7.302(5.457,6.928)6.193(9.968,20.19)15.08(13.03,23.11)18.07

参数

0.935524.262990.4129

统计与决策2009年第5期(总第281期)

151

知识丛林

表4

用两种模型预测2006年总和生育率

城市总和生育率

城镇总和生育率

乡村总和生育率

总和生育率

和生育率最低,与现有计划生育政策“一对夫妇最多能生育两胎”完全相符,

2006年平滑模型预测0.97289361.305196471.65522241.311104138年曲线预测2006Gaussian0.97506211.30626681.648881.31007

列),由于原数据中缺失2006年人口数据,所以,无法算出

2006实际总和生育率及误差。

在MATLAB运行环境下,分别用2006年城市、城镇、乡

村妇女各年龄别生育率预测值进行曲线拟合得生育率函数,

(3)对1949~1983年中国人口数据(数据来源:国家统计局《中国统计年鉴》(2002))进行分析发现,1958-1963期间,由于三年自然灾害的影响,总和育率出现大幅波动,由1957年的高峰6.41下降到1961年的3.28,然后在1963年升到补偿性生育的高峰7.5。在随后的20年中总和生育率处于平稳下降,2000年后趋于稳定。用1949~1983年总和生育率数

据建立如下模型:

设x'=1949,1950,1951,……,作数据变换x=x'-1948:,将

(参数估计见表3),同时也得到2006年生育率曲线(图1)。

1949年,1950年,1951年等各个年份转化为用自然数1,2,

……,来表示。

≤≤≤≤≤≤≤≤≤

22

2.561exp(-(x+0.054))+6.193exp(-(x-15.08))x≤35

53..192326.5249

f(x)=

1.2236≤x≤5253≤x≤62

1.29

≤≤≤≤≤≤≤≤

(12)

拟合曲线见图1的第四图,其中:2000年的总和生育率是五普数据,可作为未来几年总和生育率的参照。由

2000~2005年1%人口抽样数据计算的总和生育率及2006年总和生育率预测值与它作比较(见表5),我们发现它们非常接近,都是在均值1.290071539附近变动。如果假定未来10年内我国人口政策保持不变,国民经济持续健康、稳定发

展,不同年份的生育率函数之间的差异也会缩小,我们就可认为我国未来10年内总和生育率会稳定在1.29附近(图

图1

2),并用2006年的生育率函数(9)(10)(11)式来近似代未来妇

女生育率函数。

(4)2000年的总和生育率是五普数据,可作为未来几年总和生育率的参照。由模型计算的总和生育率和1.22非常接近,最大误差为0.122648,均方误差为0.008874738,充分说明计算结果有较高的可信度,但由于用的数据是2001-

各年龄别育龄妇女的平滑系数及2006年生育率预测值:

2006年城市妇女生育率函数:当15≤x≤49时

22

f1(x)=94.44exp(-(x-24.8))+26.09exp(-(x-29.87))(9)

2006年城市妇女生育率函数:当15≤x≤49时

22

f2(x)=50.56exp(-(x-28.36))+124.5exp(-(x-23.12))(10)

2006年城市妇女生育率函数:当15≤x≤49时

22

f3(x)=132.6exp(-(x-22.35))+88.28exp(-(x-27.62))(11)

4.2

模型的分析和解释

2005年的1%人口抽样数据,不同抽样方法得到的数据,作

为样本,对总体参数的进行估计,将带来不同的影响。计算结果和其它学者对总和生育率的研究成果相比较略为偏小,但是由表2、表4计算结果发现2002-2006年乡村总和生率正好在1.62附近,和他们的研究成果是一致的,与国家人口发展战略研报告的基本判断相吻合。另外,用平滑模型和

(1)从表3中计算结果可知:决定系数均大于;均方均小

于6。模型能反映数据的真实情况,图1的第一、第二、第三

图表明曲线对数据点拟合较好,从两个方面说明这三个函数基本上能解释三种居住地育龄妇女生育率的变化。

(2)2006后,随着新农村建设的推广和城市化化进程的加快,农村医疗保障制度和农村最低生活保障制度逐步建立,社会整体文明程度进一步提高,这些因素的共同作用,不同居住地同一年龄的妇女的生育观念趋于相同,从而导致生育率上的差异会缩小。城市总和生育率将稳定在0.971855附近,城镇总和生育率将稳定在1.28645附近,乡村总和生育率将稳定在1.667565附近,农村总和生育率偏高,城市总

表5

Gaussian模型对2006年数总和生育率进行预测,预测结果

非常接近,这两个方面都进一步说明了模型的合理性。

参考文献:

2000~2006年总和生育率表

总和生育率

2000年2001年2002年2003年2004年2005年2006年预测1.22(五普数据)1.226490331.2721966671.31533331.360911.2860533331.311104138

[1]张青.总和生育率的测算及分析[J].中国人口科学,2006,(4).

[2]王广州.年龄别生育率与总和生育率间接估计方法与应用研究[J].中国人口科学,2002,(4).

[3]黄宝凤.中国人口增长:过去的演变和未来的预测[J].北京人口管理干部学院学报,1999,(4).

[4]朱洪文编.应用统计[M].北京,高教出版社.

——使用MATLAB[M].上海:[5]胡良剑,丁晓东,孙晓君编.数学实验—

上海科学技术出版社,2001.

[6]国家统计局:中国统计年鉴[M].北京中国统计出版社.[7]中国人口网,http://www.77cn.com.cn/fzzlbg/bgyw/t20007011172058513.html.

[8]BongaartsJandG.Feeney,OntheQuantumandTempoofFertility,PopulationandDevelopmentReview

[J],(1998),24(2).

(责任编辑/浩天)

统计与决策2009年第5期(总第281期)

    精彩图片

    热门精选

    大家正在看