应用数理统计
国家财政收入的回归分析
院(系)名称
专 业 名 称 学 生 姓 名 任 课 教 师
2013年12月
目 录
摘 要.............................................................................. 错误!未定义书签。 符号说明........................................................................ 错误!未定义书签。 1引言............................................................................. 错误!未定义书签。 2解决问题的方法和计算结果..................................................................... 3 2.1 样本数据的选取与整理..................................................................... 3 2.2 模型的建立与分析............................................................................. 4 2.3 分析结果............................................................................................. 9 3 结论.......................................................................................................... 10 参考文献...................................................................................................... 11
国家财政收入的多元线性回归模型
摘要:本文以多元线性回归为出发点,选取了我国自1990至2011年间的财政收入为因变量,并初步选取了6个影响因素,进一步利用统计软件SPSS对以上数据进行了筛选,采用多元逐步线性回归的方法,从而找到了能反映财政收入与各因素之间关系的“最优”回归方程:
Y27809.8900.348X40.068X10.242X5
进而得出结论,国家财政收入与建筑业、工业总产值和人口数具有显著地线性关系。
关键词:多元逐步线性回归;财政收入;SPSS
0符号说明
变 量
财政收入(亿元)
工业总产值(亿元)
农业总产值(亿元)
受灾面积(万公顷) 建筑业总产值(亿元) 人口总数(万人) 社会商品销售总额(亿元)
符号 Y X1 X2 X3 X4 X5 X6
1 引言
改革开放以来,我国的国民经济取得了快速发展,经济上的飞速发展并带动了国家财政收入的飞速增加,国家财政的状况对整个社会的发展影响巨大。政府根据国家的财政收入,通过预算安排,用于环境保护、社会保障以及政府行政管理等,从而不断提高人民的生活水平,早日实现中华民族的伟大复兴。因此,为了更好地制订下一年的财政税收政策,研究影响国家财政收入的主要因素是十分必要的。为了研究影响国家财政收入的因素,我们就很有必要对其财政收入和影响财政收入的因素作必要的认识,进而对他们之间的关系作一下回归,从而通过已
1
有的数据建立最优的线性回归模型。
建立最优的线性回归模型,一方面要求该模型包含所有对因变量财政收入有显著影响的自变量,另一方面要求该模型中所包含的自变量个数尽可能的少,不含无意义的变量。选择最优模型的方法很多,但各有利弊。全部比较法是把所有可能的自变量的各种组合方式回归方程都求出来,然后比较,选出最优的。对于变量数较少时,该方法比较有优势,但当随着变量数的增加,该方法的计算量也变得越来越大,使得该方法不太实用。向后法,也称为只出不进法,在不显著的变量比较少时常常采用该方法,但在开始建立方程可能自变量过多,计算繁琐,现在也不太常用。向前法,也称只进不出法,由于其本身的特点,使得变量一旦引入方程,就不会剔除。这样得到的模型,由于变量间可能存在相关关系,故不能保证所有的变量都是显著。本文采用的是逐步回归法,也成为有进有出法,它是向前法和向后法的一种结合,克服了前两种方法的缺点,将变量一一引入,每引入一个变量后都要对老变量进行逐个检验,将变得不显著的变量从回归模型中剔除,保证了模型含有的都是有显著影响的自变量。
本文首先分析了可能影响财政收入的因素,找到最有可能的因素,包括工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数,受灾面积等。然后从国家统计数据网上查取了1990-2011年这22年间的年度财政收入及主要影响因素的数据,利用逐步回归的统计方法,对数据进行分析处理,最终得出能够反映各个因素对财政收入影响的最“优”模型。在寻找最优回归方程过程中,首先以国家财政收入为因变量,以工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数,受灾面积分别为自变量,绘制散点图,初步判断财政收入与各因素之间是否具有线性关系。为了更加直观的分析财政收入与各因素的关系,利用SPSS软件计算了各个变量之间的相关系数,定量的分析了财政收入与各因素之间的相关性大小。最后,为了得到最佳回归模型以及最优回归方程,利用SPSS软件对该数据进行深层次的分析,利用逐步回归分析原理,求得了最优回归方程,并对其残差进行分析,来进一步检验回归模型的拟合性。
2
2解决问题的方法和计算结果
2.1 样本数据的选取与整理
本文在进行统计时,查阅国家统计数据网—中国统计年鉴2012中收录的1990年至2011年连续22年的全国财政收入为因变量,考虑一些与能源消耗关系密切并且直观上有线性关系的因素,初步选取这20年的工业总产值,农业总产值,建筑业总产值,社会商品销售总额,人口数和受灾面积等因素为自变量,分析它们之间的联系。根据选择的指标,从国家统计数据网查选数据,整理如表2-1所示。
表2-1 1990-2011年财政收入及其影响因素统计表
受灾面
工业 农业
积(千
(亿元) (亿元)
公顷) 18689.22 22088.68 27724.21 39693 51353.03 54946.86 62740.16 68352.68 67737.14 72707.04 85673.66 95449.0 110776.5 142271.2 187220.7 251619.5 316588.9 405177.1 507448 548311 698591 844269
7662.1 8157 9084.7 10995.5 15750.5 20340.9 22353.7 23788.4 24541.9 24519.1 24915.8 26179.6 27390.8 29691.8 36239 39450.9 40810.8 48892.9 58002.1 60361.0 69319.8 81303.9
38474 55472 51332 48827 55046 45824 46991 53427 50145 49980 54688 52215 46946 54506 37106 38818 41091 48992 39990 47214 37426 32471
建筑业 (亿元) 1345 1564.3 2174.4 3253.5 4653.3 5793.8 8282.2 9126.5 10062 11152.9 12497.6 15361.5 18527.1 23083.8 29021.45 34552.0 41557.1 51043.7 62036.81 76807.74 96031.13 116463.32
人口 (万人)
社会商品
财政收入
零售总额
(亿元)
(亿元)
2937.1 3149.48 3483.37 4348.95 5218.1 6242.2 7407.99 8651.14 9875.95 11444.08 13395.23 16386.04 18903.64 21715.25 26396.47 31649.29 38760.2 51321.78 61330.35 68518.30 83101.51
1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
114333 8300.1 115823 9415.6 117171 10993.7 118517 14270.4 119850 18622.9 121121 23613.8 122389 28360.2 123626 31252.9 124761 33378.1 125786 35647.9 126743 39105.7 127627 43055.4 128453 48135.9 129227 52516.3 129988 59501 130756 68352.6 131448 79145.2 132129 93571.6 132802 114830.1 133450 132678.4 134091 156998.4
134735 183918.6 103874.43
3
2.2 模型的建立与分析 2.2.1 散点图
为了直观地观察各因素与财政收入之间是否具有线性关系。根据表2-1的数据画出各个因素与国家财政收入的散点图如图2-1所示。
(a) (b)
(c) (d)
(e) (f)
图2-1 各因素与国家财政收入的散点图
4
由图2-1各因素与国家财政收入的散点图可以得到,工业总产值、农业总产值、建筑业以及社会商品零售总额与国家财政收入基本上具有良好的线性关系,国家财政收入与人口总数具有正比关系,由于人口总数成指数增长模型,初步认为人口总数与国家财政收入不具有明确的线性关系。另外,由图c,国家财政收入与受灾面积也不具有明确线性关系。 2.2.2 相关性研究
为了进一步的确定国家财政收入与工业总产值、农业总产值、受灾面积、建筑业、人口总数及社会商品零售总额之间是否具有显著的相关性,下面通过SPSS软件来计算各因素间的相关系数大小,定量的研究各因素与财政收入的相关性。 表2-2 各因素与国家财政收入的相关性检验
Pearson 相关性 财政收入 显著性(双侧) N Pearson 相关性 工业总产值 显著性(双侧) N Pearson 相关性 农业总产值 显著性(双侧) N Pearson 相关性 受灾面积 显著性(双侧) N Pearson 相关性 建筑业 显著性(双侧) N Pearson 相关性 人口总数 显著性(双侧) N Pearson 相关性 社会零售商品总额 显著性(双侧) N 财政收入 1 工业总产值 .998 .000 22 1 **农业总产值 .981 .000 22 .974 .000 22 1 ****受灾面积 -.636 .001 22 -.644 .001 22 -.622 .002 22 ******建筑业 .998 .000 22 .997 .000 22 .979 .000 22 -.643 .001 22 ******** 22 .998 .000 22 .981 .000 22 -.636 .001 22 .998 .000 22 .820 .000 22 .996 .000 22 ************ 22 .974 .000 22 -.644 .001 22 .997 .000 22 .794 .000 22 .991 .000 22 相关性 ********** 22 -.622 .002 22 .979 .000 22 .898 .000 22 .992 .000 22 ********1 22 -.643 .001 22 -.456 .033 22 -.623 .002 22 *****1 22 .812 .000 22 .996 .000 22 **** Pearson 相关性 财政收入 显著性(双侧) N
5
人口总数 .820 .000 22 社会零售商品总额 .996 .000 22 **Pearson 相关性 工业总产值 显著性(双侧) N Pearson 相关性 农业总产值 显著性(双侧) N Pearson 相关性 受灾面积 显著性(双侧) N Pearson 相关性 建筑业 显著性(双侧) N Pearson 相关性 人口总数 显著性(双侧) N Pearson 相关性 社会零售商品总额 显著性(双侧) N .794 .000 22 .898 .000 22 -.456 .033 22 .812 .000 22 1 **********.991 .000 22 .992 .000 22 -.623 .002 22 .996 .000 22 .858 .000 22 1 ********** 22 .858 .000 22 ** 22 **. 在 .01 水平(双侧)上显著相关。 *. 在 0.05 水平(双侧)上显著相关。 从上表数据可知,国家财政收入与工业总产值的相关系数为0.998,与农业总产值的相关系数为0.981,与建筑业的相关系数为0.998,与人口总数相关系数为0.820,与社会零售商品总额的相关系数为0.996,它们的概率P值都小于显著性水平α,应拒绝零假设,认为两总体之间存在线性相关关系。而财政收入与受灾面积的相关系数为0.636,相关性较小。
2.2.3逐步线性回归分析
为了得到最优回归方程,因此,选取国家财政收入作为因变量,工业总产值、农业总产值、人口数、受灾面积、建筑业及社会零售商品总额作为自变量,利用逐步回归的方法,采用SPSS软件对上述变量进行回归分析,所得结果如下所示。
表2-3输入/移去的变量
模型 输入的变量 移去的变量 方法 步进(准则: F-to-enter 的概1 建筑业X4 . 率 <= .050,F-to-remove 的概率 >= .100)。 步进(准则: F-to-enter 的概2 工业总产值X1 . 率 <= .050,F-to-remove 的概率 >= .100)。 6
步进(准则: F-to-enter 的概
3
人口总数X5
.
率 <= .050,F-to-remove 的
概率 >= .100)。
a. 因变量: 财政收入Y 通过逐步回归产生的三种模型1、2、3,模型1的自变量只有X4,模型2的自变量有X4和X1,模型3的自变量有X5、X4和X1。表2-3显示变量的引入和剔除,以及引入或剔除的标准。选择的判据是变量进入回归方程的F的概率不大于0.05,剔除的判据是变量进入回归方程的F的概率不小于0.10。
表2-4 模型汇总
模型 1 2 3 R .998 .999 .999 cbaR 方 .996 .997 .998 调整 R 方 .996 .997 .998 标准 估计的误差 1818.22527 1527.18680 1280.91570 a. 预测变量: (常量), 建筑业X4。 b. 预测变量: (常量), 建筑业X4, 工业总产值X1。 c. 预测变量: (常量), 建筑业X4, 工业总产值X1, 人口总数X5。 d. 因变量: 财政收入Y 表2-4显示了各模型的拟合情况。模型3的自相关系数(R)为0.999,判断系数为0.998。从统计变量的改变看,模型1的改变值绝对大于其他两个模型,这说明与该模型相关的自变量X4是因变量很好的预测。
表2-5 方差分析表Anova
模型 回归 1 残差 总计 回归 2 残差 总计 回归 3 残差 总计 平方和 17410626645.424 66118862.541 17476745507.965 17432431816.828 44313691.136 17476745507.965 17447212097.547 29533410.418 17476745507.965 df 1 20 21 2 19 21 3 18 21 均方 17410626645.424 3305943.127 F 5266.463 Sig. .000 b 8716215908.414 2332299.533 3737.177 .000 c 5815737365.849 1640745.023 3544.571 .000 d a. 因变量: 财政收入Y b. 预测变量: (常量), 建筑业X4。 c. 预测变量: (常量), 建筑业X4, 工业总产值X1。 d. 预测变量: (常量), 建筑业X4, 工业总产值X1, 人口总数X5。 7
由表2-5可知,模型3的P值为0.00<0.05,拒绝原假设,认为因变量与其他三变量X4、X1和X5之间有线性关系。
表2-6 回归系数
模型 (常量) 建筑业X4 (常量) 2 建筑业X4 工业总产值X1 (常量) 3 建筑业X4 工业总产值X1 人口总数X5 a. 因变量: 财政收入Y 非标准化系数 B 1724.308 .883 1631.011 .493 .053 -27809.890 .348 .068 .242 标准 误差 522.855 .012 440.222 .128 .017 9816.072 .118 .015 .081 标准系数 试用版 t 3.298 72.570 3.705 3.850 3.058 -2.833 2.950 4.410 3.001 Sig. .004 .000 .002 .001 .006 .011 .009 .000 .008 1 .998 .557 .442 .393 .564 .053 由表2-6可知,各模型的偏回归系数、标准化的偏回归系数及其对应的检验值;还显示了模型中的各变量与因变量的零阶相关、偏相关和部分相关;还有多重共线性统计量。根据模型3可以建立多元线性回归方程为:
Y27809.8900.348X40.068X10.242X5表2-7 各个模型置信度上限
模型 (常量) 建筑业X4 (常量) 2 建筑业X4 工业总产值X1 (常量) 3 建筑业X4 工业总产值X1 人口总数X5 a. 因变量: 财政收入Y 表2-8 已排除的变量
模型 Beta In t Sig. 偏相关 共线性统计量 B 的 95.0% 置信区间 上限 2814.965 .908 2552.406 .761 .090 -7187.087 .595 .100 .411
1 8
容差 工业总产值X1 农业总产值X2 1 社会零售商品总额X6 人口总数X5 受灾面积X3 农业总产值X2 2 社会零售商品总额X6 人口总数X5 受灾面积X3 农业总产值X2 3 社会零售商品总额X6 受灾面积X3 a. 因变量: 财政收入Y b. 模型中的预测变量: (常量), 建筑业X4。 c. 模型中的预测变量: (常量), 建筑业X4, 工业总产值X1。 d. 模型中的预测变量: (常量), 建筑业X4, 工业总产值X1, 人口总数X5。 .442 .092 .218 .028 .009 .103 .294 .053 .012 -.116 .047 .007 dddccccbbbbb3.058 1.403 1.543 1.202 .501 1.962 2.731 3.001 .769 -1.118 .178 .510 .006 .177 .139 .244 .622 .065 .014 .008 .452 .279 .861 .617 .574 .306 .334 .266 .114 .420 .541 .578 .178 -.262 .043 .123 .006 .042 .009 .341 .587 .042 .009 .307 .585 .009 .001 .574 表2-7显示各模型变量的有关统计量,对模型3来说,它的偏回归系数的P值都大于0.05,接受原假设,不能把这些变量加入方程中,故而排除该变量。
表2-8 残差统计量
预测值 残差 标准 预测值 标准 残差 极小值 1579.2633 -2424.53491 -.888 -1.893 极大值 102694.8906 1869.26514 2.620 1.459 均值 27186.8568 .00000 .000 .000 标准 偏差 28823.94185 1185.89750 1.000 .926 N 22 22 22 22 a. 因变量: 财政收入Y 表2-8是残差统计结果。主要显示预测值、标准化预测值、残差和标准化残差等统计量的最大值、最小值、均值和标准差。可见标准化残差的最大绝对值为1.459。 2.3 分析结果
首先,通过散点图和各因素间的相关系数的计算,初步可以确定财政收入Y与工业总产值X1、建筑业X4、人口总数X5具有显著的线性关系。然后,采用逐步回归的方法,财政收入Y对各个自变量X进行逐步回归,得到线性回归方程。为了进一步检验该回归方程,下面对其残差进行分析,结果如下图所示。
9
图2-2 标准残差的直方图
由图2-2可知,在标准化残差的直方图中,正态曲线被加在直方图上,判断标准化残差是否呈正态分布。从图可以看见,它服从近似正态分布,残差不具有自相关性,这个模型是比较理想的模型。
图2-3 标准残差和预测值的散点图
由图2-3残差和预测值的散点图可知,随着标准化预值的变化,残差在0线(正态分布)周围随机分布,基本满足线性回归的基本条件。且标准化残差的绝对值均小于3,因此,该残差的随机性良好,残差序列具有等方差和独立性。
10
3 结论
通过以上分析可以发现,财政收入(Y)与建筑业(X4)、工业总产值(X1)和人口数(X5)相关性显著。借助SPSS软件对上述数据进行分析,采用逐步回归分析方法,最终得到财政收入与其具有显著性关系的自变量的关系为:
Y27809.8900.348X40.068X10.242X5,该回归方程通过对其残差进行检
验,结果反映该回归方程拟合效果较好。
另外,最优回归方程的建立也说明了我国的财政收入中很大一部分来自建筑业、工业总产值及人口数。这也为国家的预算提供了依据,从一个侧面反映出当今中国的产业格局。当然,由于调研时间有限,上述回归模型存在一些不足,还需要不断查阅资料加以改进。但在一定程度上体现了与选取的自变量之间的线性关系,并能对因变量做出近似的预测。综合来看,数据模型基本达到了预期的目的。
11
参考文献
[1] 孙海燕,周梦,李卫国,冯伟. 应用数理统计[M]. 北京:北京航空航天大学数
学系, 1999.
[2] 薛薇.SPSS统计分析方法及应用[M].电子工业出版社. 2004. [3] 国家统计数据网.中国统计年鉴2012
12
因篇幅问题不能全部显示,请点此查看更多更全内容