全国信息化水平聚类分析研究(一)
详细内容
【摘要】本文认真参考了信息化水平指标,总结出信息化水平指标评价体系,同时采用因子分析法对全国各省份的信息化水平进行排序,并在此基础上进行聚类分析,最后按不同类型对各省份进行简单分析,进一步提出让信息化水平提高的对策。
【关键词】信息化 指标体系 因子分析 聚类分析
一、引言
随着信息技术的持续创新,发达国家向信息社会转移的趋势越来越明显,步伐越来越快。加快发展本国以及城市的信息化水平是个必然的趋势。推进信息化是转变经济增长方式的根木途径,有利于促进人与自然的协调发展;有利于促进城乡经济社会统筹、协调发展;有利于提高社会管理水平,增强公共服务能力,保持杜会安定有序;有利于发展壮大先进文化,为和谐社会营造良好的文化氛围。在推进信息化的同时,为了更好地把握我国信息化普及与应用的状况和程度,评价与监测我国信息化的成果、发展水平与存在的问题。为国家信息化发展规划提供必要的数据支也必然需要进行信息化水平测试,这就会引发一系列的问题,从而引进因子分析和聚类分析来使此过程变的简单或者说更为有序化。
二、变量指标的选取
国家统计局在其《中国信息能力报告》中,设计了一套评价我国信息化水平的指标:指标体系共分4级,有25个指标:①信息技术和信息设备应用能力:a.每千人拥有PC数;b.每千人拥有传真机数;c.每百人拥有电话数;d.每千人拥有电视机数;e.每千人拥有收音机数;f.每万人接入因特网用户;g.每百万人互联网上网主机数;h.每平方公里光缆长度;i.每百家企事业单位上网数;j.基础信息产业产值占GDP比重。②信息资源及开发利用能力:a.每户打国际电话时间;b.每百人期刊发行量;c.每日发布信息量;d.网络用户平均上网时间;e.每万人Web站点数。③人口素质:a.每万人平均科学家和工程师数;b.第三产业从业人数占就业总人口比重;c.大学入学率;d.每十万人在校学生数;e.计算机专家和工程师数。④国家对信息产业发展的支撑:a.信息产业产值占GDP比重;b.研究开发(R&G)支出占GDP比重;c.每主线电信投资;d.人均GNP;e.教育投入。
鉴于遵循数据的客观性和代表性,以及易得性,本文采取以下指标:每千人工业增加值 x1;每千人电信业务量x2;每千人移动通信交换机容量x3; 移动电话普及率x4;电话普及率x5;广播综合人口覆盖率x6; 电视综合人口覆盖率x7; 有线电视普及率x8;每十户宽带上网用占有户数x9; R&D经费支出占GDP比重x10;每十人从事科技活动人员总数占有的人数x11;每十人在校大学生人数占有的人数x12;每千人专利授权数占有数x13。其中缺省值用平均值代替或者临近年数内值代替。由于篇幅有限,指标数据省略。
三、因子分析
因子分析法是能够实现数据简化目的的有效方法之一。其基本思想是根据相关性大小把变量分组,使得同组内的变量之间相关性较高,使不同组的变量相关性较低,每组变量代表一个基本结构,这个基本结构称为公共因子。运用因子分析法,借助EXCEL多元统分析,对已得的指标数据进行分析处理,在处理过程中选取方差贡献比率为0.80。
按照方差贡献比率大于80%,应提取前四个因子,它们所解释的方差占总方差的84.58%,这四个因子就可以解释原始数据的大部分信息了。
分析结果中可以得到每个城市的四个因子得分情况F1,F2,F3和F4。最后,对28个城市的信息化水平进行综合评价并排序。以旋转后四个因子的方差贡献率为权数计算综合得分,计算公式为:F=0.5923F1+0.09957F2+0.0804F3+0.0736F4,最终可以得到所有城市的综合得分排名。
由于变量指标取值的同向性,得分越高代表信息化水平越高。排名依次为:北京,天津、广东、浙江、江苏、湖南、福建等等。
四、聚类分析
聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法,在统计分析的应用领域已经得到了极为广泛的应用。其思路为:首先每个数据对象自成一类,并且计算各个类之间的“距离”或者相似性。然后每次将最相似的两类合并,合并后重新计算新类与其他各个类之间的距离或相似度。这一“凝聚”的过程一直继续直到所有对象都归为一类为止。 利用各城市的因子得分,还可对28个城市进行分类,得分值相近的城市被认为具有较相似的属性。