表3 因子负载与公因子方差 f2 0.9562 0.2012 0.9548 0.8735 0.2896 0.8469 0.1744 0.8972 0.8354 0.5675 0.8975 5 0.8562 0.3315 0.8430 (3)因子的贡献 每个公因子对数据的解释能力,可以用该因子所解释的总方差来衡量,通常 称为该因子的贡献(( ontributions),记为vpo它等于和该因子有关的因子负载 的平方和,即 所有公因子的总贡献为: 实际中更常用相对指标,即每个因子所解释的方差占所有变量总方差的比 例。相对指标衡量了公因子的相对重要性。设k表示观测变量数,V2/k表示了 第p个因子所解释的方差的比例,V作k表示所有公因子累积解释的方差比例, 它可以用来作为因子分析结束的判断指标。 在上例中,V1k=0.55,vV2/k=0.32,V/k=0.87 表明第一个因子解释了所有变量总方差的55%,第二个因子解释了上述总 方差的32%,两个因子一共解释了总方差的87%。 3.因子分析的步骤 因子分析通常包括以下四个主要步骤: (1)首先,计算所有变量的相关矩阵。相关矩阵是因子分析直接要用的数 据,根据计算出的相关矩阵还应该进一步判断应用因子分析方法是否合适,这 点我们下面再讨论 (2)第二步是提取因子。在这一步要确定因子的个数和求因子解的方法。 (3)第三步是进行因子旋转。这一步的目的是通过坐标变换使因子解的实际 意义更容易解释
(4)第四步是计算因子值。因子值是各个因子在每个案例上的得分值,有了 因子值可以在其他的分析中使用这些因子 因子分析的目的是简化数据或者找出基本的数据结构,因此使用因子分析的 前提条件是观测变量之间应该有较强的相关关系。如果变量之间的相关程度很小 的话,他们不可能共享公因子。所以,计算出相关矩阵后,在进行下面的步骤之 前应该对相关矩阵进行检验,如果相关矩阵中的大部分相关系数都小于0.3,则 不适合做因子分析。SPSS软件提供了三个统计量帮助判断观测数据是否适合做 因子分析。 (1)反映象相关矩阵(Anti- image correlation matrix)。其元素等于负的偏相 关系数。偏相关是控制其他变量不变,一个自变量对因变量的独特解释作用。如 果数据中确实存在公因子,变量之间的偏相关系数应该很小,因为它与其他变量 重叠的解释影响被扣除掉了。所以如果反映象相关矩阵中很多元素的值比较大的 话,应该考虑该观测数据可能不适合做因子分析。 (2)巴特利特球体检验( Bartlett test of sphericity)。该统计量从检验整个相 关矩阵出发,其零假设为相关矩阵是单位阵,如果不能拒绝该假设的话,应该重 新考虑因子分析的使用。 (3)KMO( Kaiser-Meyer-Olkin Measure of Sampling Adequacy)测度。该测度 从比较观测变量之间的简单相关系数和偏相关系数的相对大小出发,其值的变化 范围从0到1。当所有变量之间的偏相关系数的平方和,远远小于简单相关系数 的平方和时,KMO值接近1,KMO值较小时,表明观测变量不适合做因子分 析。通常按以下标准解释该指标值的大小:0.9以上,非常好;0.8以上,好 0.7,一般:0.6,差:0.5,很差:0.5以下,不能接受① 例1·生育率的影响因素分析。生育率受社会、经济、文化、计划生育政策 等很多因素影响,但是这些因素对生育率的影响并不是完全独立的,而是交织在 起的,如果直接用选定的变量对生育率进行多元回归分析,最终结果往往只能 保留二三个变量,其他变量的信息就丢失了。因此,我们首先对自变量进行因子 分析,找岀基本的数据结构,用新生成的因子再对生育率进行分析。这样,一方 面克服了自变量之间高度相关的缺陷,另一方面,又保留了这些变量的信息 选择的变量有:人均国民收入、城镇人口比例、初中以上文化程度的人口比 例、多孩率、综合节育率。表3-2给出的是1990年中国30个省、自治区、直 Joseph F Hair, JR etc.(1995) Multivariate Data Analysis with Readings, +1h Edition. Prentice-Hall International, Inc,: 374
辖市的数据。对这五个变量进行相关分析表明:多孩率和综合节育率之间存在着 较强的相关关系,其余的三个变量之间存在着较强的相关关系(见表3-3),可 以对该数据进行因子分析,本章以下各节将利用该数据说明因子分析的过程。 表3-2 原始数据 多孩率综合节育率初中以上文化程度人均国民收入城镇人口比例 个案(%) (%) 人口比例(%) 3577 55,41 68.65 3.46 412.46 45.12 90.46 41.83 1080 36.12 90.17 50.64 2011 46.32 42.65 88.82 1628 90.80 91.47 4822 105.94 90.31 1696 l12.60 92.42 35.14 l717 127.07 87.97 29.51 933 17.90 29.04 1313 21.36 9.43 20.40 153.16 91 169.04 88.76 1712.02 87.28 1248 1811.15 36.33 76 18.23 1922.46 87.72 36.77 2024.34 31.0 2133.2 l193 24.05 90.57 31.26 903 20.25 2321.56 86.00 18.93 2414.09 14.72 2532.31 865 611.18 89.71 41.01 930 21.49
续前表 多孩率综合节育率初中以上文化程度人均国民收入城镇人口比例 个案(%) (% 人口比例(%) (元) 2713.80 2825.34 81.56 31 1100 27.35 2920.84 1024 25.72 38.47 1374 3l.91 注:原数据中第三个案例的多孩率和第五个案例中的综合节育率为缺失值,用样本平均值代替 本书所附数据磁盘中的相应数据文件名为T32.SAV 表3-3 相关系数矩阵 2 5 1.00000 1.00000 54179 1.00000 45283 25283 1.00000 45341 84883 87772 1.00000 Kaiser- Meyer-Olkin Measure of Sampling Adequacy=.7132 rtlett Test of Sphericity =106. 77649, Significance = 00000 ∴、求解初始因子 在探测性因子分析中,求解初始因子这一步的主要目的是确定能够解释观测 变量之间相关关系的最小因子个数。根据所依据的准则不同,有很多种求因子解 的方法,主要可以分为两类:一类是基于主成分分析模型的主成分分析法,另 类是基于第一节介绍的公因子模型的公因子分析法,包括主轴因子法、极大似然 法、最小二乘法、 alpha法等等。主成分分析实际是独立于因子分析的一和数据 化简技术。因子分析中把主成分分析的结果作为一个初始因子解,因为在确定因 子个数时主要用到主成分分析产生的一个统计量—特征值。其他的求因子解的 方法,如主轴因子法采用了和主成分分析类似的算法,所以,主成分分析在因子 分析中占有重要的地位。下面,我们将分别介绍主成分分析法和公因子分析法。 1.主成分分析法 主成分( Principal components)分析是一种数学变换的方法,它把给定的一
组(比如k个)相关变量通过线性变换转换成另一组不相关的变量,这些新的 变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变,使第 一个变量具有最大的方差,称为第一主成分,第二个变量的方差次大,并且和第 个变量不相关,称为第二主成分,依次类推,k个变量就有k个主成分,最后 个主成分具有的方差最小,并且和前面的主成分都不相关。 1)主成分的几何意义 下面我们在二维和三维空间中来解释一下主成分的几何意义。 假设在二维空间中一些样本点的分布近似一个椭圆(见图3-3)。如果我们 要用一维,即一个轴来表示这些点的相对位置的话,则这个轴应该选在椭圆的长 轴上。因为从总体来看,样本点离这条线最近,在该方向上样本点最分散,该轴 就是第一主成分,它能解释最大方差,所包含的信息是最多的。两个变量只可能 有芮个主成分,第一个主成分确定后,第二个也就确定了,为椭圆的短轴 图3-3 如果在三维空间中样本点的分布近似一个椭球,设椭球最长的方向为第一长 轴,宽为第二长轴,高为短轴。则第一主成分应该取在第一长轴上,它对数据的 解释能力取决于椭球的形状,如果椭球很长很细,像一根棍,第一主成分基本能 反映原来变量的信息。如果椭球很长很宽,但很扁,则需要两个主成分才能比较 精确地描述该椭球,第二个主成分取在第二长轴上。如果长、宽、高三维都比较