杜会学系列教村 第三章 因子分析 因子分析( Factor Analysis)是多元统讣分析技术的一个分支,其主要目的 是浓缩数据。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本 结构,并用少数几个假想变量来表示基本的数据结构。这些假想变量能够反映原 来众多的观测变量所代表的主要信息,并解释这些观测变量之间的相互依存关 系,我们把这些假想变量称之为基础变量,即因子( Factors)。因子分析就是研 究如何以最少的信息丢失把众多的观测变量浓缩为少数几个因子 因子分析是由心理学家发展起来的,最初心理学家借助因子分析模型来解释 人类的行为和能力,1904年查尔斯·斯皮尔曼( Charles spearman)在美国心理学 杂志上发表了第一篇有关因子分析的文章,在以后的三四十年里,因子分析的理 论和数学基础逐步得到了发展和完善,它作为一个一般的统计分析工具逐渐被人 们所认识和接受。50年代以来,随着计算机的普及和各种统计软件的出现,因 子分析在社会学、经济学、医学、地质学、气象学和市场营销等越来越多的领域 得到了应用。 因子分析的应用主要有以下两个方面 第一,寻求基本结构( Summarization)。在多元统计分析中,经常碰到观测 变量很多且变量之间存在着较强的相关关系这种情形,这不仅给问题的分析和描
述带来一定困难,而且在使用某些统计方法时会出现问题。例如,在多元回归分 析中,当自变量之间高度相关时,会出现多重共线性现象。变量之间高度相关意 味着他们所反映的信息高度重合,通过因子分析我们能找到较少的几个因子,他 们代表数据的基本结构,反映了信息的本质特征。例如,某快餐店为了解其市场 竞争能力进行消费者调査,通过定性研究设计了30个有关快餐店及其产品和服 务的调查项目,这30个项目可能反映了快餐的质量、价格、就餐环境和服务四 个基本方面,通过因子分析我们能找出反映数据本质特征的这四个因子并分析原 来30个观测变量和它们之间的关系。 第二,数据化简( Data reduction)。通过因子分析把一组观测变量化为少数 的几个因子后,可以进一步将原始观测变量的信息转换成这些因子的因子值,然 后,用这些因子代替原来的观测变量进行其他的统计分析,如回归分析、路径分 析、判别分析和聚类分析等,利用因子值也可以直接对样本进行分类和综合评 价 以上这些应用都需要通过因子分析,首先确定能够解释观测变量之间相关的 假想因子的个数。一般来说,要是研究者事先对观测数据背后存在多少个基础变 量一无所知,因子分析用来作为探索基础变量的维数,这种类型的应用称为探测 性( Exploratory)因子分析,因子分析的大部分应用都属于这种类型。有些情 况下,研究者根据某些理论或其他的先验知识可能对因子的个数或因子的结构作 出假设,因子分析也可以用来检验这个假设,作为证实假设的工具,这种类型的 应用称为证实性( Confirmatory)因子分析,在心理学领域中的应用属于这种类 型,这部分内容本章不做讨论。 因子分析原理 1.因子分析模型 因为任何一个变量,经过x=x变换(x为x的均值,为x的标准 差)成为标准化变量,很容易证明,经过这样的标准化变换不改变变量之间的相 关系数,所以,不失一般性,假设我们讨论的是标准化变量 因子分析模型在形式上和多元回归模型相似,每个观测变量由一组因子的线 性组合来表示。设有k个观测变量,分别为x1,x2 xk,其中x;为具有零 均值、单位方差的标准化变量。则因子模型的一般表达形式为 x;=a;1fi+ai2f2+.+aimfm +ui k)
在该模型中 (1)f1,f2,…,fm叫做公因子( Common factors),它们是各个观测变量所 共有的因子,解释了变量之间的相关 2)u1称为特殊因子( Unique factor),它是每个观测变量所特有的因子, 相当于多元回归中的残差项,表示该变量不能被公因子所解释的部分 (3)a称为因子负载( Factor loadings),它是第i个变量在第j个公因子上 的负载,相当于多元回归分析中的标准回归系数(i=1,…,k;j=1,…, 因子分析模型也可以用路径分析图表示如图3-1。 aim/a2m km 图3-1因子分析模型 该模型假设k个特殊因子之间是彼此独立的,特殊因子和公因子之间也是 彼此独立的。 因子分析模型中,每一个观测变量由m个公因子和一个特殊因子的线性组 合来表示,我们感兴趣的只是这些能够代表较多信息的公因子,如果不加以说 明,本书中经常用到的因子一词实际指公因子。公因子的个数最多可以等于观测 变量数。因为在求因子解时,总是使第一个因子代表了所有变量中最多的信息, 随后的因子代表性日益衰减,如果忽略掉最后几个因子,对原始变量的代表性也
不会有什么损失,所以,因子分析模型中,公因子的个数,往往远远小于观测变 量的个数。如果把特殊因子作为残差项看待,因子分析模型和多元线性回归方程 在形式上很相近,他们都是用其他变量的线性组合加上一个残差项来表示一个变 量,但是回归模型中的自变量是可观测的,而因子分析模型中的因子是假想变 量,是不可观测的,这就使得它有别于一般的线性模型。为了进一步了解模型所 表示的意义,下面我们讨论因子分析中常用的几个统计量。 2.因子分析中的有关概念 (1)因子负载 因子负载是因子分析模型中最重要的一个统计量,它是连接观测变量和公因 子之间的纽带。当公因子之间完全不相关时,很容易证明因子负载a等于第;个 变量和第j个因子之间的相关系数。大多数情况下,人们往往假设公因子之间是 彼此正交的( Orthogonal),即不相关。因此,因子负载不仅表示了观测变量是 如何由因子线性表出的,而且反映了因子和变量之间的相关程度,an的绝对值 越大,表示公因子f与变量x1关系越密切。 假设我们得到了下面五个观测变量、两个公因子的模型: x1=0.9562f1+0.2012f2+0.2126u1 x2=0.8735f1+0.2896f2+0.3913u2 x3=0.1744f1+0.8972f2+0.40573 0.5675f1+0.7586f2+0.3202 x5=0.8562f1+0.3315f2+0.3962s 很容易看出,公因子f与变量x1,x2,x4,x5关系密切,它主要代表了这 些变量的信息,公因子f2与变量x3,x4关系密切,它主要代表了这两个变量的 信息 因子负载还可以用来估计观测变量之间的相关系数,当公因子之间彼此不相 关时,由因子分析模型很容易推导出变量x,和x,之间的相关系数为: 即任何两个观测变量之间的相关系数等于对应的因子负载乘积之和。这表 明因子分析模型假设观测变量之间的潜在联系通过公因子描述,如果我们把 变量x,和因子之间的负载理解为相关系数,变量x和因子之间的负载理解为 通径系数,则变量x;和变量x之间的关系可以通过图3-2直观地表示出 来
由因子模型导出的变量之间的相关系数可以用来判断因子解是否合适,如果 从观测数据计算出的相关系数和从模型导出的变量的相关系数差别很小,那么我 们可以说模型很好地拟合了观测数据,因子解是合适的。公因子模型是从解释 变量之间的相关关系出发的,他的解最大可能地再现了观测变量之间的相关关 系 (2)公因子方差 公因子方差( Communality)也叫共同度,又称公共方差,指观测变量 方差中由公因子决定的比例。变量x的公因子方差记做h12。当公因子之间彼 此正交时,公因子方差等于和该变量有关的因子负载的平方和,用公式表示 为 变量的方差由两部分组成,一部分由公因子决定,一部分由特殊因子决定。 公因子方差表示了变量方差中能被公因子所解释的部分,公因子方差越大,变量 能被因子说明的程度越高。对于上面所举的五个观测变量、两个公因子的例子 计算出每个变量的公因子方差见表3-1。h12=0.9548,表明f1和f2两个因子 解释了x1变量信息量的9548%。公因子方差这个指标以观测变量为中心,它的 意义在于说明如果用公因子替代观测变量后,原来每个变量的信息被保留的程 度