社会学系列教材 第八章 多元方差分析 多元方差分析的主要用途是同时分析和检验不同类别在多个间距测度等级变 量上是否存在显著差别。这种方法由威尔克(S.S.Wlk)在1932年创建,后来 又得到逐步发展和完善。现在,许多计算机统计软件中都已经具有多元方差分析 的功能。但是,这种方法在我国社会科学研究中的应用尚属少见,有待进一步推 本章第一节将从多元方差分析与一元方差分析的关系入手,简介相关方法的 沿革及多元方差分析的特点。第二节主要介绍多元方差分析所要求的变量、数据 方面的条件。第三节提供本章例题数据及例题分析的三个模型。第四节将结合例 题的第一模型分析,介绍多元方差分析的主要指标、SPSS多元方差分析的主要 操作步骤。第五节主要结合例题第一模型的数据以图示方法说明多元方差分析 的原理。第六节和第七节分别继续讨论例题第二模型和第三模型的分析,并相应 介绍多因素多元方差分析的饱和模型与非饱和模型的设置。 、简介多元方差分析与一元方差分析的关系 要对多元方差分析形成一个较明确的整体概念,我们首先追溯一元方差分析
的产生。而一元方差分析又是为了简化多个t检验而建立的综合性更强的分析方 法 1.从t检验到·元方差分析 当统计分析中需要比较来自两个子总体的样本平均值是否有显著差异时,我 们通常应用t检验方法。比如,在比较男性和女性的平均初婚年龄时,无差异假 设为 Ho:Y=Y 即两个子总体各自的平均值之间无差异。于是,我们用从两个子总体中的随机样 本中计算的平均值作为对两个子总体的估计,然后在考虑抽样误差的条件下进行 比较,以决定接受或拒绝无差异假设 在研究中如果同时有多个子总体时,应用t检验需要两两加以比较,显得十 分繁琐。因此,我们往往应用综合性更强的方差分析( Analysis of variances,简 略表示为 ANOVA)方法而代之。方差分析将提出问题的方式进行了变化,其统 计假设为,这些子总体的平均值中是否至少有一个与其他子总体的平均值存在显 著差异,表示为无差异假设,即 Ho:Y1=Y2=…=Y 其中,下标g表示分组数。 方差分析的思路为,将来自各子总体抽样样本汇合在一起,先假设他们来自 个总体(即假设无差异),然后将这个汇合样本的总变动(用离差平方和表示) 分解为两个部分。一部分是组内变动,代表着本组内(即某个子总体内;在多因 素分析时则是按多因素进行划分的交互分组内)各案例值关于组平均值的分布离 散程度。另一部分是组间变动,代表着各组平均值关于总平均值的分布离散程 度。实际上,组内变动代表了在汇合总体的总变动中不能用分组因素进行解释的 部分,组间变动代表了同一总变动中可以用分组因素加以解释的部分。将这两个 变动部分除以它们所对应的自由度,即得到均方差。组间变动均方差除以组内变 动均方差以后的统计量服从F分布,于是我们可以根据统计值对应的显著水平 决定接受或拒绝当初的无差异假设。 由于一个完整的多元回归分析中包含了相关分析、方差分析、回归分析几方 面的内容,因此研究人员越来越愿意使用代表不同分组的虚拟变量(或效应变 量)以多元回归的形式进行方差分析。这种以多元回归形式所进行的方差分析
不仅可以检验同一无差异假设,而且描述各分组平均值与参照组平均值之间的差 异(在釆用效应变量时则是描述了各分组平均值与总平均值之间的差异),并且 对这些差异分别进行t检验①。 2.从一元方差分析到多元方差分析 本章所要介绍的多元方差分析是方差分析方法的进一步扩展。 无论是单因素方差分析、多因素方差分析,还是多元回归分析,它们的一个 共同点是它们只涉及到一个因变量(或称反应变量)。不管它们的自变量有多少, 换句话说,就是其分组有多复杂,最后是通过一个指标上的观测值来反映其所产 生的差异和变化的。所以,方差分析或以多元回归形式进行的方差分析是完全等 价的。它们以数学形式的一般模型(指略去权数的模型)为 y=x1+x2+x3+…+xk 其中,y是因变量,而且必须是间距测度等级的变量;x是表示分组(或称 分类)的名义变量(在方差分析中又称为因素, factor);k是分组变量的序号。 此处需要特别加以提示,k不是分组的个数,而是分组变量的个数。由于每个分 组变量内部类型数目不同(如性别只分两类,而婚姻状况就可分为多类),但类 型至少分为两种,因此分组变量数一定不等于分组数②。当模型中除了分类变量 以外,还有其他间距测度等级的自变量(在方差分析中又称协变量, covariate) 时,这一模型就成为协方差分析( Analysis of covariance,简称为 ANCOVA) 其功能是将间距变量作为控制变量的情况下进行方差分析。 而多元方差分析( Multivariate Analysis of variance,简称 MANOVA)则已 经不能以多元回归的形式来完成了,因为多元方差分析模型的因变量已经不再是 个.而是多个:它的一般模型如下 y1+y2+…+y=x1+x2+x3+…+xk 其中,自变量x的定义同方差分析模型一样也是分组变量,k为分组变量 数;而因变量ν有多个,并且必须都是间距测度等级的变量,不可以釆用虚拟 变量或效应变量。在本模型中,因变量按序号排列.下标i表示最后一个因变 ①有关t检验和方差分析的详细内容参见郭志刚、郝虹生、杜亚军、曲海波:《社会调 耷研究的量化方法》的有关部分或参阅其他统计教科书。 ②名义测度等级变量实际上不能直接进行计算。在应用SPSS软件进行分析时,方差分 析程序先按照一定方式将其转换为可计算的编码变量,如虚拟变量、效应变量等。因此,每 个分组变量在转换中所产生的编码变量数不一定等于分组变量数,并且也一定不等于分组数
量。因此,i同时表示因变量的数目,i也可以理解为指标( index)。 相比多元方差分析的一般模型与多元回归(在这里我们用来表示一元方差分 析)的一般模型,应该特别指出,这两个名称关于“元”的定义是完全不同的。 多元回归的“元”是指自变量的数目,而多元方差分析的“元”则是指因变量的 数目 多元方差分析所要解决的问题与一般的方差分析并无二致。它的用途仍然是 检验不同分组是否存在显著差异。所不同的是,它的检验是建立在同时考察多个 反应变量观测值上,而不是仅仅考察一个反应变量。 因此,多元方差分析的统计假设需要用向量形式来表达,其无差异假设为 H Y2K 其中.下标g代表分组数,i代表因变量数。y代表第g组在第个指标上观测 值的平均值。上述假设是,总体按各个因素进行分组后,各分组子总体在每一项 反应指标的平均值上均无差异。 关于上述假设表达式中有两点需要加以注意。 第一,这一无差异假设中表示分组的下标为g,不是上述多元方差分析一般 模型中最后一个自变量的下标k。这是因为,一般模型中的自变量不仅包含表示 分组的变量,也可能包含间距测度等级的协变量。并且,就是在没有协变量的纯 粹方差分析模型中,因为自变量是名义变量,根据一个自变量可以分成多组。比 如在中国1990年人口普查资料中对于15岁及15岁以上的人而言,变量婚姻状 况可以用1至4分别表示未婚、有配偶、丧偶、离婚四种情况。而多个分组变量 即表示分组要根据多种因素交互进行。比如,分组变量选用婚姻状况(四类 性别(男、女两类)和文化程度(从不识字至大学本科共有七类)三个(k 3),那么分组总数等于各名义变量中分类数的连乘积,即g=4×2×7=56。 第二,这种表达的含义并不等于多次单指标方差分析结果的迭加。这是因 为,在多元方差分析中各指标上是否存在差异的检验是同时完成的,它涉及到各 因变量的多元联合分布。正是因为如此,多个单指标方差分析的结果不能取代多 元方差分析的结果。在后面的例子中,我们就能看到在对单个因变量进行方差分 析时根本不呈现分组之间的显著差异,而多元方差分析却能够检验出分组间的显 著差异 根据本书的宗旨,这里并不想展开数理上的证明或说明。下面,我们仅通过
例题案例的具体分析结果来显示多元方差分析与多个单指标方差分析的差别,然 后采用一些简单的图示来简明扼要地说明为什么多元方差分析能够产生在同一问 题上与单指标方差分析不同的结论。 多元方差分析涉及了大量的矩阵计算。正是因为如此,限制了它的普遍应 用。得益于近年来计算机和统计软件的迅速发展,我们今天不再需要劳神于这些 中间过程的矩阵计算,因为只要我们将分析数据输入,统计软件可以十分迅速地 给出多元方差分析的最终结果。但是,为了正确应用多元方差分析方法并能够正 确理解和阐述它的结果,我们仍然需要充分理解这种方法应用的范围、依据的基 础假设条件,以及其最终输出结果的含义。 、多元方差分析的数据要求和假设条件 多元方差分析是一元方差分析的扩展。它的因变量必须为间距测度等级变 量,自变量为名义测度等级的分组变量。在应用SPSS进行方差分析时,不需要 将分组变量进行虚拟编码等转换,只需要使分组变量中各组以连贯整数作为代 码。 由于存在多个因变量,因此它对于因变量之间的关系有专门的要求。首先 因变量之间需要存在一定程度的相关。这里包含两层意思。其一是因变量之间应 该为线性关系,如果是非线性关系,则多元方差关系会失去发现和检验分组之间 多元差异的能力。如果已知某些因变量之间存在非线性关系,可以先对因变量进 行改造,使非线性关系线性化,然后再用改造得到的变量进行多元方差分析。其 一是因变量之间有一定强度的相关,否则不足以发现和检验分组之间的多元差 异。换句话说,因变量之间如果线性相关程度太弱,采用多元方差分析将一无所 获。SPSs的多元方差分析中提供有关因变量相关性的检验( Bartlett test of sphericity 多元方差分析在样本规模上也有一定要求,不仅总规模需要较大数量,而且 在各分组中也要有一定数量的案例,这是因为它是多元分析,否则不容易取得显 著结果。另外,各分组的样本规模不宜差别太大,尤其要注意避免出现空单元即 ①不要将此与多元回归中的多重共线性问题相混淆。多重共线性问题指多元回归分析 中自变量之间的高度相关,因此而无法确定各自变量对因变量的作用。而多元方差分析所要 求的是多个因变量之间的相关,这样才具备得到识别分组之间多元差异的可能性。所以在多 元方差分析中,一定程度的共线性或多元共线性不但不是问题,而且是必要条件