社会学系列教材 第九章 经别分析 鉴别分析( Discriminant analysis,简标为DA)这一技术是由费舍 (RA. Fisher)于1936年提出的。① 鉴别分析是一种进行统计鉴别和分组的技术手段。它可以就一定数量案例的 个分组变量和相应的其他多元变量的已知信息,确定分组与其他多元变量之间 的数量关系,建立鉴别函数( discriminant function)o然后便可以利用这一数量 关系对其他已知多元变量信息、但未知分组类型所属的案例进行鉴别分组。沿用 多元回归模型的称谓,在鉴别分析中称分组变量( grouping variable)为因变量, 而用以分组的其他特征变量称为鉴别变量( disciminant variable)或自变量。其 实,这里的自变量并不一定是真正的“原因”变量,有时可能倒是真正的“结 果”或“反应”变量。它们与类型变量的关系从本质上并没有越过相关的范畴。 不过,既然我们要参照其值来进行分组,权且称之为自变量。 鉴别分析技术曾经在许多领域得到成功的应用,包括对儿童心理测验、手术 或药品效果、地理区划的经济差异、决策行为预测等结果的分类。 o R.A. Fisher (1936) The use of multiple measurements in taxonomic problems. Annals of Eugenics 7: 179-188 285
鉴别分析与聚类分析有所不同。聚类分析是一种纯统计技术,只要有多种指 标存在,它就能根据各案例的变量值近似程度排出顺序来,只是描述性的统计。 但是鉴别分析则不同,在分析之前就根据理论或实际的要求对于分组的意义和分 组类别数目加以确定。并且,盛别分析要以此为标准来建立鉴别函数。最后,鉴 别分析并不停留在描进分类类型与各鉴别指之间的关系上,还能够对于未知分 组类型的案例进行鉴别分组。因此,它带有“预测”的意义。 总的来说,鉴别分析包括两个阶段的工作 第一阶段是分析和解释各组的指标特征之间存在的差异,并建立鉴别函数。 在这部分工作中,研究人员要处理的是已知分组属性的那些案例。这时需要确定 是否能在特征变量数据的基础上鉴别出已知的分组来,以及分组能被鉴别的程度 和哪些特征变量是最有用的鉴别因素。另一个用途是为了分组的目的推导一个或 多个数学方程。这些方程称为“鉴别函数”,它们以某种数学形式将表示特征的 鉴别变量与分组属性结合起来,使我们能辨识一个案例所最近似的分组。在第 阶段的鉴别分析中,用来建立鉴别函数的数据案例必须具有相互排斥( mutual exclusive)的分组属性,即各案例的分组属性必须是确定的,每个案例一定属于 其中某一类别组,并只能归入一个类别组。也就是说,案例必须同时具备分组信 息和其他特征信息,使我们能够对这两部分的联系加以归纳。 第二阶段所要处理的是未知分组属性的案例,以第一阶段的分析结果为根据 将这些案例进行鉴别分组。这相当于根据以往经验来“预测”案例的分组属性。 在分组属性能够成为一种明确结果时(如分组代表的是事物发展的不同结果), 便可以作为事实来检验预测的准确性。而有的时候,分组的内在属性并不是显性 的,如一个病人的病症到底是哪一类的,那么鉴别分析只是提供一种判断。 本章将通过一个例题的鉴别分析过程来展开这种分析方法和有关指标的介 绍,并且将与应用SPSS统计软件进行这一分析结合起来。本章第二节介绍鉴别 分析的假设条件和基本模型。第三节介绍所要分析的例题的情况。第四节讨论鉴 别分析的各指标。第五节介绍应用SPSS进行鉴别分析的步骤。第六节是关于 SPSS鉴别分类输出结果的理解。 鉴别分析的假设条件和基本模型 1.鉴别分析的假设条件 鉴别分析最基本的要求是:分组类型( Group,用g表示)在两种以上,即
g≥2;在第一阶段工作时每组案例的规模必须至少在一个以上,即n;>1(下标 j表示所在类型组);各鉴别变量的测度水平在间距测度等级以上;各分组的案 例在各鉴别变量的数值上能够体现差别。在这种情况下,鉴别分析能够帮助我们 分析各类型在鉴别变量上的差别,并提供一套鉴别统计指标 鉴别变量必须以间距或比率测度来测量,才能够计算其平均值和方差,使其 能合理地应用于统计函数。一般来说,鉴别分析要求案例数量(n)比变量的个 数(k)多于两个(n≥k+2),而对于鉴别变量的个数没有限制。 与其他多元线性统计模型类似,鉴别变量假设之一是每一个鉴别变量不能是 其他鉴别变量的线性组合。身为其他变量线性组合的鉴别变量不能提供新的信 息,更重要的是在这种情况下无法估计鉴别函数。不仅如此,有时一个鉴别变量 与另外的鉴别变量高度相关、或与另外的鉴别变量的线性组合高度相关,虽然能 够求解,但参数估计的标准误将很大,以至于参数估计统计性不显著。这就是经 常所说的多重共线性问题。① 鉴别分析的假设之二,是各组案例的协方差矩阵相等②。鉴别分析的最简单 和最常用的形式是采用线性鉴别函数,它们是鉴别变量的简单线性组合。在各组 协方差矩阵相等的假设条件下,可以使用很简单的公式来计算鉴别函数和进行显 著性检验。 鉴别分析的假设之三,是各鉴别变量之间具有多元正态分布,即每个变量对 于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值 和分组归属的概率。当这个假设条件破坏时,计算的概率将非常不准确③。 鉴别分析是用于研究两个或多个组之间在一套鉴别变量上的差别的方法。因 为分组被定义为一个名义测度等级变量,所以在本质上鉴别分析是一种将一个名 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,395-39页 Elazar J Pedhazur (1982) Multiple Regression in Behavioral Research, Second Edition. CE College Publishing: 232-237 Joseph F Hair, Jr, Rolph E. Anderson, Ronald L Tatham, and William C Black(1995) Multivariate Data Analysis with Readings, Fourth Edition Prentice-Hall International, Inc: 92 1995) Multivarate hia alys with Loadings, Fourth adin ren ace l iam mCi bhak Inc.:196-197 ③在这种情况下,可以考虑用 logistic回归模型作为替代。 logistic回归是用最大似然法 来进行模型估计的,因此不受这一假设条件的限制。 logistic回归模型的介绍见本书第六章
义变量与多个间距等级变量联系起来的方法 2.鉴别分析的基本模型 鉴别分析的基本模型就是鉴别函数,它表示为分组变量与满足假设的条件的 鉴别变量的线性函数关系,其数学形式如下 y=b0+ blr1+62x2+.+ bkIk (1) 其中,y是鉴别函数值;x;为各鉴别变量;b;为相应的鉴别系数 从上述鉴别函数的方程式可以看出,它与一般多元线性回归模型的形式 致。所以,我们可以将鉴别函数值( discriminant function value)看成是因变量 而将鉴别系数看成是回归系数。①但实际上鉴别模型与线性回归有本质上的区 别。首先,鉴别函数中的y并不代表原来输入的因变量的估计。在鉴别分析中 所输入的因变量是一个定性的分组变量,表示案例所在的不同组别,通常以连贯 的整数作为编码。而在分析输出的鉴别函数中的y却是一个间距变量,并且它 并不直接与分组变量有数量联系,只代表在某一空间上的坐标。其次,回归分析 的方程式只有一个,而鉴别分析中的函数往往并不是只有一个,在鉴别变量较多 时,鉴别函数也往往有多个。 莶别函数值y又常简称为鉴别值( discriminant score)。其鉴别系数(ds criminant coefficient or weight)表示各鉴别变量对于鉴别函数值的影响,其中bo 是常数项。 鉴别模型对应的几何解释是,各鉴别变量代表了k维空间。每个案例按其 鉴别变量值成为这一k维空间中的一个点。如果各组案例就其鉴别变量值有明 显不同,就意味着每一组将会在这一空间的某一部分形成明显分离的蜂集点群。 即使这些组的点群在空间位置上有少量重叠,其各自的“领域”也大体可以分 清。为了概括这个组的位置,我们可以计算它的领域的中心。中心的位置可以用 这个组别中各案例在每个变量上的组平均值作为其坐标值。因为每个中心代表了 所在组的基本位置,我们可以通过研究它们来取得对于这些分组之间差别的理 解。然而,仅看单个变量会使我们只从单一方向观察;当有很多变量时,这样的 信息也许会复杂得难于理解。可以证明,实际可能用不着用这么多维度来完整地 参见 William r. Klecka(1980 Discriminant Analysis. Sage Publications.该书作者认为, 如果一个研究将分类定义为依赖于鉴别变量的因变量,那么这种情况就类似于多元回归。但 是反过来,在把鉴别变量的值定义为依赖于分类的时候,鉴别分析就成了多元方差分析的扩 展 288
代表一个组的中心的相对位置。因此,鉴别分析可以帮助我们精简对鉴别用处不 大的维度。总而言之,鉴别分析将这些空间分布特征与已知分组属性之间的联系 加以拟合,并估计出各鉴别系数的最优估计,并且对于整个模型和各参数估计进 行评价和检验。在完成这些任务时,鉴别分析需要通过对这一空间进行种种转 换,使鉴别变量在空间上的分离表现得最为充分,并由此提供各种有解释意义的 标准化统计量。鉴别分析所得到的每一个鉴别函数就是转换得到的鉴别空间上的 个维度。 模型估计的过程可简略描述如下:首先将鉴别变量表示的k维空间进行旋 转,寻找某个角度使各分组平均值的差别尽可能大,然后将其作为鉴别的第一维 度。在这一维度上可以代表或解释原始变量组间方差中最大的部分。①上述鉴别 函数就表达了将原始数量值转换至这一维度的系数方程式。对应第一维度的鉴别 函数称为第一鉴别函数。然后按照同一原则寻找第二维度,并建立第二鉴别 函数。如此下去,直至推导出所有鉴别函数。建立后续鉴别函数的条件是,后 一个函数必须与前面所有的函数正交,即鉴别函数之间完全独立(完全不相 关)。 实际上这样推导出的函数有min(k,g-1)个,即等于鉴别变量个数或分 组个数减1两者中的较小者。其实,这已经有可能将原来的k维加以精简了 比如鉴别变量有8个,而组型分为3种,实际上能够得到的鉴别函数只有2个 即我们只要从两个维度来进行案例分组即可。如果鉴别变量的数目大于分组数目 时,能推导的鉴别函数虽然还是k维,但这时所有案例的空间分布将最有利于 识别分组 得到的每一个函数都反映鉴别变量组间方差的一部分,可以用所占比例表示 其相对重要性。各鉴别函数所代表的组间方差比例之和为100%。其实,推导出 来的鉴别函数也不见得所有都真的有实用价值。往往先推导的那些鉴别函数作用 很大,而后面推导出的函数只代表很少一部分方差。即使在对案例鉴别分组时忽 略它们,也不会造成鉴别错误的明显增加。所以,这些实际效用不大的鉴别函 数,也可以被精简掉。关于某个鉴别函数的功效评价将在后面有关参数估计的章 ①严格地说,这里并不是组间方差,而是组间的离差平方与叉积之和( sums of squareds and cross products of deviation),这里只是沿用流行的表述方法。两者之间的不同在于,组间方 差是一种均方差,而后者没有经过平均化。另外,有时人们在表述中还简化地称组间方差为 方差。就这里所论述的具体情况而言,对于鉴别分组直接有效信息不是总的离差平方与叉积 和,而是组间( between-groups}的离差平方与叉积和