会学系列教材 第七章 对数线性模型 社会科学研究经常要涉及名义测度等级变量。比如,我国人口普查中的民 族、婚姻状况、地区类型等都属于分类选择答案的问题,也就是说这些问项形成 的变量就是名义测度等级的分类变量。我国人口普查中受教育程度是按等级分类 的。要是严格按照统计学的定义,这一项的答案所形成的变量属于序次测度等 级。因为这一变量除了具有分类的意义以外,各类之间还有水平高低的明确含 义。比如,初中程度比小学高,高中又比初中高。但是,如果对这种级差忽略不 计,这一变量在统计分析中也可以当作名义测度等级变量来对待①。在其他社会 调查中,对于个人意愿、事件原因、经济来源及很多社会情况都是按照分类选择 答案的方式提问的。有人曾经做过统计②,美国1975年进行的总体社会调查 ( General social! Survev)中一共有310个变量,其中有107个二分类变量和148 个多分类变量,分类变量数占了所有变量的82%。因此分类变量的分析构成了 ①在统计分析中,测度等级高的变量可以降级使用,但会损失一部分信息。参见郭志 刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,140~145页。 2 Dillon W.R. and M. Goldstein.( 1984) Multivariate Analysis: Methods and Applications. John Wiley Sons, Inc: 490 215
社会研究中的一个重要部分。 本书所介绍的其他多元分析方法大多都要求全部变量或一部分变量为间距测 度等级,然而本章所介绍的对数线性模型(Log- Linear model)技术是应用于纯 粹分类变量的多元统计方法。 本章第一节通过对常规交互表( crosstabulation)分析方法缺点的讨论,来概 括对数线性模型对于分类变量分析的重要发展。第二节借助一个简单模型的例题 介绍对数线性模型对多元交互频数表的分解技术,并介绍了三种模型分析,即分 层模型、一般模型和lgit模型。第三节讨论两种对数线性模型数据输入方式并 提供本章例题的数据。第四节介绍应用SPSS软件来进行对数线性模型分析。第 五节通过对例题模型增加变量,扩展为一个比较复杂的模型,以示范各种模型的 应用方法,并对该例的统计结果进行比较细致的分析。 从常规交互表分析到对数线性模型分析 传统交互表分析的缺点 传统的分类变量统计方法是采用简单的频数或频率的交互表分析,也有一些 测量相关的指标以及相应的统计检验方法①。 当我们只对一个分类变量列出其各类的频数的时候,这还不是交互表。它只 反映单变量频数的分布,而单变量的频率就是每类频数所占的比例。只有对两个 或多个分类变量之间的频数交互列表,才形成交互表。所以,交互表所要反映的 是变量之间的关联。 那么,交互表是如何反映变量之间关联的呢?实际上,无论是简单的交互表 还是复杂的交互表,其中分布的所有频数之间的关联都可以分解为两种不同性质 的效应( effect)基本类型。一种反映了变量自身的频数分布影响,称之为主效 应( main effect);另一种反映变量之间关联所产生的效应,称之为交互效应 ( interaction effect)。所胃简单的交互表,即变量很少,且变量中的分类很少,比 如两个二分类变量构成的频数交互表是一张二维交互表,那么其主效应只有两 个,而交互效应只有一个。当变量数增加时,交互表的维数就会增加,相当于多 张二维交互表。当变量中的分类数增加时,每一张二维交互表就会变大。但是不 管变量数怎么增加或变量中的分类数怎么增加,仍然可以将整个频数分布分解为 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,324-33页
主效应和交互效应,只不过两类效应各自的项数有所增加而已,尤其是交互效应 的项数会增加很快。 常规频数表统计方法通常只分析两个变量之间的联系,这样的交互表即使是 直接审阅也可以看出频数在交互单元中变化的大体趋势。但是当进行分类变量的 多元分析时,常规统计方法就无法把握变量之间的关系了。多维交互表其实是以 多个有内在联系的二维表构成的,由于将整个频数分布切割为多张表,使得本来 就很庞杂的信息处于系统性很差的状况,因此很难把握。 在实际研究中,经常可以见到研究人员采用另外的替代方法,即一次只分析 两个变量之间的交互表,经过多个两两交互分析,企图再拼接形成对于多个分类 变量之间复杂联系的整体理解。尽管这种作法也能得到一些发现,然而根据方法 论的原则,正如多个简单回归并不能替代多元回归一样,这种缺乏综合性的分析 方式是不可能以多个个别分析真正迭加出整体的多元联系的。 这种分析方式存在着很多内在局限性 (1)失去了对多变量之间的交互联系的分析由于整个频数分布被分成多张 二维交互表,因此只能大致分析每一张二维交互表的主效应和交互效应,而更多 变量之间的联合交互效应(称之为高阶( higher order)交互效应)将无法分析 然而,正是交互效应才真正反映变量之间的关联,不能充分分析多变量交互效 应,便不能有效分析多变量之间的关联。 2)}在进行两个变量之间的关联分析时缺乏必要的统计控制多元统计的优 越性之一是其对于任何两个变量之间关系的分析是在控制模型中其他变量作用的 条件下进行的,所以它对于变量之间的关系的定量描述都是以“偏系数”(par tial coefficient)的形式提出的。或者说,多元分析反映一个变量对另一个变量的 净贡献”( net contribution),而简单分析只反映一种“毛贡献”( gross effect) 因为它无法将其他变量的作用排除在外。两两交互表分析就是简单分析,由于其 分析模型中不包含其他变量,因而也不能对于其他变量进行控制。特别值得注意 的是,这种简单的两两交互表分析的并不是以有内在联系的多张二维交互表构成 的多元频数交互表,而是互相割裂的简单交互表。 (3)不能准确定量描述一个变量对另一个变量的作用幅度这个问题涉及的 不是简单交互表分析方法论上的缺陷,而是指其所利用的常规交互表分析技术的 缺点。比如,常常存在对于交互频数的卡方检验的错误理解,以为它是描述作用 幅度的指标。实际上它只相当于相关分析中对r的检验,即对发现的相关进行总 体推断:统计检验的显著水平高并不完全由相关程度决定,还会受到样本规模的 影响。常规统计中因此提岀一些其他指标,使其不受样本规模影响,以期能像相 217
关系数那样描述相关强度,如Q指标、Φ指标等①。但是,即使是相关强度也 并不是作用幅度。比如在对间距测度变量统计分析中,不但以相关系数描述相关 强度,而且以回归系数描述作用幅度,即自变量一个单位的变化导致因变量变化 的期望值。而常规交互表分析中根本不存在这样的作用幅度指标。当然,交互表 分析涉及的是分类变量,关于变量之间的作用的描述会有很大不同。但是,如果 分类变量之间相关,就意味着一个变量的某个类别与另一个变量的类别之间有紧 密联系,表现为这个交互组的频数会明显不同于其他交互组。所以变量的作用体 现于对频数分布的影响上。如果能够找到一种方法,直接或间接以因变量频数分 布变化幅度来定量描述自变量的作用,便能够大大提高交互表分析的技术水 平 2.对数线性模型的发展 本章介绍的对数线性模型正是在上述三个方面取得了显著进展的技术方法。 它通过数学方法来描述多元频数分布,因而具有了多元统计分析的综合性,即同 时囊括多个分类变量于一个模型之中。这一重大进展使得对数线性模型既可以在 控制其他分类变量的条件下研究两个分类变量之间的关联,又可以将多元频数分 布分解成具体的各项主效应和各项交互效应,即使是高阶交互效应也不会被遗 漏。这种方法还能够以发生比的形式来表示自变量的类型不同反映在因变量频数 分布上的差异,因此具有了定量测量自变量作用幅度的能力。最后,它还具有强 大的统计检验能力,不仅能够对于所有参数估计进行检验,使得抽样数据的分析 结果得以推断总体,而且能够通过不同模型的统计检验结果,对备选模型进行筛 选和评价,以确定不但具有最大解释能力而且又最简单的模型。 对数线性模型的基本原理 1.例1分析模型的背景情况 现在我们有一个简单的2×2交互频数表,数据是虚构的,只服务于本章示 范对数线性模型分析。对于说明对数线性模型的基本原理,一个简单的交互表就 够了,所以例1并没有包括数据中的所有变量。但是,在最后一节中,我们将把 其他变量纳入模型,以示范如何应用对数线性模型来进行比较复杂的交互表 ①参见郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,329-331页。 218
分析。 例1研究的背景情况是,中国几千年社会发展中形成了重男轻女的旧风俗, 并且认为只有儿子才能延续家系香火。这一点在计划生育工作中感觉十分深刻 现在的研究任务是,根据调查数据检验这种情况是否在事实上存在,并定量描述 育龄夫妇所生育的第一个孩子的性别对后续生育决策的影响。例1涉及两个分类 变量,第一个是已经生育了一个孩子的父母是否领取独生子女证。我们将领取独 生子女证(编码为1)作为已经决定不再生育的标识,而未领取独生子女证(编 码为2)则标志着尚未决定停止生育或已经决定继续生育第二个变量是第一次 生育的孩子的性别,男孩编码为1,女孩编码为2。 表7-1 例1观测频数交互表 观测频数 B.初育孩子的性别 1.男孩2.女孩行合计 领证 212 365 2.未领证156 144 400 是否领取独生子女证列合计 367 总计:765 本来按照我们的研究目的,初育孩子的性别应该明确作为自变量,是否领证 应明确作为因变量。但是,对数线性模型本身实际上并不是对变量值的分析,而 是对交互频数的分析,因此就其本来意义是没有因变量、自变量之分的。在对数 线性模型中所有变量都称为因素( factor)。所以,在例1的观测频数交互表中用 A和B来标注这两个因素。另外,在对数线性模型的公式标注上用不同英文字母 表示因素也比较明确和方便。尽管对于变量的称谓不同,标注方式不同,但完全 不妨碍研究中有隐含的因果假设,也不妨碍开展因果分析。实际上,当我们明确 提出因果假设以后,对数线性模型反而可以更为简化和明确化。当然,这些内容 都要放在读者充分理解对数线性模型的基本形式和基本性质以后再加以介绍。 例1观测频数交互表(表7-1)是一个标准格式的二维交互表。中间全封 闭的四个方格中即为观测的交互频数,其他开放方格中是因素编码标注或是各种 合计。比如,第一个孩子是女孩而又领取了独生子女证的有153对夫妇,而第 个孩子是女孩未领证的有214对。于是,合计为367对夫妇有女孩。另外,加上 有男孩的夫妇合计398对,共计为765对夫妇。同样,这一样本规模可以从领证 合计加上未领证合计计算出来 应该指出,频数交互表并不是原始数据的简单罗列,而是原始数据经过初步汇 总加工的结果。我们把这些具体操作问题先放在一边,直接从交互表数据来建立