杜会学系列教村 第一章 家的 导论 本书是一本集多元社会科学研究统计方法及相应SPSS统计软件应用的教 材 科学的性质要求一个完整的研究必须理论联系实际,能够比较准确地刻画事 物的现状、把握它的内在规律、并力图能够预测它的发展趋势。长期以来,社会 科学研究由于其研究对象的复杂性以及量化分析水平很低,总是较多地依赖于概 念定义和逻辑推理,处于单纯思辨的范围中,很少具有经验(实证)研究的性 质。因此,总是有很多人并不将其作为科学来对待 社会科学研究的这种特征是由于三方面影响所致。首先,从测量角度而言, 社会科学的概念十分抽象,难以量化,而实际观测和数据收集所涉及范围很大 因此实际观测数据不易得到。第二,由于社会科学的变量几乎都是随机变量,描 述它们之间的关系很难用一般数学方法,而必须应用概率统计方法。第三,由于 数据规模较大和必须应用概率统计方法,导致研究分析时涉及大量复杂的计算工 作。应该说,这些方面相互影响制约,使得理论联系实际本身有较大难度。 本书集中介绍了12种社会科学研究的统计方法,包括:回归分析、因子分 析、聚类分析、通径分析、 logistic回归、对数线性模型、多元方差分析、鉴别 分析、典型相关分析、结构方程模型、事件史分析、对应分析
这些方法在近年来国际社会科学研究文献中经常使用,已经达到十分普及的 程度。换句话说,这些方法已经相对成熟,并且已经配有计算机软件,所以能够 得到迅速普及。本书作者希望能够帮助读者了解这些方法的用途、原理、条件 操作和统计结果的理解和应用,使读者不仅能够更好地理解关于这些方法的有关 文献资料,而且能够自己运用这些方法来开展研究。 本书所介绍的这些统计方法并不十分神秘。只要具有一定统计基础的读者, 不难通过本书的介绍了解它们的用途和基本原理。本书并没有太多的深奥繁琐的 数学证明,一些公式推导的目的也并不在于证明这些方法,而主要服务于揭示统 计指标之间的内在联系。即使读者在学习时忽略这些公式推导,并不影响其对于 整个方法的理解和应用。特别是由于本书中介绍的所有方法都伴以SPSS软件的 操作应用,读者能够很容易复制例题的统计结果,按照例题背景情况理解它们的实 际意义,并进一步发挥自己的主观能动性将这些方法应用于自己的研究中去。 是发展较早、应用非常普遍的社会统计软件包。它具有十分强大的数 据处理、统计分析功能,同时又具有易学、易用的特点。因此,本书所介绍的高 级统计方法将以 SPSS for Windows第6版作为应用软件。 关于本书各章的简介 本书所介绍的12种社会统计方法,基本上每种方法成为独立的一章。每 章可以单独学习,但是它们之间也存在着一定的内在联系。比如,第五章通径分 析实际上是第二章回归分析的扩展,而它同时又是第十一章结构方程模型的一种 待例情况。对于应用来说,更重要的问题是,各种方法都是在一定具体条件下应 用的,因此如何选择适当的方法便成为正确应用这些方法的前提。 本节简介这些方法应用的具体条件,使读者在阅读各种方法介绍的内容之 ,先形成对这些方法的分类框架概念。 为了建立这些方法的分类框架,需要具备一些统计学基础知识,即变量测度 等级的概念。下面第一小节是对变量测度等级的简介。然后,在第二小节中对各 种方法做一概括。第三小节将按照各种方法应用的变量条件列出一个框架图 1.变量的测度等级 在科学研究中,用变量来量化描述概念含。但是不同概念能够被量化的程度有 所不同,另外即使一个概念实际上具备较高的量化程度,而在实际观测时也可能 因为具体情况而采用较低的量化程度。这种量化程度在统计学中称为变量的测度
等级或测度水平( measurement level)①。 变量的测度等级直接关系到统计分析方法的选择。 变量的测度等级的划分有多种,一般常用的划分为四种,即:名义测度、序 次测度、间距测度、比率测度。 名义测度( norminal measurement)是最低的一种测度等级,也称定名测度。 实际上,名义测度变量的值只代表类型的编码,而这些编码的数值只是一个符 号,数值之间不存在有实际意义的量的关系。比如,性别便是一个名义测度等级 的变量,可以将男性编码定为1,女性编码定为2,但是如果反过来定义编码. 或换用其他任意两个不同的数,甚至直接以文字代表类别,变量所包含的信息也 没有任何损失 序次测度( ordinal measurement)的量化水平高于名义测度,也就是说它所 包含的信息量大于名义测度等级的变量。因为在序次测度等级的变量中,变量编 码不仅具有分类的作用,而且也存在量的关系。比如,受教育程度这个序次测度 等级的变量,采用数字编码表示不同类别,比如:文盲半文盲=1,小学=2,初 中=3,高中=4,大学=5。从中可以看出,随着受教育程度的提高,编码值越 来越大。虽然可以换用2至6甚至反序6至2作为其编码不会损失信息,但是不 可以随意调换各类在序列中的位置。因为,各编码的序值代表了受教育程度的高 低差异。尽管不能准确描述这一差异的大小,但是可以确定这一差异的方向。换 句话说,这些编码值可以应用于不等式计算。比如从受教育程度而言,如果已知 高中>初中,初中>小学,便可以肯定有高中>小学的数量关系。 间距测度等级( interval measurement)的量化程度更高,它的取值不再是类 的编码,而是采用定单位的实际测量值。这时不仅可以知道两个不同变量值存 在差异,而且可以应用减法得到两值之间的差或应用加法得到两值之间的和,它 们的差与和都有实际意义。但是,间距测度等级的变量值之间不能进行乘除计 算,这是因为这一测度等级的变量所取的0值不是物理意义上的绝对0。比如, 在采用摄氏温度时,不能说10度是5度的2倍。因为将这两个摄氏温度换算为 K温度后,这两个温度便不再是2倍关系 比率测度( ratio measurement)是最高级的测度等级,它除了具有间距测度 ①参见Blxk,HM.(1979) Social Statistics, Revised Second Edition. McGraw-hill Inc.:l5-20 郭志刚、郝虹生、杜亚军、曲海波:《社会调查研究的量化方法》,1版,139-145页, 北京,中国人民大学出版社,1989
等级的所有性质外,而且其0值是非人为制定的,比如K温度中的0度被称为 绝对0度。只有变量的0值不是人为制定的中介值,而是绝对0(即没有再比它 更小的取值)时,其任意两个取值的比率才能有确定的意义。 从以上简介可以看出,测度等级关系到对变量信息的理解。测度等级越高 变量所包含的信息越多。对于同一个变量,较高测度等级不但包含较低测度等级 全部信息,而且还附加其他信息。因此,较高测度等级的变量实际上可以降级使 用。统计分析中经常采用降级使用。 比如,将序次测度变量作为名义测度变量使用,这时常常将这两种测度等级 合称为分类变量。 另外,将比率测度变量作为间距测度变量使用。有些教材将其称之为连续变 量,其实这两种测度等级变量并不一定要求取值连续(即变量可以只取整数值)。 所以,对它们吏准确的称谓是测量型变量,因为它们都可以取得精确的变量测量 值。从统计分析的角度,间距测度等级便是最高等级。所以比率测度变量只好作 为间距测度变量来使用。如上所述,对于间距测度变量,可以应用加法和减法计 算,所以计算所有变量观测值的和是有意义的,并进而计算变量的平均值(注意 计算平均值时的分母并不是变量值,而是观测频数)。而且,可以计算各变量值 与平均值之间的差(离差),并进而计算变量的方差和标准差。 但是应当明确,这种降级使用意味着一部分信息没有被利用,造成了一定的 信息浪费、所以,应当尽量避免这种损失,只有在迫不得已的情况下才这样做 在硏究方案制定的时候,应该对于能够应用的统计方法了如指掌,根据实际 情况尽可能在调査时将变量设置为间距测度等级,以获得较多的信息。在分析 时,尽可能将变量作为间距测度等级来使用,以避免信息的浪费。 2.本书所介绍的分析方法的概述 本书各章介绍了12种社会统计方法,可以用最简练的语言将这些分析方法 加以概括如下 多元回归应用于单方程模型,其因变量必须为测量型变量,其自变量可以为 测量型变量或虚拟变量。研究目的是通过自变量的变化来预测因变量的变化。多 元回归用最小二乘法求解回归系数。 如果变量之间有多层因果关系,便可以由多个有内在联系的多元回归方程组 成一套通径分析联立方程组,每个方程都通过多元回归求解系数,然后应用通径 分析分解变量之间的直接作用和间接作用。 如果一套联立方程组中含有潜在变量(即不可直接观测的变量),便不能再用
最小二乘法求解,这时叮以应用结构方程模型,它主要采用最大似然估计求解。 在研究有两组各包含多个变量的变量组之间的关系时,可以采用典型相关分 析。典型相关分析的所有变量必须为测量型变量或虚拟变量。 多元方差分析研究两个以上的类别中在多项测量型数据指标上是否存在显著 差异。 当因变量为二分类变量且自变量为测量型变量和虚拟变量时,不能采用多元 回归,而应该采用 logistic回归。 logit模型是对数线性模型的一种特例。它与 logistic回归的不同在于,它的 自变量全部都是分类变量。 鉴别分析主要应用于在已知一些案例的各种条件值及其结果类型的条件下, 形成鉴别方程,并应用于其他条件值已知但结果类型未知的案例,预测它们的结 果类型。这种方法可以视为因变量为多分类结果,自变量为测量型或虚拟变量的 因果预测。它的主要应用目的是进行鉴别分类。 在使用纵贯数据进行因果分析时,事件史分析是可以应用的分析技术。其 中,离散时间模型实际上就是用 logistic回归求解。而Cx比例风险模型是连续 变量模型,它分为两种,一种包括动态变量(即随时间变化的自变量),另一种 不包括动态变量。事件史分析的数据处理是一项比较复杂的工作,本书第十三章 专门介绍这方面的技术。 至于因子分析、聚类分析和对应分析不是因果模型,它们分别用以分析变 量、案例或类型(变量值)之间的结构关系。将它们称为相依模型。 因子分析经常服务于浓缩多个测量型变量,使之转换为较少数量的新变量 (称为因子)后,仍然携带原变量的绝大部分信息。 聚类分析用于分析各案例在多个测量型变量值上的近似性距离,将其按近似 性原则进行案例排列 对应分析可以用来对不同非测量型变量的类别之间进行分析,以作图形式显 示不同变量类别之间的近似程度。 3.本书介绍的统计方法的分类框架 这些分析方法应该根据实际研究的具体目的、分析模型及其数据资料来选 用、为了便于读者对于这些方法形成较为系统的认识,可以根据研究模型类型、 因变量数目、因变量和自变量的测度等级四个方面对这些方法进行分类,对这些 分析方法之间的特征和差别进行框架性的概括,但这种概括只能是大致的 以下框架(见图1-1)首先按照观测数据的来源分为两大类:第一类是横