( deviations from means)。只有对潜在变量的截距和平均值的估计感兴趣时,原 始观测变量才在模型中使用。 般的结构方程模型由两个模型组成:一个是测量模型( measurement mod e),一个是潜在变量模型( latent variable model)或结构模型( structural model)。方程(2)和(3)为测量模型,它们表示潜在变量与观测变量之间的关 系。通过测量模型,我们可以由观测变量来定义潜在变量。方程(2)将内生潜 在变量η连接到内生标识,即所观测到的y变量。而(3)方程将外生潜在变量 连接到外生标识,即所观测到的变量。观测变量y和x按两套线性方程 (即方程(2)和(3)与相应的潜在变量n和相连接,并有相应系数入,和A 以及测量误差项ε和δ。矩阵A、和A,中包含了y和x对n和的回归权数(re gression weight)这些权数通常称作因子负载( factor loadings)e和δ则是与观 测变量ν和α相连的测量误差。我们假设ε和δ的平均值都为0,并且它们与内 生潜在变量η、外生潜在变量ξ、结构方程误差项ξ之间不相关,但是不一定要 求它们自己之间也不相关。当任何一个ν或x不存在测量误差时,其相应的 或δ元素即为0 方程(1)为潜在变量模型,表示潜在变量之间的关系。η向量的各元素 (1··3,…,ηa)都一一对应着各内生潜在变量,而安向量的各元素( ,3,…,如)都一一对应着各外生潜在变量。这些内生的和外生的潜在变量 由一套线性方程(即1)通过与B和r系数矩阵以及误差向量ξ联系起来、其 中,r代表外生潜在变量对于内生潜在变量的影响,B代表一些内生潜在变量对 其他内生潜在变量的影响,为结构方程的误差项 总之, LISREL模型一共有八个基础参数矩阵( parameter matrices)需要在 线性结构关系模型中估计,A,、A、T、B、φ、平、、和2:A和A矩阵 是因子负载矩阵;F和B矩阵是结构通径系数矩阵;Φ是外生潜在变量的方 差协方差矩阵( variance/ covariance matrIx);W是结构方程残差项的方差协方 差矩阵;最后两个矩阵分别是观測误差(δ和ε)的方差协方差矩阵I关于内 生潜在变量n的方差协方差用不着在程序中进行估计,因为它们可以用以下公 式计算出来 var (n)=Var i(rE+5)/(1-B)] 模型设定实际上就是设定以上所述八个矩阵中所含的一整套模型参数:这些 ①有关矩阵、向量的符号及定义见附录中的一览表 344
参数既可以设定为固定(fed)参数也可以设定为自由(fre)参数。固定参数 将不从模型中估计,它们的值通常定为零。自由参数是研究人员认为是非零的那 些参数,它们将根据实测数据来进行估计。另外,一个参数也可以被限定为与其 他参数等值。 三、模型的识别 在 LISREI中设定模型时的一个基本考虑是模型的识别。识别工作主要是考 虑模型中每一个未知(自由)参数能否由观测数据求得惟一解作为估计。对于某 个自由参数,如果不可能将这一参数以样本方差协方差的代数函数表达,那么 这个参数就不能识别( unidentified)。我们可以从一个例子中得到这一概念的启 示。假设有一个方程:Var(y)=Var(n)+Var(E),其中Var(y)是观测 变量y的方差,Var(η)是潜在变量η的方差,而Var(ε)是测量误差的方 差。那么,对于Ⅴar(η)和Var(E)来说都没有惟一解,因为有无限对Ⅴar (η)和Ⅴar(ε)的组合可以得到Ⅴar(y)值。于是,致使它们成为不能识别的 参数:这个问题在于对方程和数据缺乏足够的限制条件,因此不能取得Var(η) 和Var(ε)的惟一解。因此,要是我们想解决这个问題,就需要加入一些限制 条件一个解决办法是追加一个方程Var(E)=c(c为一常数),将Var(g) 值固定为一个常数。于是,Var(n)-Var(y)-c就可以保证取得惟一性的 估计值。这样,Var(q)便可识别。同样的原则适用于更复杂的结构方程模型 要是一个未知参数至少可以由观测变量的方差协方差矩阵(一般用S来代表) 中的一个或多个元素的代数函数来表达,就称这个参数识别了。要是模型中所有 未知参数都是识别参数,那么这个模型就是识别模型。很多情况下,参数可以由 个以上的不同函数来表达,这种参数称之为过度识别参数( overidentified pa ameter)。过度识别意味着观测变量的方差协方差矩阵S含有过量信息,这样 同一参数可以由多种形式来进行估计,正如同一参数可以从不同方程式求解。如 果模型正确,一个过度识别参数在总体中只有一个估计值。①当一个模型中的毎 个参数都是识别的且至少有一个参数是过度识别的,这个模型就是过度识别的。 当一个模型中的每个参数都是识别的且没有一个参数是过度识别的,这个模型就 是恰好识别的(just- identified)。当我们说一个模型是识别模型时,既包括恰好 了参见Boln,K.A.(1989) Structural Equatiors with Latent variables. New York wiley
识别模型,也包括过度识别模型。 个不能识别( unidentified, or under-identified, or not identified)的模型指 模型中至少有一个不能识别的参数。如果一个模型是不能识别的,所有参数都不 能估计。模型是否能够识别并不是样本规模的问题,不管样本有多大,一个不能 识别的模型仍然不能识别要想对一个模型进行估计,这个模型就必须是恰好识 别的或过度识别的模型。 LISREL模型的应用着重于过度识别的结构方程模型。在这种情况下,模型 中的自由参数数目少于观测变量中方差和协方差的总数,即数据点(data points)。换句话说,就是自由参数数目少于观测变量中方差和协方差的总数。过 度识别模型一般不能完全拟合数据,这样,检验这一模型是否拟合观测数据就成 为可能。数据点与自由参数的数目之差既是检验模型拟合所需的自由度(标志为 af)。相比之下,恰好识别模型总是完全拟合观测数据,其卡方检验值和自由度 永远为0,因为它的自由参数数目等于数据点数。因此,对于恰好识别模型是无 法检验其拟合优度的。 对于结构方程模型,并没有一套简单的充要条件来作为参数识别手段。然 而,有两个必要条件是应该时时加以查验的。 第一,数据点的数目不能少于自由参数的数目。数据点的数目就是观测变量 的方差和协方差的数目。它等于(p+q)(p+q+1)2,其中p是观测变量y 的数目,q是观测变量x的数目。这就是说,方差协方差矩阵S中只有对角线 上的方差和对角线外的一半协方差(或是上半部或是下半部)才算数。方差协方 差矩阵中的另一半协方差实际上对称于这一半,并没有提供新的信息。自由参数 的数目指待定的因子负载、通径系数、潜在变量和误差项的方差、潜在变量之间 与误差项之间的协方差的总数。要是数据点比自由参数多,这一模型即为过度识 别。如果数据点比自由参数少,这一模型就是不能识别的,其参数也无法估计。 因为,未知项多于已知项时,估计便不可能进行 第二,必须为模型中的每个潜在变量建立一个测量尺度( measurem scae)。为了建立这一尺度,首先,可以将潜在变量的方差设定为1。这就是说 将潜在变量标准化,使其有了标准化尺度。其次,也是较常用的方法,是将潜在 变量的观测标识中任何一个的因子负载λ设定为一常数,通常为1。如果这一潜 在变量的方差被设定为自由,且所有的λ也都被设定为自由,这些λ和这个潜 在变量的方差就不能识别。而且,其他一些与这一潜在变量相关的参数也不能识 别。更具体地说,对于一个潜在自变量()而言,其方差以及由这个潜在变量发射 出的所有通径的系数就都不能识别。对于一个潜在因变量(n)来说,其残差的方 346
差,指向这个潜在因变量和从其伸出的所有通径的系数都是不能识别的①。 这两个条件虽然是必要的,但不是充分的。即使这两个条件得到满足,还可 能发生模型识别问题。模型精确的识别可以从数学上论证,但LⅠSREL程序在参 数估计过程中可提供参数识别方面的检查。如果发现问题,该程序会向用户警示 个或多个参数有识别问题。借助这些信息,用户可以有效地对模型进行修正 以便排除该问题。 解决识别问题最好的办法是避免它的发生。通常,可以对潜在变量加上更多 的标识,因而有更多的数据点。然而,首要的预防策略是注重参数的设定。模型 识别实际上依赖于自由参数( free parameters)、固定参数( fixed parameters)和 限制参数( restricted parameters)的设定。自由参数是未知并需要估计的参数。 固定参数是不自由的并固定于设定值的参数。比如,在测量模型中,或者将每个 潜在变量标识的因子负载之一设定为1,或者将该潜在变量的方差设定为1;对 于结构方程来说,一些通径系数应该被设定为0,这意味着被设定为无影响作 用;限制参数是那些未知的、但被规定相等于另一个或另一些参数值的参数。比 如,要是以前的研究表明第一个年龄组或第二个年龄组对于一个因变量值有同样 的影响作用,就可以在初始结构方程模型中将代表这两个年龄组的虚拟变量 ( dummy variables)的通径系数设定为相等。通过固定或限制一些参数,自由参 数的数目就可以减少。要是多有几个参数被固定或被限制起来,其结果可能使 个原不能识别的模型成为一个识别模型。此外,循环的、或称之为非递归(non recursive)的结枃方程模型也常常是识别问题发生的另一个来源。当在模型中设 定变量之间有循环或双向关系,以至两个因变量之间存在反馈圈( feedback o∞ops)时,这一-结构模型就是非递归的。比如,一方面y影响y2;另一方面y2 影响y1。这样的模型一般是不能识别的,除非还存在另外的变量影响这两个循 环联系变量之中的一个(但不能同时影响两个),或存在另外的变量受这两个变 量之中的一个所影响(也不能同时受二者影响)。② 最后,我们还可以在一开始建立模型时就尽量削减自由参数,只保留那些绝 C如果某潜在变量所有的负载因子都被设定为自由,第8版的LⅠSRFL程序会自动在估 计过程中将潜在变量进行标准化,即将其均值设定为0,方差设定为 e p Hayduk, LA.(1987)Structural equation modelling with LISREL: Essentials and advances. Baltimore: The Johns Hopkins University Press Bentler, P. M. and C-P. Chou(1987)Practical issues in structural modeling. Sociologi cal Methods and Research, Vol. 16. No. 1: 78-117
对必要的参数,使模型简化。要是这个模型得到识别,再考虑在随后修改的模型 中加人其他感兴趣的参数。然后,通过比较这些替换模型进行最后的选择。 四、模型佔计 设定了模型,下一个工作便是根据观测变量的方差和协方差进行参数估 计。我们应该谨记,结构方程模型的估计过程完全不同于传统的统计方法。它不 是追求尽量缩小样本每一项记录的拟合值与观测值之间的差异,而是追求尽量缩 小样本的方差协方差值与模型估计的方差协方差值之间的差异。结构方程模型 中,不是每个案例(case)的因变量预测值与观测值之间的差异,而是观测的方 差协方差( observed variances/ covariances)与预测的方差协方差( predicted ariances/ covariances)之间的差别作为残差( residua)。结构方程模型的基本假设 是,观测变量的方差协方差矩阵是一套参数的函数。固定参数值和自由参数的估 计将被代入结构方程,然后推导出一个方差协方差矩阵Σ(称之为引申的( implied) 方差协方差矩阵),使矩阵Σ中的每…个元素都尽可能地接近于样本中观测变量 的方差协方差矩阵S中的相应元素。如果设定模型正确,E将非常近似于S、它 的估计过程采用特殊的拟合函数使∑与S之间的差异最小化。尽管在 LISREL 中有好几个拟合函数的估计程序可用,其中最常用的估计方法还是最大似然法 ( maximum likelihood,标志为ML)和广义最小乘法( generalized least squares,标 志为GLS)。 LISREL模型的最大似然法估计函数表示如下: MLF=(-1/2)n[tr(S2)+In 2|-InI!-(p+g) 其中,S是观察的方差协方差矩阵,E是模型估计的方差协方差矩阵,p是 内生标识的总数,q是外生标识的总数 最大似然估计有几个重要性质。第一,最大似然估计是无偏估计 ( unbaised),即用大样本估计总体参数时就平均水平而言既不会出现高估也不会 出现低估:第二,最大似然估计是一致性( consistent)的,即就概率而言当样本 规模扩大时其参数估计收敛于总体的真值。第三,最大似然估计是有效(ef cient)估计,即在大样本时其估计的方差最小。第四,当样本扩大时其参数佔计 的分布趋近于正态分布,即它是渐近正态分布( asymptotically normally distrib 的。第五、最大似然估计函数通常不受测量单位影响,即改变测量单位, 将一个变量的量度区间从0~10改为从10~100,不会影响模型的结果。最后