第十章:多元线性回归与曲线拟合一一 Regression菜单详解(上) (医学统计之星:张文彤) 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领 域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量 有关系,人的体表面积与身髙、体重有关系:等等。回归分析就是用于说明这种 依存变化的数学关系 §10.1 Linear过程 10.1.1简单操作入门 调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用 户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法 例10.1:请分析在数据集 Fat surfactant.sav中变量fat对变量 spoil的 大小有无影响? 显然,在这里 spool是连续性变量,而fat是分类变量,我们可用用单因素 方差分析来解决这个问题。但此处我们要采用和方差分析等价的分析方法一回归 分析来解决它。 回归分析和方差分析都可以被归入广义线性模型中,因此他们在模型的定 义、计算方法等许多方面都非常近似,下面大家很快就会看到。 这里 spov l是模型中的因变量,根据回归模型的要求,它必须是正态分布的 变量才可以,我们可以用直方图来大致看一下,可以看到基本服从正态,因此不 再检验其正态性,继续往下做。 10.1.1.1界面详解 在菜单中选择 Regression==》 liner,系统弹出线性回归对话框如下:
第十章:多元线性回归与曲线拟合―― Regression 菜单详解(上) (医学统计之星:张文彤) 回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领 域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量 有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种 依存变化的数学关系。 §10.1 Linear 过程 10.1.1 简单操作入门 调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用 户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法, 等)。 例 10.1:请分析在数据集 Fat surfactant.sav 中变量 fat 对变量 spovl 的 大小有无影响? 显然,在这里 spovl 是连续性变量,而 fat 是分类变量,我们可用用单因素 方差分析来解决这个问题。但此处我们要采用和方差分析等价的分析方法--回归 分析来解决它。 回归分析和方差分析都可以被归入广义线性模型中,因此他们在模型的定 义、计算方法等许多方面都非常近似,下面大家很快就会看到。 这里 spovl 是模型中的因变量,根据回归模型的要求,它必须是正态分布的 变量才可以,我们可以用直方图来大致看一下,可以看到基本服从正态,因此不 再检验其正态性,继续往下做。 10.1.1.1 界面详解 在菜单中选择 Regression==>liner,系统弹出线性回归对话框如下:
Linear Regression ofat [fat Dependent O surfactant (surf 参 flour [ flour Paste o spool Previous Block 1 of 1 Nex Reset Cancel depended{s」 Hel Method: Enter Selection variable Rule Case labels WLS》 Statistics Plots Save Options 除了大家熟悉的内容以外,里面还出现了一些特色菜,让我们来一一品尝 【 Dependent框】 用于选入回归分析的应变量。 【 Block按钮组】 由 Previous和Next两个按钮组成,用于将下面 Independent框中选入的自 变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法, 如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。下 面的例子会讲解其用法。 【 Independent框】 用于选入回归分析的自变量。 【 Method下拉列表】 用于选择对自变量的选入方法,有 Enter(强行进入法)、 Stepwise(逐步 法)、 Remove(强制剔除法)、 Backward(向后法)、 Forward(向前法)五种。 该选项对当前 Independent框中的所有变量均有效
除了大家熟悉的内容以外,里面还出现了一些特色菜,让我们来一一品尝。 【Dependent 框】 用于选入回归分析的应变量。 【Block 按钮组】 由 Previous 和 Next 两个按钮组成,用于将下面 Independent 框中选入的自 变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法, 如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。下 面的例子会讲解其用法。 【Independent 框】 用于选入回归分析的自变量。 【Method 下拉列表】 用于选择对自变量的选入方法,有 Enter(强行进入法)、Stepwise(逐步 法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。 该选项对当前 Independent 框中的所有变量均有效
【 Selection variable框】 选入一个筛选变量,并利用右侧的 Rules钮建立一个选择条件,这样,只有 满足该条件的记录才会进入回归分析。 【 Case labels框】 选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录 ID号的变量 【WLS>钮】 可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话 框,出现 WLS Weight框,在该框内选入权重变量即可。 【 Statistics钮】 弹出 Statistics对话框,用于选择所需要的描述统计量。有如下选项: Regression Coefficients复选框组:定义回归系数的输出情况,选中 Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回 归系数beta;选中 Confidence intervals则输出每个回归系数的95%可 信区间;选中 covariance matrix则会输出各个自变量的相关矩阵和方差、 协方差矩阵。以上选项默认只选中 Estim o Residuals复选框组:用于选择输出残差诊断的信息,可选的有 Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。 Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一 有关拟合优度的检验:,R,R2和调整的R2,标准误及方差分析表。 R squared change复选框:显示模型拟合过程中R2、F值和p值的改变 情况。 Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差 等,同时还给出一个自变量间的相关矩阵。 o Part and partial correlations复选框:显示自变量间的相关、部分相 关和偏相关系数 o Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量, 如特征根( Eigenvalues)、方差膨胀因子(VIF)等 以上各项在默认情况下只有 Estimates和 Model fit复选框被选中。 【Plot钮】 弹出Plot对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的 有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的 散点图等
【Selection Variable 框】 选入一个筛选变量,并利用右侧的 Rules 钮建立一个选择条件,这样,只有 满足该条件的记录才会进入回归分析。 【Case Labels 框】 选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录 ID 号的变量。 【WLS>>钮】 可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话 框,出现 WLS Weight 框,在该框内选入权重变量即可。 【Statistics 钮】 弹出 Statistics 对话框,用于选择所需要的描述统计量。有如下选项: o Regression Coefficients 复选框组:定义回归系数的输出情况,选中 Estimates 可输出回归系数 B 及其标准误,t 值和 p 值,还有标准化的回 归系数 beta;选中 Confidence intervals 则输出每个回归系数的 95%可 信区间;选中 covariance matrix 则会输出各个自变量的相关矩阵和方差、 协方差矩阵。以上选项默认只选中 Estimates。 o Residuals 复选框组:用于选择输出残差诊断的信息,可选的有 Durbin-Watson 残差序列相关性检验、超出规定的 n 倍标准误的残差列表。 o Model fit 复选框:模型拟合过程中进入、退出的变量的列表,以及一些 有关拟合优度的检验:,R,R2 和调整的 R2, 标准误及方差分析表。 o R squared change 复选框:显示模型拟合过程中 R2、F 值和 p 值的改变 情况。 o Descriptives 复选框:提供一些变量描述,如有效例数、均数、标准差 等,同时还给出一个自变量间的相关矩阵。 o Part and partial correlations 复选框:显示自变量间的相关、部分相 关和偏相关系数。 o Collinearity diagnostics 复选框:给出一些用于共线性诊断的统计量, 如特征根(Eigenvalues)、方差膨胀因子(VIF)等。 以上各项在默认情况下只有 Estimates 和 Model fit 复选框被选中。 【Plot 钮】 弹出 Plot 对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的 有标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的 散点图等
【Save钮】 许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值 等做进一步的分析,Save钮就是用来存储中间结果的。可以存储的有:预测值 系列、残差系列、距离( Distances)系列、预测值可信区间系列、波动统计量 系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文件 或ML中。 【 Options钮】 设置回归分析的一些选项,有: A, Stepping Method Criteria单选钮组:设置纳入和排除标准,可按 值或F值来设置 o Include constant in equation复选框:用于决定是否在模型中包 括常数项,默认选中。 Missing values单选钮组:用于选择对缺失值的处理方式,可以是 不分析任一选入的变量有缺失值的记录( Exclude cases listwise)而无 论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记 录( Exclude cases pairwise);将缺失值用该变量的均数代替( Replace with mean)。 10.1.1.2输出结果解释 根据题目的要求,我们只需要在 Dependent框中选入 spov l, Independent 框中选入fat即可,其他的选项一律不管。单击0K后,系统很快给出如下结果: egression Variables Entered Removed Model Entered Removed Method a All requested variables entered b 这里的表格是拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一 个自变量,所以只出现了一个模型1(在多元回归中就会依次出现多个回归模 型),该模型中fat为进入的变量,没有移出的变量,具体的进入/退出方法为 enter
【Save 钮】 许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值 等做进一步的分析,Save 钮就是用来存储中间结果的。可以存储的有:预测值 系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量 系列。下方的按钮可以让我们选择将这些新变量存储到一个新的 SPSS 数据文件 或 XML 中。 【Options 钮】 设置回归分析的一些选项,有: o Stepping Method Criteria 单选钮组:设置纳入和排除标准,可按 P 值或 F 值来设置。 o Include constant in equation 复选框:用于决定是否在模型中包 括常数项,默认选中。 o Missing Values 单选钮组:用于选择对缺失值的处理方式,可以是 不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无 论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记 录(Exclude cases pairwise);将缺失值用该变量的均数代替(Replace with mean)。 10.1.1.2 输出结果解释 根据题目的要求,我们只需要在 Dependent 框中选入 spovl,Independent 框中选入 fat 即可,其他的选项一律不管。单击 OK 后,系统很快给出如下结果: Regression 这里的表格是拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一 个自变量,所以只出现了一个模型 1(在多元回归中就会依次出现多个回归模 型),该模型中 fat 为进入的变量,没有移出的变量,具体的进入/退出方法为 enter
Model Summary Adjusted Std Error of Model R Square R Square the Estimate a. Predictors: (Constant), fat 上表为所拟合模型的情况简报,显示在模型1中相关系数R为0.578,而决定系 数R2为0.334,校正的决定系数为0.307。 ANOV阳b Sum of Model Regression 8.306 8.30612.059 002 Residual 16530 689 a Predictors: (Constant), fat b. Dependent Variable: SPVOL 这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!有兴趣的读 者可以自己用方差分析模型做一下,就会发现出了最左侧的一列名字不太一样 外,其他的各个参数值都是相同的。从上表可见所用的回归模型F值为12.059, P值为0.002,因此我们用的这个回归模型是有统计学意义的,可以继续看下面 系数分别检验的结果 匚③由于这里我们所用的回归模型只有一个自变量,因此模型的检验就等价与系 数的检验,在多元回归中这两者是不同的。 Coefficients Standardi ed Unstandardized efficien Coefficients ts Model 日 Std Error Beta Sig (Constant) 5097 11923 3.473 a Dependent variable: SPVOL 上表给出了包括常数项在内的所有系数的检验结果,用的是t检验,同时还会给 出标化/未标化系数。可见常数项和fat都是有统计学意义的,上表的内容如果 翻译成中文则如下所示 未标准化系数标准化系数
上表为所拟合模型的情况简报,显示在模型 1 中相关系数 R 为 0.578,而决定系 数 R 2为 0.334,校正的决定系数为 0.307。 这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!有兴趣的读 者可以自己用方差分析模型做一下,就会发现出了最左侧的一列名字不太一样 外,其他的各个参数值都是相同的。从上表可见所用的回归模型 F 值为 12.059, P 值为 0.002,因此我们用的这个回归模型是有统计学意义的,可以继续看下面 系数分别检验的结果。 由于这里我们所用的回归模型只有一个自变量,因此模型的检验就等价与系 数的检验,在多元回归中这两者是不同的。 上表给出了包括常数项在内的所有系数的检验结果,用的是 t 检验,同时还会给 出标化/未标化系数。可见常数项和 fat 都是有统计学意义的,上表的内容如果 翻译成中文则如下所示: 未标准化系数 标准化系数