(4),.当0<<1时,表示两变量存在一定程度的线性相关。且越 接近1,两变量间线性关系越密切;|越接近于0,表示两变量的线性 相关越弱。 (5).一般可按三级划分:|0.4为低度线性相关;04≤<0.7为 显著性相关;0.7≤<1为高度线性相关。 根据表7-1的资料,可计算相关系数如表7-2 表7-2 相关系数计算表 序号告投入(万元)月均销售额(万元)x2 12.5 156.254494426500 15.3 23.9 23409571.2136567 23.2 538.24108241763.28 69696116281900.24 1122251806.251423.75 43.2 1183.361866.241486.08 1552.362401.001930.60 45.2 2043.042787.842386.56 55.4 3069.163528363290.76 63.5 3708.814032.253867.15 346.2 422.5 14304.5219687.8116679.09 10×1667909-3462×422.5 √0×1430452-3462√10×1968781-4252 =0.9942 相关系数为09942,说明广告投入费与月平均销售额之间有高度 的线性正相关关系 这里需要指出的是,相关系数有一个明显的缺点,即它接近于1 的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时, 相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n 较大时,相关系数的绝对值容易偏小。特别是当n2时,相关系数的 绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判 定变量x与y之间有密切的线性关系是不妥当的。例如,笔者曾就我国 深沪两股市资产负债率与每股收益之间的相关关系做过硏究。发现 1999年资产负债率前40名的上市公司,二者的相关系数为r=-0.6139
(4).当 0<|r|<1 时,表示两变量存在一定程度的线性相关。且|r|越 接近 1,两变量间线性关系越密切;|r|越接近于 0,表示两变量的线性 相关越弱。 (5).一般可按三级划分:|r|<0.4 为低度线性相关;0.4≤|r|<0.7 为 显著性相关;0.7≤|r|<1 为高度线性相关。 根据表 7–1 的资料,可计算相关系数如表 7–2: 表 7–2 相关系数计算表 序号 广告投入(万元) x 月均销售额(万元) y x 2 y 2 xy 1 2 3 4 5 6 7 8 9 10 12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5 156.25 234.09 538.24 696.96 1122.25 1183.36 1552.36 2043.04 3069.16 3708.81 449.44 571.21 1082.41 1162.81 1806.25 1866.24 2401.00 2787.84 3528.36 4032.25 265.00 365.67 763.28 900.24 1423.75 1486.08 1930.60 2386.56 3290.76 3867.15 合计 346.2 422.5 14304.52 19687.81 16679.09 0.9942 10 14304.52 346.2 10 19687.81 422.5 10 16679.09 346.2 422.5 ( ) ( ) 2 2 2 2 2 2 = − − − = − − − = n x x n y y n xy x y r 相关系数为 0.9942,说明广告投入费与月平均销售额之间有高度 的线性正相关关系。 这里需要指出的是,相关系数有一个明显的缺点,即它接近于 1 的程度与数据组数 n 相关,这容易给人一种假象。因为,当 n 较小时, 相关系数的波动较大,对有些样本相关系数的绝对值易接近于 1;当 n 较大时,相关系数的绝对值容易偏小。特别是当 n=2 时,相关系数的 绝对值总为 1。因此在样本容量 n 较小时,我们仅凭相关系数较大就判 定变量 x 与 y 之间有密切的线性关系是不妥当的。例如,笔者曾就我国 深沪两股市资产负债率与每股收益之间的相关关系做过研究。发现 1999年资产负债率前40名的上市公司,二者的相关系数为r = –0.6139;
资产负债率后20名的上市公司,二者的相关系数r=0.1072;而对于 沪、深全部上市公司(基金除外)结果却是,r=-0.5509,r深=-0.4361 根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大 小判断相关程度有一定的缺限 本书附表中有相关系数检验表,表中是相关系数绝对值的临界值 当计算出的变量x与y的相关系数绝对值大于表中临界值时,才可以判 定x与y有线性关系。通常,当大于表中a=5%相应的值,但小于表 中a=1%相应的值时,称x与y有显著的线性关系;当大于表中a=1% 相应的值时,称x与y有高度的线性关系;如果小于表中a=5%相应 的值时,就判定x与y没有明显的线性关系。这种检验方法通常称临界 值法,即比较与(a,m2)的关系。 在此例中m=10,表中a=5%(m-2=8)相应的值为0632,a=1%相应 的值为0.765,r=0.9947>0.765。因此,年广告费投入与月平均销售额 之间有高度的线性相关 7.1.3.相关分析中应注意的问题 1.相关系数不能解释两变量间的因果关系 相关系数只是表明两个变量间互相影响的程度和方向,它并不能 说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关 系数非常大时,也并不意味着两变量间具有显著的因果关系。例如 根据一些人的研究,发现抽烟与学习成绩有负相关关系,但不能由此 推断是抽烟导致了成绩差 因与果在很多情况下是可以互换的。如研究发现收入水平与股票 的持有额正相关,并且可以用收入水平作为解释股票持有额的因素, 但是否存在这样的情况,你赚的钱越多,买的股票也越多,而买的股 票越多,赚的钱也就越多,何为因?何为果?众所周知,经济增长与 人口增长相关,可是究竟是经济增长引起人口增长,还是人口增长引 起经济增长呢?不能从相关系数中得出结论 2.警惕虚假相关导致的错误结论 有时两变量之间并不存在相关关系,但却可能出现较高的相关系 如存在另一个共同影响两变量的因素。在时间序列资料中往往就 会出现这种情况,有人曾对教师薪金的提高和酒价的上涨作了相关分 析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒 的消费量增加,从而导致酒价上涨呢?经分析,事实是由于经济繁荣
资产负债率后 20 名的上市公司,二者的相关系数 r = 0.1072;而对于 沪、深全部上市公司(基金除外)结果却是,r 沪 = –0.5509,r 深 = –0.4361, 根据三级划分方法,两变量为显著性相关。这也说明仅凭 r 的计算值大 小判断相关程度有一定的缺限。 本书附表中有相关系数检验表,表中是相关系数绝对值的临界值。 当计算出的变量 x 与 y 的相关系数绝对值大于表中临界值时,才可以判 定 x 与 y 有线性关系。通常,当|r|大于表中α=5%相应的值,但小于表 中α=1%相应的值时,称 x 与 y 有显著的线性关系;当|r|大于表中α=1% 相应的值时,称 x 与 y 有高度的线性关系;如果|r|小于表中α=5%相应 的值时,就判定 x 与 y 没有明显的线性关系。这种检验方法通常称临界 值法,即比较|r|与 r(α,n–2)的关系。 在此例中 n=10,表中α=5%(n–2=8)相应的值为 0.632,α=1%相应 的值为 0.765,r=0.9947>0.765。因此,年广告费投入与月平均销售额 之间有高度的线性相关。 7.1.3. 相关分析中应注意的问题 1. 相关系数不能解释两变量间的因果关系 相关系数只是表明两个变量间互相影响的程度和方向,它并不能 说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关 系数非常大时,也并不意味着两变量间具有显著的因果关系。例如, 根据一些人的研究,发现抽烟与学习成绩有负相关关系,但不能由此 推断是抽烟导致了成绩差。 因与果在很多情况下是可以互换的。如研究发现收入水平与股票 的持有额正相关,并且可以用收入水平作为解释股票持有额的因素, 但是否存在这样的情况,你赚的钱越多,买的股票也越多,而买的股 票越多,赚的钱也就越多,何为因?何为果?众所周知,经济增长与 人口增长相关,可是究竟是经济增长引起人口增长,还是人口增长引 起经济增长呢?不能从相关系数中得出结论。 2. 警惕虚假相关导致的错误结论 有时两变量之间并不存在相关关系,但却可能出现较高的相关系 数。 如存在另一个共同影响两变量的因素。在时间序列资料中往往就 会出现这种情况,有人曾对教师薪金的提高和酒价的上涨作了相关分 析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒 的消费量增加,从而导致酒价上涨呢?经分析,事实是由于经济繁荣
导致教师薪金和酒价的上涨,而教师薪金增长和酒价之间并没有什么 直接关系 原因的混杂也可能导致错误的结论。如有人做过计算,发现在美 国经济学学位越高的人,收入越低,笼统地计算学位与收入之间的相 关系数会得到负值。但分别对大学、政府机构、企业各类别计算学位 与收入之间的相关系数得到的则是正值,即对同一行业而言,学位高, 收入也高。 另外,注意不要在相关关系据以成立的数据范围以外,推论这种 相关关系仍然保持。雨下的多,农作物长的好,在缺水地区,干旱季 节雨是一种福音,但雨量太大,却可能损坏庄稼。又如,广告投入多 销售额上涨,利润增加,但盲目加大广告投入,却未必使销售额再增 长,利润还可能减少。正相关达到某个极限,就可能变成负相关。这 个道理似乎人人都明白,但在分析问题时却容易忽视 72一元线性回归分析 7.21.什么是回归分析 “回归”一词是由英国生物学家 F Galton在研究人体身高的遗传 问题时首先提出的。根据遗传学的观点,子辈的身高受父辈影响,以X 记父辈身高,Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身 高的父亲,其子身高并不一致,因此,X和Y之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传 下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将 身高拉向中心,即子辈的身高有向中心回归的特点。“回归”一词即源 于此。虽然这种向中心回归的现象只是特定领域里的结论,并不具有 普遍性,但从它所描述的关于X为自变量,Y为不确定的因变量这种 变量间的关系看,和我们现在的回归含义是相同的。不过,现代回归 分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用 于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也 发挥着重要的作用 回归分析通过一个变量或一些变量的变化解释另一变量的变化。 其主要内容和步骤是,首先根据理论和对问题的分析判断,将变量分 为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型) 描述变量间的关系;由于涉及到的变量具有不确定性,接着还要对回
导致教师薪金和酒价的上涨,而教师薪金增长和酒价之间并没有什么 直接关系。 原因的混杂也可能导致错误的结论。如有人做过计算,发现在美 国经济学学位越高的人,收入越低,笼统地计算学位与收入之间的相 关系数会得到负值。但分别对大学、政府机构、企业各类别计算学位 与收入之间的相关系数得到的则是正值,即对同一行业而言,学位高, 收入也高。 另外,注意不要在相关关系据以成立的数据范围以外,推论这种 相关关系仍然保持。雨下的多,农作物长的好,在缺水地区,干旱季 节雨是一种福音,但雨量太大,却可能损坏庄稼。又如,广告投入多, 销售额上涨,利润增加,但盲目加大广告投入,却未必使销售额再增 长,利润还可能减少。正相关达到某个极限,就可能变成负相关。这 个道理似乎人人都明白,但在分析问题时却容易忽视。 7.2 一元线性回归分析 7.2.1. 什么是回归分析 “回归”一词是由英国生物学家 F.Galton 在研究人体身高的遗传 问题时首先提出的。根据遗传学的观点,子辈的身高受父辈影响,以 X 记父辈身高,Y 记子辈身高。虽然子辈身高一般受父辈影响,但同样身 高的父亲,其子身高并不一致,因此,X 和 Y 之间存在一种相关关系。 一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传 下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将 身高拉向中心,即子辈的身高有向中心回归的特点。“回归”一词即源 于此。虽然这种向中心回归的现象只是特定领域里的结论,并不具有 普遍性,但从它所描述的关于 X 为自变量,Y 为不确定的因变量这种 变量间的关系看,和我们现在的回归含义是相同的。不过,现代回归 分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用 于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也 发挥着重要的作用。 回归分析通过一个变量或一些变量的变化解释另一变量的变化。 其主要内容和步骤是,首先根据理论和对问题的分析判断,将变量分 为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型) 描述变量间的关系;由于涉及到的变量具有不确定性,接着还要对回
归模型进行统计检验:统计检验通过后,最后是利用回归模型,根据 自变量去估计、预测因变量。 归有不同种类,按照自变量的个数分,有一元回归和多元回归。 只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回 归:按照回归曲线的形态分,有线性(直线)回归和非线性(曲线) 回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选 取回归分析的方法。本节仅讨论一元线性回归分析 722.相关与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深 入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具 体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的 相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相 关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方 向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回 归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推 断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另 个变量的变化情况,因此,在具体应用过程中,只有把相关分析和 回归分析结合起来,才能达到研究和分析的目的。 二者的区别主要体现在以下三个方面: (1).在相关分析中涉及的变量不存在自变量和因变量的划分问题 变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的 性质和研究分析的目的,对变量进行自变量和因变量的划分。因此, 在回归分析中,变量之间的关系是不对等的 (20.在相关分析中所有的变量都必须是随机变量:而在回归分析 中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入 回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出 定的随机波动性 3).相关分析主要是通过一个指标即相关系数来反映变量之间相 关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。 而在回归分析中,对于互为因果的两个变量(如人的身高与体重,商品 的价格与需求量),则有可能存在多个回归方程 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的 内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过 相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及 其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无
归模型进行统计检验;统计检验通过后,最后是利用回归模型,根据 自变量去估计、预测因变量。 回归有不同种类,按照自变量的个数分,有一元回归和多元回归。 只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回 归;按照回归曲线的形态分,有线性(直线)回归和非线性(曲线) 回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选 取回归分析的方法。本节仅讨论一元线性回归分析。 7.2.2. 相关与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深 入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具 体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的 相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相 关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方 向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回 归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推 断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另 一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和 回归分析结合起来,才能达到研究和分析的目的。 二者的区别主要体现在以下三个方面: (1).在相关分析中涉及的变量不存在自变量和因变量的划分问题, 变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的 性质和研究分析的目的,对变量进行自变量和因变量的划分。因此, 在回归分析中,变量之间的关系是不对等的。 (20.在相关分析中所有的变量都必须是随机变量;而在回归分析 中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入 回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出 一定的随机波动性。 (3).相关分析主要是通过一个指标即相关系数来反映变量之间相 关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。 而在回归分析中,对于互为因果的两个变量 (如人的身高与体重,商品 的价格与需求量),则有可能存在多个回归方程。 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的 内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过 相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及 其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无
法判断变量之间的因果关系。因此,在具体应用过程中,一定要始终 注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展 开定量分析 72.3.一元线性回归( Simple Linear regression)模型 对于具有线性相关关系的两个变量,由于有随机因素的干扰,两 变量的线性关系中应包括随机误差项E,即有: y=a+bx+a 对于x某一确定的值,其对应的y值虽有波动,但随机误差的期望 值为零,即E(E)=0,因而从平均意义上说(记E(y)为y),总体线性 回归方程为: y=E()=a+ bx 我们可通过样本观察值计算a、b,用它对(6-2)式中的参数a、B 作出估计,即求样本回归方程,用它对总体线性回归方程进行估计 样本回归直线方程又称一元线性回归方程,其表达形式为: 式中:yε表示因变量的估计值(回归理论值);a,b是待定参数,其中 a是回归直线的起始值(截距),即x为0时y的值,从数学意义上理 解,它表示在没有自变量x的影响时,其它各种因素对因变量y的平均 影响:b是回归系数(直线的斜率),表示自变量x每变动一个单位时 因变量y平均变动b个单位 元线性回归方程中的待定参数是根据数据资料求出的。其计算 公式为:(由于本书旨在介绍该种方法在统计中的应用,故数学推导过 程略)。 (7-3) 当a、b求出后,一元线性回归方程υ=a+bx便可确定了 例7-2江海电器有限公司2001年1-10月份产量与制造费用资 料见表7-3 解:分析制造费用对产量之间的数量关系。设回归方程为y=a+bx 为产量,y为制造费用,计算如下表7-3
法判断变量之间的因果关系。因此,在具体应用过程中,一定要始终 注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展 开定量分析。 7.2.3. 一元线性回归(Simple Linear Regression)模型 对于具有线性相关关系的两个变量,由于有随机因素的干扰,两 变量的线性关系中应包括随机误差项 ,即有: y = a + bx + 对于 x 某一确定的值,其对应的 y 值虽有波动,但随机误差的期望 值为零,即 E ( ) = 0,因而从平均意义上说(记 E (y)为 y),总体线性 回归方程为: y = E(y) = a + bx 我们可通过样本观察值计算 a、b,用它对(6–2)式中的参数α、β 作出估计,即求样本回归方程,用它对总体线性回归方程进行估计。 样本回归直线方程又称一元线性回归方程,其表达形式为: yc = a + bx (7–2) 式中: yc 表示因变量的估计值(回归理论值);a,b 是待定参数,其中 a 是回归直线的起始值(截距),即 x 为 0 时 yc 的值,从数学意义上理 解,它表示在没有自变量 x 的影响时,其它各种因素对因变量 y 的平均 影响;b 是回归系数(直线的斜率),表示自变量 x 每变动一个单位时, 因变量 y 平均变动 b 个单位。 一元线性回归方程中的待定参数是根据数据资料求出的。其计算 公式为:(由于本书旨在介绍该种方法在统计中的应用,故数学推导过 程略)。 2 2 n x ( x) n xy x y b − − = a = y − bx 当 a、b 求出后,一元线性回归方程 yc = a + bx 便可确定了。 例 7–2 江海电器有限公司 2001年 1-10 月份产量与制造费用资 料见表 7–3。 解:分析制造费用对产量之间的数量关系。设回归方程为 y= a+bx, x 为产量,y 为制造费用,计算如下表 7–3。 (7–3)