第10章相关与回归分析 学习目标 1、了解相关关系的概念及种类: 2、掌握相关系数的计算方法和相关系数的取值含义: 3、掌握一元线性回归直线方程的建立方法、回归方程的显著性检验和回归预测的方法: 4、了解多元线性回归直线方程的建立方法。 基本概念 函数关系相关关系相关表相关图相关系数最小二乘法一元线性回归多 元线性回归 10.1相关分析概述 10.1.1函数关系与相关关系 客观世界中的许多现象都存在者有机的联系,而且这些联系可以通过一定的数最关系反 映出来。例如,家庭收入与消费之间的关系、产品产量与单位成本之间的关系、广告费与商 品销售额之间的关系等等。这些变量之间就其关系的变化来说, 一般可分为两大类型:一是 函数关系,二是相关关系。 1.函数关系 当一个或几个变量取一定的值时,另一个变量有确定的值与之相对应,我们称这种关系 为确定性的承函数关系。例如,某种产品的总成木S与该产品的产量以及该产品的单位成木日 之间的关系可用SP9表达,这就是一种函数关系。通常把作为影响因素的变量称为自变量 把 生相应变 的量称为因变量。在本例中,S是因变量,P与Q则是自变量 2.相关关系 一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定 但它仍按某种规律在一定的范围内变化,变量间的这种相互关系,称为具有不确定性的相关 关系。例如,商品销售额与商品流通费之间的关系。一般说米,商品销售额增加,商品流通 费便要相应增加: 反 ,就要相应减少。但是商 销售额与商品流通费 之间不存在 的确定性关系。因为商品流通费的支付不仅与商品销售数量有关,而且与商品性质、运价、 运输里程、运输方式、广告宣传、经营管理等诸多因素有关。在商品销售额相同的情况下各 企业支付的流通费用有高有低。 10.1.2相关关系的种类 现象之间的相互关系是很复杂的,它们以不同的方向、不同的程度相互作用,表现为各 种形态,我们可以按不同的标准加以划分。 1.按相关关系涉及的变量(因素)多少来划分,可分为单相关和复相关 单相关是指一个自变量与一个因变量的依存关系。复相关是指一个因变量与两个或两个 以上自变量之间的依存关系。例如,某种商品的需求量与其价格水平之间呈单相关:而某种 商品的需求最与其价格水平 职工 收入 其他同类商品的价格之间呈复相关 2.按相关关系的表现形态来划分,可分为线性相关和非线性相关
1 第 10 章 相关与回归分析 学习目标 1、了解相关关系的概念及种类; 2、掌握相关系数的计算方法和相关系数的取值含义; 3、掌握一元线性回归直线方程的建立方法、回归方程的显著性检验和回归预测的方法; 4、了解多元线性回归直线方程的建立方法。 基本概念 函数关系 相关关系 相关表 相关图 相关系数 最小二乘法 一元线性回归 多 元线性回归 10.1 相关分析概述 10.1.1 函数关系与相关关系 客观世界中的许多现象都存在着有机的联系, 而且这些联系可以通过一定的数量关系反 映出来。例如,家庭收入与消费之间的关系、产品产量与单位成本之间的关系、广告费与商 品销售额之间的关系等等。这些变量之间就其关系的变化来说,一般可分为两大类型:一是 函数关系,二是相关关系。 1.函数关系 当一个或几个变量取一定的值时,另一个变量有确定的值与之相对应,我们称这种关系 为确定性的函数关系。例如,某种产品的总成本 S 与该产品的产量以及该产品的单位成本 P 之间的关系可用 S=PQ 表达,这就是一种函数关系。 通常把作为影响因素的变量称为自变量, 把发生相应变化的量称为因变量。在本例中,S 是因变量,P 与 Q 则是自变量。 2.相关关系 当一个或几个相互联系的变量取一定数值时,与之相对应的另一变量的值虽然不确定, 但它仍按某种规律在一定的范围内变化, 变量间的这种相互关系, 称为具有不确定性的相关 关系。例如,商品销售额与商品流通费之间的关系。一般说来,商品销售额增加,商品流通 费便要相应增加;反之,就要相应减少。但是商品销售额与商品流通费之间不存在一一对应 的确定性关系。因为商品流通费的支付不仅与商品销售数量有关,而且与商品性质、运价、 运输里程、运输方式、广告宣传、经营管理等诸多因素有关。在商品销售额相同的情况下各 企业支付的流通费用有高有低。 10.1.2 相关关系的种类 现象之间的相互关系是很复杂的,它们以不同的方向、不同的程度相互作用,表现为各 种形态,我们可以按不同的标准加以划分。 1.按相关关系涉及的变量(因素)多少来划分,可分为单相关和复相关 单相关是指一个自变量与一个因变量的依存关系。 复相关是指一个因变量与两个或两个 以上自变量之间的依存关系。例如,某种商品的需求量与其价格水平之间呈单相关;而某种 商品的需求量与其价格水平、职工收入水平、其他同类商品的价格之间呈复相关。 2.按相关关系的表现形态来划分,可分为线性相关和非线性相关
当自变量数值发生变动,.因变量数值随若发生大致均等的变动(增加或减少),从图形上 看,其观察点的分布近似地表现为一条直线形式,称为线性相关。当自变量数值发生变动, 变量数 着也发生变动,但不是均等的变动,从图形上看,其观察点的分布近似地表现 为各种不同的曲线形式,如抛物线、双曲线等,称为非线性相关。 3按变量之间相互关系的方向,分为正相关和负相关 当自变量的数值增加,因变量的数值也随之相应的增加,即相关的变量同一方向变化, 称为正相关。例如施肥量增加,亩产量也增加,企业固定资产价值增加,产品产量也随之增 加等,这种关系就是正相关。自变量数值增加时,因变量数值随之减少,即相关的变量反方 向变化,称为负相关。例如劳动生产率提高,单位产品的消耗时间就会随之减少等,这种关 系就是负相关。 4按变量之间相关的程度划分,可分为完全相关、不相关(也称零相关)和不完全相关 因变量数值完全随自变量数值变动而变动,这时相关关系实际上就转化为函数关系,利 为完全相关。变量之间的变动完全不存在任何依存关系时,称为不相关。变量之间关系介于 完全相关 不完全相关之间,称为不完全相关。一般的相关现象都是指这种不完全相关,这 是相关分析的主要内容。 10.1.3相关分析的主要内容 限低现象州视李美系切程度的厨究相去分析。麦量的相张性想高,有的相关号 分析我们可以得到现象间相互关系的密切程度和变化规律。 相关分析的主要内容有: 1.确定现象之间有无相关关系及相关关系的表现形式。主要通过定性分析判断和相关 图、相关表观察得出结论。这是相关分析的出发点。 2.确定相关关系的表现形式。若存在相关关系,就需进一步确定相互关系的表现形式 例如,是线性相关还是非线性相关,这时相关分析的主要内容 3确定相关关系的密切程度和方向。通过相关分析 可以判定现象之间相关关系的密 切程度和方向。例如,变量之间是完全相关、不完全相关还是完全不相关。 相关分析的内容很多,本章仅介绍直线相关的最主要、最基本内容。 10.2相关关系的测定 要进行相关分析首先要判断现象之间有没有相关关系和具有什么样的相关关系。我们 般是先对现象之间的关系作直观判断,然后再进行相应的定量分析。直观判断的方法主要有 两种:一是运用理论知识、专业知识及实际经验对现象之间存在的关系作定性的判断:二是 利用相关表和相关图对现象之间存在的相关关系的方向、形式及紧密程度作出大致判断。定 量分析则主要是计算相关系数 10.2.1客观现象之间的定性分析 根据一定的社会经济理论与实践经验的总结,对社会经济现象进行定性分析,以判断它 们之间是否具有相关关系以及相关关系的种类。只有在定性分析的基础上,才能从数量上测 定现象之间的相关关系。这是判断相关关系的一种重要的方法,也是相关分析的重要的前提, 10.2.2利用相关图表进行判断 判断现象之间的相关关系,一般是先做定性分析,然后再做定量分折。如果定性分析确 有相关关系.进一步编制相关图与相关表、可以判断现象之间大致呈现何种关系形式,以此 2
2 当自变量数值发生变动,因变量数值随着发生大致均等的变动(增加或减少),从图形上 看,其观察点的分布近似地表现为一条直线形式,称为线性相关。当自变量数值发生变动, 因变量数值随着也发生变动,但不是均等的变动,从图形上看,其观察点的分布近似地表现 为各种不同的曲线形式,如抛物线、双曲线等,称为非线性相关。 3.按变量之间相互关系的方向,分为正相关和负相关 当自变量的数值增加,因变量的数值也随之相应的增加,即相关的变量同一方向变化, 称为正相关。例如施肥量增加,亩产量也增加,企业固定资产价值增加,产品产量也随之增 加等,这种关系就是正相关。自变量数值增加时,因变量数值随之减少,即相关的变量反方 向变化,称为负相关。例如劳动生产率提高,单位产品的消耗时间就会随之减少等,这种关 系就是负相关。 4.按变量之间相关的程度划分,可分为完全相关、不相关(也称零相关)和不完全相关 因变量数值完全随自变量数值变动而变动,这时相关关系实际上就转化为函数关系, 称 为完全相关。变量之间的变动完全不存在任何依存关系时,称为不相关。变量之间关系介于 完全相关与不完全相关之间,称为不完全相关。一般的相关现象都是指这种不完全相关,这 是相关分析的主要内容。 10.1.3 相关分析的主要内容 对现象间相关关系密切程度的研究,叫相关分析。变量间有的相关性很高,有的相关性 很低,通过相关分析我们可以得到现象间相互关系的密切程度和变化规律。 相关分析的主要内容有: 1.确定现象之间有无相关关系及相关关系的表现形式。主要通过定性分析判断和相关 图、相关表观察得出结论。这是相关分析的出发点。 2.确定相关关系的表现形式。若存在相关关系,就需进一步确定相互关系的表现形式。 例如,是线性相关还是非线性相关,这时相关分析的主要内容。 3.确定相关关系的密切程度和方向。通过相关分析,可以判定现象之间相关关系的密 切程度和方向。例如,变量之间是完全相关、不完全相关还是完全不相关。 相关分析的内容很多,本章仅介绍直线相关的最主要、最基本内容。 10.2 相关关系的测定 要进行相关分析首先要判断现象之间有没有相关关系和具有什么样的相关关系。 我们一 般是先对现象之间的关系作直观判断,然后再进行相应的定量分析。直观判断的方法主要有 两种:一是运用理论知识、专业知识及实际经验对现象之间存在的关系作定性的判断;二是 利用相关表和相关图对现象之间存在的相关关系的方向、形式及紧密程度作出大致判断。定 量分析则主要是计算相关系数。 10.2.1 客观现象之间的定性分析 根据一定的社会经济理论与实践经验的总结,对社会经济现象进行定性分析,以判断它 们之间是否具有相关关系以及相关关系的种类。只有在定性分析的基础上, 才能从数量上测 定现象之间的相关关系。 这是判断相关关系的一种重要的方法, 也是相关分析的重要的前提。 10.2.2 利用相关图表进行判断 判断现象之间的相关关系,一般是先做定性分析,然后再做定量分折。如果定性分析确 有相关关系.进一步编制相关图与相关表、可以判断现象之间大致呈现何种关系形式,以此
计算相关系数作定量分析,精确反映相关关系的方向和程度。 1.绵制相关表 将反映变量之间相互关系的原始资料按照一定的顺序叫做相关表。相关表按其资料是否 分组可分为简单相关表和分组相关表 (1)简单相关表 变量均不分组,将自变量的变量值按大小顺序排列,因变量的变量值与自变量一一对应 排列而形成的统计表,即为简单相关表,如表10一1所示。 表10-1某种商品需求量和价格的相关表 价格X/元 345567789 需求量Y/斤 110100901008075655060 从表中,可以直观看出,随着商品价格的提高,需求最有降低的趋势,两者之间存在 定的相关关系 (②)分组相关表 分组相关表是把简单相关表中的资料进行分组后而编制的相关表。分组相关表按分组的 情况不同可分为单变量分组相关表与双变量分组相关表。 单变量分组相关表是在具有相关关系的两个变量中,只对自变量进行分组的相关表,如 表10-2所示。 双变量分组相关表就是对自变量和因变量都进行分组的相关表,如表10一3所示。 表10-2某企业广告费与销售额单变量分组相关表 企业广告费X(万元) 企业销售额Y(万元) 10以下 190 10-15 265 15-20 340 2025 470 25-30 510 表10-3化肥施用量与粮食亩产量双变量分组相关表 按亩产分组 按化肥施用量分组 田块合计 20 30 40 400-450 350-400 3 300-350 2 4 250300 1 1 1 田块合计 1 7 7 15 2.绘制相关图 相关图也叫散点图,它是利用直角坐标系,将自变量确定在横铀,因变量确定在纵轴上, 两变量的对应值用坐标点画出来。通过观察相关点的分布情况来判断两个变量之间有无相关 关系以及相关关系的密切程度、方向和形式。图10一1是根据表10一1数据绘制的相关图 3
3 计算相关系数作定量分析,精确反映相关关系的方向和程度。 1.编制相关表 将反映变量之间相互关系的原始资料按照一定的顺序叫做相关表。 相关表按其资料是否 分组可分为简单相关表和分组相关表。 (1) 简单相关表 变量均不分组,将自变量的变量值按大小顺序排列, 因变量的变量值与自变量一一对应 排列而形成的统计表,即为简单相关表,如表 10-1 所示。 表 10-1 某种商品需求量和价格的相关表 价格 X /元 3 4 5 5 6 7 7 8 9 需求量Y /斤 110 100 90 100 80 75 65 50 60 从表中,可以直观看出,随着商品价格的提高,需求量有降低的趋势,两者之间存在一 定的相关关系。 (2)分组相关表 分组相关表是把简单相关表中的资料进行分组后而编制的相关表。 分组相关表按分组的 情况不同可分为单变量分组相关表与双变量分组相关表。 单变量分组相关表是在具有相关关系的两个变量中, 只对自变量进行分组的相关表, 如 表 10-2 所示。 双变量分组相关表就是对自变量和因变量都进行分组的相关表,如表 10-3 所示。 表 10-2 某企业广告费与销售额单变量分组相关表 企业广告费 X (万元) 企业销售额 Y (万元) 10 以下 190 10~15 265 15~20 340 20~25 470 25~30 510 表 10-3 化肥施用量与粮食亩产量双变量分组相关表 按亩产分组 按化肥施用量分组 20 30 40 田块合计 400~450 — 1 4 5 350~400 — 3 — 3 300~350 — 2 2 4 250~300 1 1 1 3 田块合计 1 7 7 15 2.绘制相关图 相关图也叫散点图, 它是利用直角坐标系, 将自变量确定在横铀, 因变量确定在纵轴上, 两变量的对应值用坐标点画出来。 通过观察相关点的分布情况来判断两个变量之间有无相关 关系以及相关关系的密切程度、方向和形式。图 10-1 是根据表 10-1 数据绘制的相关图
110.000 10.00 0 90.00 80.00 0 70.00- 60.00 0 50.00- 0 300400500600 70080900 图10-1某种商品需求量和价格的相关图 3.相关系断的计算 相关图表只能粗略地大体上反映变量间相关关系的方向、形式和密切程度,要确切地反 映相关关系的密切程度,还需计算相关系数。 在各种相关中,单相关是基本的相关关系,它是复相关的基础。单相关有线性和非线性 相关两种表现形式。测定线性相关系数的方法是最基本的相关分析,是测定其他相关系数方 法的基础。我们若重研究线性的单相关系数即直线相关系数,简称相关系数。 )相关系数的计算 相关系数的测定方法有若干种,最简单的一种称为积差法,用积差法计算相关系数的公 式为: r= n∑gy-∑x∑y (10-1) 2r-∑球-∑列
4 3.00 4.00 5.00 6.00 7.00 8.00 9.00 x 50.00 60.00 70.00 80.00 90.00 100.00 110.00 y 图 10-1 某种商品需求量和价格的相关图 3.相关系数的计算 相关图表只能粗略地大体上反映变量间相关关系的方向、形式和密切程度,要确切地反 映相关关系的密切程度,还需计算相关系数。 在各种相关中,单相关是基本的相关关系,它是复相关的基础。单相关有线性和非线性 相关两种表现形式。测定线性相关系数的方法是最基本的相关分析,是测定其他相关系数方 法的基础。我们着重研究线性的单相关系数即直线相关系数,简称相关系数。 (1) 相关系数的计算 相关系数的测定方法有若干种, 最简单的一种称为积差法,用积差法计算相关系数的公 式为: 2 x y x y r s s s = 2 2 2 2 ( ) ( ) n xy x y n x x n y y - = - - Â Â Â Â Â Â Â (10-1)
可-立 00 其中,O,=∑(x-xy-),称为灯的协方差: 0=√:∑(x-,是变量x的标准差: 0,=∑0-可,是变量y的标准差· 因此,相关系数可表现为如下形式: ∑(x-xy-) r=- ∑x-)'0y-) (10-2) (2)相关系数的取值范围和意义 通过数理证明,我们可以得到,相关系数的取值范围在一1和+1之间,即 -1≤r≤1。 当r=0时,表明x与y之间无线性相关关系。即x与y之间不相关或曲线相关。 变量x与y为完全线性相关,当r=1时,称为完全正相关:当r=-1 时,称为完全负相关 当0<r<1时,表示两变量之间呈正相关,即随若自变量x的增加(或减少),因 变量y也相应增加(或减少)。随若r取值的增大,其相关程度也相应地增强。 当-1<r<0时,表明两变量之间呈负相关,即随若自变量x地增加(或减少),因变 量y相应减少(或增加)。相关系数r越接近于一1,即两变最地负相关程度越高。 通常判断标准是:川s0.3称为微弱直线相关,0.3<s0.5称为低度直线相关 0.5<r≤0.8称为显著相关或中度相关,>0.8称为高度相关。 [例10-1]已知某种商品需求量和价格的数据,见表10-1,根据表中的资料,计算该商 品需求量和价格的相关系数 解:按相关系数公式计算 r ∑(x-xy-) ∑(x-)y-列 将表中数据代入公式 (x-6Mv-81.1) r=- =-0.948 ∑x-6∑0-81.F 由于r<0,且r=0.948,则说明该种商品的需求量和该种商品的价格是高度负相关 的 10.3回归分析 5
5 x y xy x y s s - = 其中, 1 ( )( ) xy n s = Â x - x y - y ,称为 xy 的协方差 ; 1 2 ( ) x n s = Â x - x , 是变量 x 的标准差 ; 1 2 ( ) y n s = Â y - y , 是变量 y 的标准差 。 因此,相关系数可表现为如下形式: 2 2 ( )( ) ( ) ( ) x x y y r x x y y - - = - - Â Â (10-2) (2)相关系数的取值范围和意义 通过数理证明,我们可以得到,相关系数的取值范围在-1 和+1 之间, 即 -1£ r £ 1 。 当 r = 0 时,表明 x 与 y 之间无线性相关关系。即 x 与 y 之间不相关或曲线相关。 当 r = ± 1 时,变量 x 与 y 为完全线性相关,当r = 1时,称为完全正相关;当r = - 1 时,称为完全负相关。 当0 < r <1 时,表示两变量之间呈正相关,即随着自变量 x 的增加(或减少),因 变量 y 也相应增加(或减少)。随着 r 取值的增大,其相关程度也相应地增强。 当 -1 < r < 0 时,表明两变量之间呈负相关,即随着自变量 x 地增加(或减少),因变 量 y 相应减少(或增加)。相关系数 r 越接近于-1,即两变量地负相关程度越高。 通常判断标准是: r £ 0.3 称为微弱直线相关, 0.3 < r £ 0.5 称为低度直线相关 0.5 < r £ 0.8称为显著相关或中度相关, r > 0.8 称为高度相关。 [例 10-1]已知某种商品需求量和价格的数据,见表 10-1,根据表中的资料,计算该商 品需求量和价格的相关系数。 解:按相关系数公式计算 2 2 ( )( ) ( ) ( ) x x y y r x x y y - - = - - Â Â 将表中数据代入公式: 2 2 ( 6)( 81.1) 0.948 ( 6) ( 81.1) x y r x y - - = = - - - Â Â Â 由于r < 0 ,且 r = 0.948 ,则说明该种商品的需求量和该种商品的价格是高度负相关 的。 10.3 回归分析