第7章相关与回归分析 【学习目标】 本章主要介绍了相关分析和回归分析的基本理论。包括确定 相关关系的判别方法以及配合回归直线及曲线的条件,掌握建立回归 方程和相关回归分析需要注意的问题,达到学会预测的目的等 【基本要求】 通过本章的学习,使学习者理解相关分析和回归分析的概念,明 确相关关系的判别方法:定性判断和定量判断;掌握配合回归直线方 程的条件建立回归方程的方法,学会预测,为经济管理服务等。 【学习内容】 相关与回归( Correlation and Regression)是现代统计学中非常重 要的内容,相关与回归分析是处理变量数据之间相关关系的一种统计 方法。通过相关分析,可以判断两个或两个以上的变量之间是否存在 相关关系、相关关系的方向、形态及相关关系的密切程度;回归分析 是对具有相关关系现象间数量变化的规律性进行测定,确立一个回归 方程式,即经验公式,并对所建立的回归方程式的有效性进行分析 判断,以便进一步进行估计和预测。现在,相关与回归分析己经广泛 应用到企业管理、商业决策、金融分析以及自然科学和社会科学等许 多研究领域。 7.1相关分析 7.1.1.相关分析的概念、种类 1.相关分析的概念 现实世界中的各种现象之间相互联系、相互制约、相互依存,某 些现象发生变化时,另一现象也随之发生变化。如商品价格的变化会
第 7 章 相关与回归分析 【学习目标】 本章主要介绍了相关分析和回归分析的基本理论。包括确定 相关关系的判别方法以及配合回归直线及曲线的条件,掌握建立回归 方程和相关回归分析需要注意的问题,达到学会预测的目的等。 【基本要求】 通过本章的学习,使学习者理解相关分析和回归分析的概念,明 确相关关系的判别方法:定性判断和定量判断;掌握配合回归直线方 程的条件建立回归方程的方法,学会预测,为经济管理服务等。 【学习内容】 相关与回归(Correlation and Regression)是现代统计学中非常重 要的内容,相关与回归分析是处理变量数据之间相关关系的一种统计 方法。通过相关分析,可以判断两个或两个以上的变量之间是否存在 相关关系、相关关系的方向、形态及相关关系的密切程度;回归分析 是对具有相关关系现象间数量变化的规律性进行测定,确立一个回归 方程式,即经验公式,并对所建立的回归方程式的有效性进行分析、 判断,以便进一步进行估计和预测。现在,相关与回归分析已经广泛 应用到企业管理、商业决策、金融分析以及自然科学和社会科学等许 多研究领域。 7.1 相关分析 7.1.1. 相关分析的概念、种类 1. 相关分析的概念 现实世界中的各种现象之间相互联系、相互制约、相互依存,某 些现象发生变化时,另一现象也随之发生变化。如商品价格的变化会
刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益; 直接材料、直接人工的价格变化对产品销售成本有直接的影响,居民 收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的 依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数 据进行数据分析,为客观、科学地统计提供依据。 现象间的依存关系大致可以分成两种类型:一类是函数关系,另 类是相关关系 (1).函数关系。函数是指现象之间是一种严格的确定性的依存关 系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定 的值与之相对应。例如,银行的1年期存款利率为年息1.98%,存 入的本金用x表示,到期本息用y表示,则=x+1.98%x(不考虑利息 税);再如,某种股票的成交额Y与该股票的成交量X、成交价格P之 间的关系可以用Y=PX来表示,这都是函数关系。 (2).相关关系。相关关系是指客观现象之间确实存在的,但数量 上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数 值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润 的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的 这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜 好等因素以及其他偶然因素的影响;再如,生育率与人均GDP的关系 也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二 者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教 育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素 的共同影响。 具有相关关系的某些现象可表现为因果关系,即某一或若干现象 的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其 称为自变量:另一个现象的变化是自变量变化的结果,它是不确定的 值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者 为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费 用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包 括的范围更广泛。 相关关系和函数关系既有区别,又有联系。有些函数关系往往因 为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常 通过相关关系表现出来:而在研究相关关系时,其数量间的规律性了 解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数 关系来表现 2.相关关系类型
刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益; 直接材料、直接人工的价格变化对产品销售成本有直接的影响,居民 收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的 依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数 据进行数据分析,为客观、科学地统计提供依据。 现象间的依存关系大致可以分成两种类型: 一类是函数关系,另 一类是相关关系。 (1).函数关系。函数是指现象之间是一种严格的确定性的依存关 系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定 的值与之相对应。例如,银行的 1 年期存款利率为年息 1.98%,存 入的本金用 x 表示,到期本息用 y 表示,则 y=x+1.98%x(不考虑利息 税);再如,某种股票的成交额 Y 与该股票的成交量 X、成交价格 P 之 间的关系可以用 Y=PX 来表示,这都是函数关系。 (2).相关关系。相关关系是指客观现象之间确实存在的,但数量 上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数 值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润 的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的。 这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜 好等因素以及其他偶然因素的影响;再如,生育率与人均 GDP 的关系 也属于典型的相关关系:人均 GDP 高的国家,生育率往往较低,但二 者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教 育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素 的共同影响。 具有相关关系的某些现象可表现为因果关系,即某一或若干现象 的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其 称为自变量;另一个现象的变化是自变量变化的结果,它是不确定的 值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者 为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费 用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包 括的范围更广泛。 相关关系和函数关系既有区别,又有联系。有些函数关系往往因 为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常 通过相关关系表现出来;而在研究相关关系时,其数量间的规律性了 解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数 关系来表现。 2. 相关关系类型
现象之间的相关关系从不同的角度可以区分为不同类型。 (1)按照相关关系涉及变量(或因素)的多少分为 单相关——又称一元相关,是指两个变量之间的相关关系,如广 告费支出与产品销售量之间的相关关系 复相关—一又称多元相关,是指三个或三个以上变量之间的相关 关系,如商品销售额与居民收入、商品价格之间的相关关系 偏相关一一在一个变量与两个或两个以上的变量相关的条件下, 当假定其他变量不变时,其中两个变量的相关关系称为。例如,在假 定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关 关系即为偏相关 (2).按照相关形式不同分为 线性相关—一又称直线相关,是指当一个变量变动时,另一变量 随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现 为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系 非线性相关 个变量变动时,另一变量也随之发生变动,但 这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一 条曲线,如抛物线、指数曲线等,因此也称曲线相关。例如,工人加 班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反 而可能下降,这就是一种非线性关系。 (3).按照相关现象变化的方向不同分为 正相关——当一个变量的值增加或减少,另一个变量的值也随之 增加或减少。如工人劳动生产率提高,产品产量也随之增加:居民的 消费水平随个人所支配收入的增加而增加。 负相关—一当一个变量的值增加或减少时,另一变量的值反而减 少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本 的降低而增加 4).按相关程度分为 完全相关——当一个变量的数量完全由另一个变量的数量变化所 确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售 额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成 为函数关系,因此也可以说函数关系是相关关系的一个特例 不完全相关一一又称零相关,当变量之间彼此互不影响,其数量 变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气 温的高低一般情况下是不相关的 不相关一一如果两个变量的关系介于完全相关和不相关之间,称 为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独
现象之间的相关关系从不同的角度可以区分为不同类型。 (1). 按照相关关系涉及变量(或因素)的多少分为 单相关——又称一元相关,是指两个变量之间的相关关系,如广 告费支出与产品销售量之间的相关关系; 复相关——又称多元相关,是指三个或三个以上变量之间的相关 关系,如商品销售额与居民收入、商品价格之间的相关关系。 偏相关——在一个变量与两个或两个以上的变量相关的条件下, 当假定其他变量不变时,其中两个变量的相关关系称为。例如,在假 定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关 关系即为偏相关。 (2). 按照相关形式不同分为 线性相关——又称直线相关,是指当一个变量变动时,另一变量 随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现 为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系。 非线性相关——一个变量变动时,另一变量也随之发生变动,但 这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一 条曲线,如抛物线、指数曲线等,因此也称曲线相关。例如,工人加 班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反 而可能下降,这就是一种非线性关系。 (3). 按照相关现象变化的方向不同分为 正相关——当一个变量的值增加或减少,另一个变量的值也随之 增加或减少。如工人劳动生产率提高,产品产量也随之增加;居民的 消费水平随个人所支配收入的增加而增加。 负相关——当一个变量的值增加或减少时,另一变量的值反而减 少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本 的降低而增加。 (4). 按相关程度分为 完全相关——当一个变量的数量完全由另一个变量的数量变化所 确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售 额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成 为函数关系,因此也可以说函数关系是相关关系的一个特例。 不完全相关——又称零相关,当变量之间彼此互不影响,其数量 变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气 温的高低一般情况下是不相关的。 不相关——如果两个变量的关系介于完全相关和不相关之间,称 为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独
立的,因此统计学中相关分析的主要研究对象是不完全相关 7.12.相关关系的测定 要判别现象之间有无相关关系,一是定性分析,二是定量分析。 1.定性分析 定性分析是依据研究者的理论知识、专业知识和实践经验,对客 观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可 在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现 象之间相关的方向、形态及大致的密切程度 (1).相关表 相关表是一种统计表。它是直接根据现象之间的原始资料,将 变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对 应排列形成的统计表 例7-1某财务软件公司在全国有许多代理商,为研究它的财务 软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商 进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相 关表,见表7-1。 表7-1广告费与月平均销售额相关表单位:万元 年广告费投入 月均销售额 21.2 33.5 52.8 55.4 从表中可以直观地看出,随着广告投入的增加,销售量增加,两 者之间存在一定的正相关关系。 (2).相关图
立的,因此统计学中相关分析的主要研究对象是不完全相关。 7.1.2. 相关关系的测定 要判别现象之间有无相关关系,一是定性分析,二是定量分析。 1. 定性分析 定性分析是依据研究者的理论知识、专业知识和实践经验,对客 观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可 在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现 象之间相关的方向、形态及大致的密切程度。 (1).相关表 相关表是一种统计表。它是直接根据现象之间的原始资料,将一 变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对 应排列形成的统计表。 例 7–1 某财务软件公司在全国有许多代理商,为研究它的财务 软件产品的广告投入与销售额的关系,统计人员随机选择 10 家代理商 进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相 关表,见表 7–1。 表 7–1 广告费与月平均销售额相关表 单位:万元 年广告费投入 月均销售额 12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5 从表中可以直观地看出,随着广告投入的增加,销售量增加,两 者之间存在一定的正相关关系。 (2).相关图
相关图又称散点图,它是用直角坐标系的x轴代表自变量,y轴代 表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来, 用以表明相关点分布状况的图形。根据表7-1的资料可以绘制相关图 (万元)70 据50 40 000 年广告费投入 如图7-1 图7-1广告投入与销售额的相关图 从相关图可以直观地看出,年广告费投入与月平均销售额之间相 关密切,且有线性正相关关系 2.定量分析—相关系数 相关表和相关图可反映两个变量之间的相互关系及其相关方向 但无法确切地表明两个变量之间相关的程度。著名统计学家卡尔·皮 尔逊设计了统计指标一相关系数。相关系数是用以反映变量之间相 关关系密切程度的统计指标。依据相关现象之间的不同特征,其统计 指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称 为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相 关关系的统计指标称为非线性相关系数、非线性判定系数:将反映多 元线性相关关系的统计指标称为复相关系数、复判定系数等。这里只 介绍相关系数。 相关系数用r表示,它的基本公式为: s n2y-xx2y (7-1) ynzx2-(2x)2yn2y2-(Ey)2 相关系数的值介于-1与+1之间,即-1≤r≤+1。其性质如下 (1),.当p0时,表示两变量正相关,r<0时,两变量为负相关。 (2),当1时,表示两变量为完全线性相关,即为函数关系。 (3).当r=0时,表示两变量间无线性相关关系
相关图又称散点图,它是用直角坐标系的 x 轴代表自变量,y 轴代 表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来, 用以表明相关点分布状况的图形。根据表 7–1 的资料可以绘制相关图 如图 7–1。 图 7–1 广告投入与销售额的相关图 从相关图可以直观地看出,年广告费投入与月平均销售额之间相 关密切,且有线性正相关关系。 2. 定量分析–––相关系数 相关表和相关图可反映两个变量之间的相互关系及其相关方向, 但无法确切地表明两个变量之间相关的程度。著名统计学家卡尔·皮 尔逊设计了统计指标 ––– 相关系数。相关系数是用以反映变量之间相 关关系密切程度的统计指标。依据相关现象之间的不同特征,其统计 指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称 为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相 关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多 元线性相关关系的统计指标称为复相关系数、复判定系数等。这里只 介绍相关系数。 相关系数用 r 表示,它的基本公式为: 2 2 2 2 n x ( x) n y ( y) n xy x y r − − − = (7–1) 相关系数的值介于–1 与+1 之间,即–1≤r≤+1。其性质如下: (1).当 r>0 时,表示两变量正相关,r<0 时,两变量为负相关。 (2).当|r|=1 时,表示两变量为完全线性相关,即为函数关系。 (3).当 r=0 时,表示两变量间无线性相关关系。 0 1 0 2 0 3 0 4 0 5 0 6 0 7 0 0 2 0 4 0 6 0 8 0 年广告费投入 月均销售额 (万元) (万元)