第1章 苏法:节术拉度新行运中海旗前试46 回归分析概述 为了在系统学习回归分析之前对该课程的思想方法、主要内容、发展现状等有 个概括的了解,本章将由变量间的统计关系,引申出社会经济与自然科学等现象中 的相关与回归问题,并扼要介绍“回归”名称的由来及近代回归分析的发展、回归分 析研究的主要内容,以及建立回归模型的步骤与建模过程中应注意的问题。 1.1变量间的统计关系 社会经济与自然科学等现象之间的相互联系和制约是一个普遍规律。例如社 会经济的发展总是与一定的经济变量的数量变化紧密联系的。社会经济现象不仅 同和它有关的现象构成一个普遍联系的整体,而且在它的内部也存在着许多彼此 关联的因素,在一定的社会环境、地理条件、政府决策影响下,一些因素推动或制约 另外一些与之联系的因素发生变化。这种状况表明,在经济现象的内部和外部联 系中存在着一定的相关性,人们往往利用这种相关关系来制定有关的经济政策,以 指导、控制社会经济活动的发展。要认识和掌握客观经济规律就必须探求经济现 象问经济变量的变化规律,变量间的统计关系是经济变量变化规律的重要特征。 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
互有联系的经济现象及经济变量间关系的紧密程度各不一样。一一种极端的情 况是一个变量的变化能完全决定另一个变量的变化。例如,一个保险公司承保汽 车5万辆,每辆保费收入为1000元,则该保险公可汽车承保总收入为5000万 元。如果把承保总收人记为y,承保汽车辆数记为x,则y=1000x。x与y两 个变量间完全表现为一种确定性关系,即函数关系。如图1.1所示。 y6000r 万5000 y=1000x 元4000 300 2000 1000 012345 图1.1函数关系田 再如.银行的年期存款利率为年息2.55%,存入的本金用x表示,到期 的本息用v表示,则y=x+2.55%x。这里y与x仍表现为-一种线性函数关系。 对于任意两个变量间的函数关系,我们可以表述为下面的数学形式 y=f(I) 再如,工业企业的原材料消耗总额用y表示,生产量用x1表示,单位产量 消耗用2表示,原材料价格用x3表示,则 y=z1n2x3 这里的y与x1,2,x3仍是一种确定性的函数关系,但它们显然不是线性 函数关系了。我们可以将变量y与p个变量x,x2,,x之间存在着的某种 函数关系用下面的形式表示 V=f(x1,x3,",t)】 经济问题中还有很多函数关系的例子。物理学中的自由落体距离公式、初等 数学中许多计算公式等都是变量间的函数关系。 然而,现实世界中还有不少情况是两事物之间有着密切的联系,但它们密切 的程度并没有到由一个可以完全确定另一个的程度。下面举儿个例子。 1.我们都知道某种高档消费品的销售量与城镇居民的收人密切相关,居民 收入高了这种消费品的销售量就大。但是由居民收入x并不能完全确定某种高 档消费品的销售量y,因为这种高档消费品的销售量还受着人们的消费习惯、心 理因素、其他商品的吸引程度及价格的高低等诸多因素的影响。这样变量ν与 2 PDF created with pdfFactory Pro trial version ww.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
变量x就是一种非确定的关系,见图1.2。 0 图1.2y与x非确定性关系图 2.粮食产量y与施肥壁x之间有着密切的关系,在·定的范围内,施肥量 超多,粮食产量就越高。但是,施肥量并不能完全确定粮食产量,因为粮食产量 还与其他因素的影响有关,如降雨量、田间管理水平等。因此粮食产量ν与施 肥量x之间不存在确定的函数关系。 3.储蓄额与居民的收入密切相关,但是由居民收入并不能完全确定储蓄额。 因为影响储蓄额的因素很多,如通货膨张、股票价格指数、利率、消费观念、投 资意识等。因此尽管储蓄额与居民收入有密切的关系,但它们之间并不存在一种 确定性关系。 再如:广告费支出与商品销售额,保险利润与保费收人、工业产值与用电量 等。这方面的例子不胜枚举。 以上变量间关系的一个共同特征是它们之间有密切关系,但它们是一种非确 定性关系。由于经济何题的复杂性,有许多因素因为我们的认识以及其他客观原 因的局限,并没有包含在内。或者由于试验误差、测量误差以及其他种种偶然因 素的影响,使得另外一个或一些变量的取值带有一定的随机性。因而当一个或 些变量取定值后,不能以确定值与之对应。 从图1.1看到确定性的函数关系,各对应点完全落在一条直线上。而由图 1.2看到,各对应点并不完全落在一条直线上,即有的点在直线上,有的点在直 线的两边。对于这种对应点不能分布在一条直线上的变量间的关系,也就是变量 x与y之间有一定的关系,但是又没有密切到可以通过x惟一确定y的程度,这 种关系正是统计学中研究的重要内容。在推断统计中,我们把上述变量间具有密 切关联而又不能由某一个或某一些变量惟一确定另外一个变量的关系,称为变量 间的统计关系或相关关系。这种统计关系规律性的研究是统计学中研究的主要对 象,现代统计学中关于统计关系的研究已形成两个重要的分支,它们叫相关分析 和回归分析。 3 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
同归分析和相关分析都是研究变量间关系的统计学课题。在应用中,两种分 析方法经常相互结合和渗透,但它研究的侧重点和应用面不同。它们的差别主 要有以下几点:一是在回归分析中,变量y称为因变量,处在被解释的特殊地 位。在相关分析中,变量y与变量x处于平等的地位,即研究变量y与变量x 的密切程度与研究变量x与变量y的密切程度是一回事。二是相关分析中所涉及 的变量y与x全是随机变量。而回归分析中,因变量y是随机变量,自变量x 可以是随机变量,也以是非随机的确定变量。通常的回归漠型中,我们总是假 定x是非随机的确定变量。三是相关分析的研究主要是为刻画两类变量问线性 相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可 以由可时方程进行预测和控制。 由于问归分析与相关分析的研究侧重不同,使得它们的研究方法也大不相 同。问分析已成为现代统汁学中应用最广泛、研究最活跃的一个独立分支。 1.2回归方程与回归名称的由来 可分析是处理变量x与y之间的关系的一种统计方法和技术。这里所研 究的变量之间的关系就是上述的统计关系。即当给定x的值y的值不能确定, 只能通过一定的概率分布来描述。于是,我们称给定x时y的条件数学期望 f(x)=E(ylx) (1.1) 为随机变量y对x的问归函数,或称为随机变昼y对x的均值回归函数。(1.1) 式从平均意义上刻画了变量x与y之间的统计规律。 在实际问题中,我们把x称为自变量,y称为因变量。如果要由x预测y, 就是要利用x,ν的观察值,即样本观测值 (x1,y1),(z2y2,…,(n+yn) (1.2) 来建立一个公式,当给定x值后,就代入此公式中算出·个y值,这个值就称 为y的预测值。如何建立这个公式,这就要从样本观测值(x,)出发,观察 (x,y)在平面直角坐标系上的分布情况,图1.2就是居民收入与商品销售额的 散点图。由这个图可看出样本点基本上分布在一条直线的周围,因而要确定商品 销售额y与居民收人x的关系,可考感用一个线性函数来描述。图1.2中的直 线即为线性方程 y=a+Ar (1.3) 方程(1.3)式中的参数。,3尚不知道,这就需要由样本数据(1.2)式去进行 4 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com
估计。具体如何去估计参数4,B,我们在第二章中将详细介绍。 当我们由样本数据(1.2)式估计出a,3的值后,以估计值在,分别代替 (1.3)式中的a,3,得方程 y=&+ (1.4) (1.4)式方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性 关系,故我们称(1.4)式为y对x的线性回归方程。又因(1.4)式的建立依赖于观 察或试验积累的数据(1.2)式,所以我们又称(1.4)式为经验回归方程。相对这种 出法,我们把(1.3)式称为理论回方程。理论回日方程是设相把所研究问题的总 体中每一个体的(x,y)值都测量了,利用其全部结果而建立的回归方程(1.3)式, 这在实际中是办不到的。理论回归方程中的。是方程(1.3)式所画出的直线在y 轴上的截距,B为直线的斜率,它们分别称为回归常数和回归系数。而方程(1.4) 式中的参数丘,3被称为经验回归常数和经验回归系数。 回归分析的基本思想和方法以及“回归”名称的由来归功于英国统计学家 F.高尔顿(F.Galton:1822~1911)。高尔顿和他的学生、现代统计学的奠基者之 一K,皮尔逊(K.Pearson:1856~1936)在研究父母身高与其子女身高的遗传问题 时,观察了1078对夫妇,以每对夫妇的平均身高作为x,而取他们的一个成年 儿子的身高作为y,将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条 直线。计算出的回归直线方程为 y=33.73+0.516x (1.5) 这种趋势及回归方程总的表明父母平均身高x每增加一个单位时,其成年儿子 的身高v也平均增加0.516个单位。这个结果表明,虽然高个子父辈确有生高 个子儿子的趋势,但父辈身高增加一个单位,儿于身高仅增加半个单位左右。反 之,矮个子父辈确有生矮个子儿子的趋势,但父辈身高诚少一个单位,儿子身高 仅减少半个单位左右。通俗地说,一群特高个子父辈(例如排球运动员)的儿子们 在同龄人中平均仅为高个子,一群高个子父辈的儿子们在同龄人中平均仅为略高 个子;一群特矮个子父辈的儿子们在同龄人中平均仅为矮个子,一群矮个子父辈 的儿子们在同龄人中平均仅为略矮个子,即子代的平均高度向中心回归了。正是 因为子代的身高有回到同龄人平均身高的这种趋势,才使人类的身高在一定时间 内相对稳定,没有出现父辈个子高其子女更高,父辈个子矮其子女更矮的两极分 化现象。这个例子生动地说明了生物学中“种”的概念的稳定性。正是为了描述 这种有趣的现象,高尔顿引进了“回归”这个名词来描述父辈身高x与子代身 高y的关系。尽管“回归”这个名称的由来具有其特定的含义,人们在研究大量 5 PDF created with pdfFactory Pro trial version www.pdffactory.com
PDF created with pdfFactory Pro trial version www.pdffactory.com