第7章岭回归 71岭回归估计的定义 72岭回归估计的性质 73岭迹分析 74岭参数的选择 7.5用岭回归选择变量 76本章小结与评注
第7章 岭回归 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量 7.6 本章小结与评注
§7.1岭回归估计的定义 、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大,估计值就很不稳定,下面进一步用一个模拟的例 子来说明这一点。 例7.1假设已知x1,x2与y的关系服从线性回归模型 10+2x1+3x2+E
§7.1 岭回归估计的定义 一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大, 估计值就很不稳定,下面进一步用一个模拟的例 例7.1 假设已知x1,x2与y y=10+2x1+3x2+ε
§7.1岭回归估计的定义 给定x,x的10个值,如下表7.1的第(2)、(3)两行: 表71 序号12345678910 (1) 1.11.41.71.71.81.81.92.02.32.4 (2) 1.11.51.81.71.91.81.82.12.42.5 (3)10.8-0.5040.50.21.91.90.6-1.51.5 (4)y116.316.819.218.019.52092120.90.3.0
§7.1 岭回归估计的定义 给定x1,x2的10个值,如下表7.1的第(2)、(3)两行: 表7.1 序号 1 2 3 4 5 6 7 8 9 10 (1) x1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4) yi 16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0
§7.1岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: β=1l292,β1=1.307,β2=6.591 而原模型的参数 βa=10,B1-2,B2=3 看来相差太大。计算x,ⅹ的样本相关系数得rz=0.986,表明 x1与x之间高度相关
§7.1 岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: 0 ˆ =11.292, 1 ˆ =11.307, 2 ˆ =-6.591 β0=10,β1=2,β2=3 看来相差太大。计算x1,x2的样本相关系数得r12=0.986,表明 x1与x2之间高度相关
§7.1岭回归估计的定义 岭回归的定义 岭回归( Ridge Regression.,简记为RR提出的想法是很 自然的。 当自变量间存在复共线性时,|XX|≈0, 我们设想给XX加上一个正常数矩阵kI,(k>0), 那么XX+k接近奇异的程度就会比XX接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化 为了记号方便,标准化后的设计阵仍然用X表示
§7.1 岭回归估计的定义 二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很 自然的。 当自变量间存在复共线性时,|X′X|≈0, 我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化, 为了记号方便,标准化后的设计阵仍然用X表示