以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可 以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下 数学模型描述:我们想估计的量是m,…,,另有若干个可以测量的量x1,p八,这些 量之间有线性关系 y=B0+B1x1+.+Bpxp 如何通过多组观测数据求解出参数0,…,B即呢?欧拉和拉普拉斯采用的都是求解线性 2) <brf-yn-po+BixintB2x 但是面临的一个问题是,有n组观测数据,p叶1个变量,如果>p叶山,则得到的线性矛盾 方程组,无法直接求解。所以歌拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把 个线性方程分为p+1组,然后把每个组内的方程线性求和后归并为一个方程,从而就把个方 程的方程组化为叶1个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但 是都过于经验化,无法形成统一处理这一类问题的 个通用解决框架。 以上求解线性子盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回 归问题,直接用最小二乘法就解决了,可是即便如歌拉、拉普拉斯这些数学大牛,当时也 未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容 易。有效的最小二乘法是勒让德在1805年发表的,基本思想就是认为测量中有误差,所 以所有方程的累积误差为 累积误差=∑(观测值·理论值)2 我们求解出导致累积误差最小的参数即可。 B==argming>i-ine2iargming>i-inlyi-(B+BLx+.+Bpxpi)2 勒让德在论文中对最小二乘法的优良性傲了几点说明: 最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而 防止某一个极端误差取得支配地位 ·计算中只要求偏导后求解线性方程组,计算过程明确便捷 。最小二乘可以导出算术平均值作为估计值 对于最后一点,推理如下:假设真值为0,x1,,m为n次测量值,每次测量的误差为 e=x0,按最小二乘法,提差累积为 L(0=∑=1ne2=∑=1nr-02 求解0使得L(0达到最小,正好是算术 平均 由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特 例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有借心。 6
6 以上涉及的问题,我们直接关心的目标量往往无法直接观测,但是一些相关的量是可 以观测到的,而通过建立数学模型,最终可以解出我们关心的量。这些问题都可以用如下 数学模型描述:我们想估计的量是 β0,⋯,βp,另有若干个可以测量的量 x1,⋯,xp,y,这些 量之间有线性关系 y=β0+β1x1+⋯+βpxp 如何通过多组观测数据求解出参数 β0,⋯,βp 呢?欧拉和拉普拉斯采用的都是求解线性 方程组的方法。 ⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪y1=β0+β1x11+β2x21+⋯+βpxp1y2=β0+β1x12+β2x22+⋯+βpxp2 (2) ⋮<br/>yn=β0+β1x1n+β2x2n+⋯+βpxpn 但是面临的一个问题是,有 n 组观测数据,p+1 个变量,如果 n>p+1,则得到的线性矛盾 方程组,无法直接求解。所以欧拉和拉普拉斯采用的方法都是通过一定的对数据的观察,把 n 个线性方程分为 p+1 组,然后把每个组内的方程线性求和后归并为一个方程,从而就把 n 个方 程的方程组化为 p+1 个方程的方程组,进一步解方程求解参数。这些方法初看有一些道理,但 是都过于经验化,无法形成统一处理这一类问题的一个通用解决框架。 以上求解线性矛盾方程的问题在现在的本科生看来都不困难,就是统计学中的线性回 归问题,直接用最小二乘法就解决了,可是即便如欧拉、拉普拉斯这些数学大牛,当时也 未能对这些问题提出有效的解决方案。可见在科学研究中,要想在观念上有所突破并不容 易。有效的最小二乘法是勒让德在 1805 年发表的,基本思想就是认为测量中有误差,所 以所有方程的累积误差为 累积误差 =∑( 观测值 - 理论值 )2 我们求解出导致累积误差最小的参数即可。 β^==argminβ∑i=1ne2iargminβ∑i=1n[yi−(β0+β1x1i+⋯+βpxpi)]2 (3) 勒让德在论文中对最小二乘法的优良性做了几点说明: • 最小二乘使得误差平方和最小,并在各个方程的误差之间建立了一种平衡,从而 防止某一个极端误差取得支配地位 • 计算中只要求偏导后求解线性方程组,计算过程明确便捷 • 最小二乘可以导出算术平均值作为估计值 对于最后一点,推理如下:假设真值为 θ,x1,⋯,xn 为 n 次测量值,每次测量的误差为 ei=xi−θ,按最小二乘法,误差累积为 L(θ)=∑i=1ne2i=∑i=1n(xi−θ)2 求解 θ 使得 L(θ)达到最小,正好是算术平均 x¯=1n∑i=1nxi. 由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘的一个特 例,所以从另一个角度说明了最小二乘方法的优良性,使我们对最小二乘法更加有信心
最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛 使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在 1809年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星 定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确地预测了谷神星的位 里。 扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法 本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于 解的误差有多大,无法给出有效的分析,而这个就是正态分布粉堡登场发挥作用的地方。 勒让德提出的最小二乘法,确实是一把在数据分析领域技荆惭棘的好刀,但是刀刃还是不 够锋利:而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自地给出了造 刀的方法,而且把最小二乘这把刀的刀刃造得无比锋利,把最小二乘打造为了一把瑞士军 刀. 高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统 计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。那高斯这位神 人是如何把正态分布引入到误差分析之中,打造最小二乘这把瑞士军刀的呢? 四、众里寻她千百度,误差分布曲线的确立 第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容寻找随机误差分布的规 律。 天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最 发达的领域,到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如 7
7 最小二乘法发表之后很快得到了大家的认可接受,并迅速的在数据分析实践中被广泛 使用。不过历史上又有人把最小二乘法的发明归功于高斯,这又是怎么一回事呢。高斯在 1809 年也发表了最小二乘法,并且声称自己已经使用这个方法多年。高斯发明了小行星 定位的数学方法,并在数据分析中使用最小二乘方法进行计算,准确地预测了谷神星的位 置。 扯了半天最小二乘法,没看出和正态分布有任何关系啊,离题了吧?单就最小二乘法 本身,虽然很实用,不过看上去更多的算是一个代数方法,虽然可以推导出最优解,对于 解的误差有多大,无法给出有效的分析,而这个就是正态分布粉墨登场发挥作用的地方。 勒让德提出的最小二乘法,确实是一把在数据分析领域披荆斩棘的好刀,但是刀刃还是不 够锋利;而这把刀的打造后来至少一半功劳被归到高斯,是因为高斯不但独自地给出了造 刀的方法,而且把最小二乘这把刀的刀刃造得无比锋利,把最小二乘打造为了一把瑞士军 刀。 高斯拓展了最小二乘法,把正态分布和最小二乘法联系在一起,并使得正态分布在统 计误差分析中确立了自己的定位,否则正态分布就不会被称为高斯分布了。那高斯这位神 人是如何把正态分布引入到误差分析之中,打造最小二乘这把瑞士军刀的呢? 四、众里寻她千百度,误差分布曲线的确立 第三个故事有点长,主角是高斯和拉普拉斯,故事的主要内容寻找随机误差分布的规 律。 天文学是第一个被测量误差困扰的学科,从古代至十八世纪天文学一直是应用数学最 发达的领域,到十八世纪,天文学的发展积累了大量的天文学数据需要分析计算,应该如
何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常 识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此 的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数 据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布?算术平均的 优良性和误差的分布有怎样的密切联系? 伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性 的描述,主要包括: 。误兼是对称分布的: 。大的误差出现率低,小的误差出现颜率高。 用数学的语言描述,也就是说误差分布函数fx)关于0对称分布,概率密度随比增加 而减小,这两个定性的描述都很符合常识。 许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯●辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。设真值为0,而x1,,xn为n次测量 值,每次测量的误差为e=x一0,若用算术平均x=(∑nix)/n去估计0,其误差为 e=(∑mle)/n。Simpson证明了,对于如下的一个概率分布, 【Simpson的误差态分布曲线】 有下面的估计: P(le x)≥(lei<x) 也就是说,e相比于1取小值的机会更大。辛普森的这个工作很粗,但是这是第一次 在一个特定情况下,从概率论的角度严格证明了算术平均的优良性 在1772-1774年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假 定误差分布函数几x)满足如下性质 -f(x)-mAx). 由此最终求得的分布函数为 Ax)-m2e-md
8 何来处理数据中的观测误差成为一个很棘手的问题。我们在数据处理中经常使用平均的常 识性法则,千百年来的数据使用经验说明算术平均能够消除误差,提高精度。平均有如此 的魅力,道理何在,之前没有人做过理论上的证明。算术平均的合理性问题在天文学的数 据分析工作中被提出来讨论:测量中的随机误差服应该服从怎样的概率分布?算术平均的 优良性和误差的分布有怎样的密切联系? 伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性 的描述,主要包括: • 误差是对称分布的; • 大的误差出现频率低,小的误差出现频率高。 用数学的语言描述,也就是说误差分布函数 f(x)关于 0 对称分布,概率密度随|x|增加 而减小,这两个定性的描述都很符合常识。 许多天文学家和数学家开始了寻找误差分布曲线的尝试。托马斯•辛普森(Thomas Simpson,1710-1761)先走出了有意义的一步。设真值为 θ,而 x1,⋯,xn 为 n 次测量 值,每次测量的误差为 ei=xi−θ,若用算术平均 x¯=(∑ni=1xi)/n 去估计 θ,其误差为 e¯=(∑ni=1ei)/n。Simpson 证明了,对于如下的一个概率分布, 【Simpson 的误差态分布曲线】 有下面的估计: P(|e¯|<x)≥P(|e1|<x) . 也就是说,|e¯|相比于|e1|取小值的机会更大。辛普森的这个工作很粗糙,但是这是第一次 在一个特定情况下,从概率论的角度严格证明了算术平均的优良性。 在 1772-1774 年间,拉普拉斯也加入到了寻找误差分布函数的队伍中。拉普拉斯假 定误差分布函数 f(x)满足如下性质 −f′(x)=mf(x). 由此最终求得的分布函数为 f(x)=m2e−m|x|
这个摄率密度函数现在被称为拉普拉斯分布。 m/2 【Laplace的误差态分布曲线】 以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的 值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相 似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即1/2分 位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计 算过于复杂,最终没能给出什么有用的结果。 拉普拉斯可是概率论的大牛,写过两本极有影响力的《概率分析理论》,不过以我的 数学审美,实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数 拉普拉斯最终还是没能搞定误差分布的问题。 现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的弧理,数学家阿 贝尔对他的评论是"他像狐狸一样,用其尾巴把其在沙滩上的踪迹清除掉"(He is like the fox,who effaces his tracks in the sand with his tail..)我们的数学大师陈省身 把奖曼和庞加莱(Henri Poincare)称为数学家中的菩萨,而称自己为罗汉:高斯是奖曼 的导师,数学圆里有些教授把高斯称为数学家中的佛。在数学家中既能仰望理论数学的星 空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的项”天”立“地”的人物, 他既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。在误差分布的处理 中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的 块里程碑。 高斯的介入首先要从天文学界的一个事件说起。1801年1月,天文学家Giuseppe Piazzi发现了一颗从未见过的光度8等的星在移动,这颗现在被称作谷神星(Ceres)的 小行星在夜空中出现6个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。 而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星 还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家 了,这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的
9 这个概率密度函数现在被称为拉普拉斯分布。 【Laplace 的误差态分布曲线】 以这个函数作为误差分布,拉普拉斯开始考虑如何基于测量的结果去估计未知参数的 值。拉普拉斯可以算是一个贝叶斯主义者,他的参数估计的原则和现代贝叶斯方法非常相 似:假设先验分布是均匀的,计算出参数的后验分布后,取后验分布的中值点,即 1/2 分 位点,作为参数估计值。可是基于这个误差分布函数做了一些计算之后,拉普拉斯发现计 算过于复杂,最终没能给出什么有用的结果。 拉普拉斯可是概率论的大牛,写过两本极有影响力的《概率分析理论》,不过以我的 数学审美,实在无法理解拉普拉斯这样的大牛怎么找了一个零点不可导的误差的分布函数, 拉普拉斯最终还是没能搞定误差分布的问题。 现在轮到高斯登场了,高斯在数学史中的地位极高,号称数学史上的狐狸,数学家阿 贝尔对他的评论是“他像狐狸一样,用其尾巴把其在沙滩上的踪迹清除掉”(He is like the fox, who effaces his tracks in the sand with his tail.)我们的数学大师陈省身 把黎曼和庞加莱(Henri Poincaré)称为数学家中的菩萨,而称自己为罗汉;高斯是黎曼 的导师,数学圈里有些教授把高斯称为数学家中的佛。在数学家中既能仰望理论数学的星 空,又能脚踏应用数学的实地的可不多见,高斯是数学家中少有的顶“天”立“地”的人物, 他既对纯理论数学有深刻的洞察力,又极其重视数学在实践中的应用。在误差分布的处理 中,高斯以极其简单的手法确立了随机误差的概率分布,其结果成为数理统计发展史上的 一块里程碑。 高斯的介入首先要从天文学界的一个事件说起。1801 年 1 月,天文学家 Giuseppe Piazzi 发现了一颗从未见过的光度 8 等的星在移动,这颗现在被称作谷神星(Ceres)的 小行星在夜空中出现 6 个星期,扫过八度角后在就在太阳的光芒下没了踪影,无法观测。 而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星 还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家 了,这个问题也引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的
计算方法,一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。 1801年12月31日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间 里,用望远镜对准了这片天空。果然不出所料,谷神星出现了1 高斯为此名声大展,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自 己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考 成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众, 而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推 导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的, 设真值为0,而xl,…,心m为n次独立测量值,每次测量的误差为e=x广-0,假设误差 ei的密度函数为几),则测量值的联合概率为n个误差的联合横率,记为 L(=L(0:x1,…r=fe1)fen=fx1-fxm-. (4) 但是高斯不采用贝叶新的推理方式,而是直接取L(0达到最大值的=0(,,m)作为 0的估计值,即 0A=argmax0L(仍. 现在我们把L(称为样本的似然函数,而得到的估计值^称为极大似然估计。高斯首次 给出了极大似然的思想,这个思想后来被统计学家R.A.Fisher系统地发展成为参数估计中的 极大似然估计理论。 高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。 他把整个问愿的思考棋式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那 我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就 是: 误差分布导出的极大似然估计=算术平均值 然后高斯去找误差密度函数∫以迎合这一点。即寻找这样的概率分布函数∫使得极大似然 估计正好是算术平均日小-x。通过应用数学技巧求解这个函数了高斯证明(证明不难,后 续给出)了所有的概率密度函数中,唯一满足这个性质的就是 l2π-Vaexp(-x22o2) 雕,正态分布的密度函数N0,2)被高斯他老人家给解出来了! 10
10 计算方法,一个小时之内就计算出了行星的轨道,并预言了它在夜空中出现的时间和位置。 1801 年 12 月 31 日夜,德国天文爱好者奥伯斯(Heinrich Olbers)在高斯预言的时间 里,用望远镜对准了这片天空。果然不出所料,谷神星出现了! 高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自 己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考 成熟的理论。直到 1809 年高斯系统地完善了相关的数学理论后,才将他的方法公布于众, 而其中使用的数据分析方法,就是以正态误差分布为基础的最小二乘法。那高斯是如何推 导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。 设真值为 θ,而 x1,⋯,xn 为 n 次独立测量值,每次测量的误差为 ei=xi−θ,假设误差 ei 的密度函数为 f(e),则测量值的联合概率为 n 个误差的联合概率,记为 L(θ)=L(θ;x1,⋯,xn)=f(e1)⋯f(en)=f(x1−θ)⋯f(xn−θ). (4) 但是高斯不采用贝叶斯的推理方式,而是直接取 L(θ)达到最大值的 θ^=θ^(x1,⋯,xn)作为 θ 的估计值,即 θ^=argmaxθL(θ). 现在我们把 L(θ)称为样本的似然函数,而得到的估计值 θ^称为极大似然估计。高斯首次 给出了极大似然的思想,这个思想后来被统计学家 R.A.Fisher 系统地发展成为参数估计中的 极大似然估计理论。 高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。 他把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那 我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就 是: 误差分布导出的极大似然估计 = 算术平均值. 然后高斯去找误差密度函数 f 以迎合这一点。即寻找这样的概率分布函数 f,使得极大似然 估计正好是算术平均 θ^=x¯。通过应用数学技巧求解这个函数 f,高斯证明(证明不难,后 续给出)了所有的概率密度函数中,唯一满足这个性质的就是 f(x)=12π−−√σexp(−x22σ2). 瞧,正态分布的密度函数 N(0,σ2)被高斯他老人家给解出来了!