第一章绪论 第一节生物统计在畜禽、水产科学研究中的作用 为了推动畜牧业、水产业的发展,常常要进行科学研究。例如畜禽、水产品种资源研究, 新品种的选育,新的饲养、管理技术硏究等。这些研究都离不开调査或试验。进行调査或试 验首先必须解决的问题是:如何合理地进行调查或试验设计。在实际研究工作中常常碰见这 样的情况:由于调查或试验设计不合理,以至于无法从所获得的数据提取有用的信息,造成 人力、物力和时间的浪费。若调查或试验设计方法好,用较少的人力、物力和时间即可收集 到必要而有代表性的资料,从中获得可靠的结论,达到调查或试验的预期目的,收到事半功 倍之效 通过调查或试验能获得一定数量的数据。这些数据常常表现出程度不同的变异。例如测 量100头猪的日增重所获得的100个数据,彼此不完全相同,表现出一定程度的变异:又如测 量了200头黄牛的体高,所获得的200个数据,也表现出一定程度的变异。产生这种变异的原 因,有的己被人们所了解。例如品种、性别、年龄、初始重、健康状况、饲养条件等不同, 使得所测的猪的日增重、黄牛的体高表现出差异。另外还有许多内在和外在的因素还未被人 们所认识。由于这些人们已了解的因素和人们尚未认识因而无法控制的因素的作用,使得通 过调查或试验得来的数据普遍具有变异性。所以进行调查或试验还必须解决的第二个问题 是:如何科学地整理、分析所收集得来的具有变异的资料,揭示出隐藏在其内部的规律性。 合理地进行调査或试验设计、科学地整理、分析所收集得来的资料是生物统计( Biometrics) 的根本任务 生物统计是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。它在畜 禽、水产科学研究中具有十分重要的作用。 、提供试验或调查设计的方法 试验设计这一概念有广义与狭义之分,广义的试验设计是指试验研究课题设计,也就是 指整个试验计划的拟定,包含课题名称、试验目的,研究依据、内容及预期达到的效果,试 验方案,供试单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验 结果的分析方法,经济效益或社会效益的估计,已具备的条件,需要购置的仪器设备,参加研 究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。 狭义的试验设计主要是指试验单位(如动物试验的畜、禽)的选取、重复数目的确定及试验单 位的分组。生物统计中的试验设计主要指狭义的试验设计。合理的试验设计能控制和降低试 验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要 的数据。 调査设计这一概念也有广义与狭义之分,广义的调查设计是指整个调查计划的制定,包 括调查研究的目的、对象与范围,调查项目及调査表,抽样方法的选取,抽样单位、抽样数 量的确定,数据处理方法,调查组织工作,调查报告撰写与要求,经费预算等内容。狭义的 调查设计主要包含抽样方法的选取,抽样单位、抽样数目的确定等内容。生物统计中的调查
1 第一章 绪 论 第一节 生物统计在畜禽、水产科学研究中的作用 为了推动畜牧业、水产业的发展,常常要进行科学研究。例如畜禽、水产品种资源研究, 新品种的选育,新的饲养、管理技术研究等。这些研究都离不开调查或试验。进行调查或试 验首先必须解决的问题是:如何合理地进行调查或试验设计。在实际研究工作中常常碰见这 样的情况:由于调查或试验设计不合理,以至于无法从所获得的数据提取有用的信息,造成 人力、物力和时间的浪费。若调查或试验设计方法好,用较少的人力、物力和时间即可收集 到必要而有代表性的资料,从中获得可靠的结论,达到调查或试验的预期目的,收到事半功 倍之效。 通过调查或试验能获得一定数量的数据。这些数据常常表现出程度不同的变异。例如测 量100头猪的日增重所获得的100个数据,彼此不完全相同,表现出一定程度的变异;又如测 量了200头黄牛的体高,所获得的200个数据,也表现出一定程度的变异。产生这种变异的原 因,有的己被人们所了解。例如品种、性别、年龄、初始重、健康状况、饲养条件等不同, 使得所测的猪的日增重、黄牛的体高表现出差异。另外还有许多内在和外在的因素还未被人 们所认识。由于这些人们已了解的因素和人们尚未认识因而无法控制的因素的作用,使得通 过调查或试验得来的数据普遍具有变异性。所以进行调查或试验还必须解决的第二个问题 是:如何科学地整理、分析所收集得来的具有变异的资料,揭示出隐藏在其内部的规律性。 合理地进行调查或试验设计、科学地整理、分析所收集得来的资料是生物统计(Biometrics) 的根本任务。 生物统计是数理统计的原理和方法在生物科学研究中的应用,是一门应用数学。它在畜 禽、水产科学研究中具有十分重要的作用。 一、提供试验或调查设计的方法 试验设计这一概念有广义与狭义之分,广义的试验设计是指试验研究课题设计,也就是 指整个试验计划的拟定,包含课题名称、试验目的,研究依据、内容及预期达到的效果,试 验方案,供试单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验 结果的分析方法,经济效益或社会效益的估计,已具备的条件,需要购置的仪器设备,参加研 究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。 狭义的试验设计主要是指试验单位(如动物试验的畜、禽)的选取、重复数目的确定及试验单 位的分组。生物统计中的试验设计主要指狭义的试验设计。合理的试验设计能控制和降低试 验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要 的数据。 调查设计这一概念也有广义与狭义之分,广义的调查设计是指整个调查计划的制定,包 括调查研究的目的、对象与范围,调查项目及调查表,抽样方法的选取,抽样单位、抽样数 量的确定,数据处理方法,调查组织工作,调查报告撰写与要求,经费预算等内容。狭义的 调查设计主要包含抽样方法的选取,抽样单位、抽样数目的确定等内容。生物统计中的调查
设计主要指狭义的调査设计。合理的调査设计能控制与降低抽样误差,提高调查的精确性, 为获得总体参数的可靠估计提供必要的数据。 简而言之,试验或调查设计主要解决合理地收集必要而有代表性资料的问题。 二、提供整理、分析资料的方法 整理资料的基本方法是根据资料的特性将其整理成统计表、绘制成统计图。通过统计表、 图可以大致看到所得资料集中、离散的情况。并利用所收集得来的数据计算出几个统计量, 以表示该资料的数量特征、估计相应的总体参数。 统计分析最重要的内容是差异显著性检验。通过抽样调查或控制试验,获得的是具有变 异的资料。产生变异的原因是什么?是由于进行比较的处理间,例如不同品种、不同饲料配 方间有实质性的差异或是由于无法控制的偶然因素所引起?显著性检验的目的就在于承认 并尽量排除这些无法控制的偶然因素的干扰,将处理间是否存在本质差异揭示出来。显著性 检验的方法很多,常用的有t检验——一主要用于检验两个处理平均数差异是否显著:方差分 析——一主要用于检验多个处理平均数间差异是否显著:x2检验—一主要用于由质量性状得 来的次数资料的显著性检验等。 统计分析的另一个重要内容是对试验指标或畜禽性状间的关系进行研究,或者研究它们 之间的联系性质和程度,或者寻求它们之间的联系形式,即进行相关分析与回归分析。通过 对资料进行相关、回归分析,可以揭示出试验指标或性状间的内在联系,为畜禽、水产新品 种选育等提供强有力的依据 还有一类统计分析方法不考虑资料的分布类型,也不事先对有关总体参数进行估算,这 类统计分析方法叫非参数检验法。非参数检验法计算简便。当通常的检验方法对畜禽、水产 科研中的某些资料无能为力时,非参数检验法则正好发挥作用。 以上我们对生物统计在畜禽、水产科学研究中的作用作了概略的介绍。从中不难看出, 生物统计对于进行畜禽、水产科学研究是多么重要。它是每一个畜禽、水产科技工作者必须 掌握的基本工具。可喜的是,随着生物统计方法的普及、计算工具的改进、统计计算程序的 编制,已有越来越多的科技工作者掌握并在实际研究工作中应用了生物统计,取得了显著成 第二节生物统计的常用术语 生物统计是一门应用数学,它涉及较多的数学概念、计算公式和数学用表:从判断方式 上要求摆脱传统的确定性推断方式而接受建立在概率论基础上的统计推断方式,这对初学者 来说有一定难度。为了便于初学者学习,在本教材中除了结合实例,从应用的角度来介绍生 物统计的基本概念、基本原理、基本方法外,每章后还附有一定数量的习题供初学者练习 对于初学者来说,能正确理解生物统计的基本概念、了解基本原理、掌握并应用所介绍的基 本的试验设计与结果分析方法解决畜牧、水产等科学研究中收集、整理、分析资料的问题, 也就达到预期目的了 在这一节里介绍生物统计中几个最常用的术语
2 设计主要指狭义的调查设计。合理的调查设计能控制与降低抽样误差,提高调查的精确性, 为获得总体参数的可靠估计提供必要的数据。 简而言之,试验或调查设计主要解决合理地收集必要而有代表性资料的问题。 二、提供整理、分析资料的方法 整理资料的基本方法是根据资料的特性将其整理成统计表、绘制成统计图。通过统计表、 图可以大致看到所得资料集中、离散的情况。并利用所收集得来的数据计算出几个统计量, 以表示该资料的数量特征、估计相应的总体参数。 统计分析最重要的内容是差异显著性检验。通过抽样调查或控制试验,获得的是具有变 异的资料。产生变异的原因是什么?是由于进行比较的处理间,例如不同品种、不同饲料配 方间有实质性的差异或是由于无法控制的偶然因素所引起?显著性检验的目的就在于承认 并尽量排除这些无法控制的偶然因素的干扰,将处理间是否存在本质差异揭示出来。显著性 检验的方法很多,常用的有t 检验——主要用于检验两个处理平均数差异是否显著;方差分 析——主要用于检验多个处理平均数间差异是否显著; 2 检验——主要用于由质量性状得 来的次数资料的显著性检验等。 统计分析的另一个重要内容是对试验指标或畜禽性状间的关系进行研究,或者研究它们 之间的联系性质和程度,或者寻求它们之间的联系形式,即进行相关分析与回归分析。通过 对资料进行相关、回归分析,可以揭示出试验指标或性状间的内在联系,为畜禽、水产新品 种选育等提供强有力的依据。 还有一类统计分析方法不考虑资料的分布类型,也不事先对有关总体参数进行估算,这 类统计分析方法叫非参数检验法。非参数检验法计算简便。当通常的检验方法对畜禽、水产 科研中的某些资料无能为力时,非参数检验法则正好发挥作用。 以上我们对生物统计在畜禽、水产科学研究中的作用作了概略的介绍。从中不难看出, 生物统计对于进行畜禽、水产科学研究是多么重要。它是每一个畜禽、水产科技工作者必须 掌握的基本工具。可喜的是,随着生物统计方法的普及、计算工具的改进、统计计算程序的 编制,已有越来越多的科技工作者掌握并在实际研究工作中应用了生物统计,取得了显著成 效。 第二节 生物统计的常用术语 生物统计是一门应用数学,它涉及较多的数学概念、计算公式和数学用表;从判断方式 上要求摆脱传统的确定性推断方式而接受建立在概率论基础上的统计推断方式,这对初学者 来说有一定难度。为了便于初学者学习,在本教材中除了结合实例,从应用的角度来介绍生 物统计的基本概念、基本原理、基本方法外,每章后还附有一定数量的习题供初学者练习。 对于初学者来说,能正确理解生物统计的基本概念、了解基本原理、掌握并应用所介绍的基 本的试验设计与结果分析方法解决畜牧、水产等科学研究中收集、整理、分析资料的问题, 也就达到预期目的了。 在这一节里介绍生物统计中几个最常用的术语
、总体与样本 根据研究目的确定的研究对象的全体称为总体( population),其中的一个研究单位称为 个体( individual);总体的一部分称为样本( sample)。例如研究中国黑白花乳牛头胎305天产 乳量,所有中国黑白花乳牛头胎305天产乳量观测值的全体就构成中国黑白花乳牛头胎305 天产乳量总体;而观测200头中国黑白花乳牛头胎305天产乳量所得的200个观测值则是中国 黑白花乳牛头胎305天产乳量总体的一个样本,这个样本包含有200个个体。含有有限个个体 的总体称为有限总体。例如上述中国黑白花乳牛头胎305天产乳量总体虽然包含的个体数目 很多,但仍为有限总体。包含有无限多个个体的总体叫无限总体。例如在生物统计理论研究 上的服从正态分布的总体、服从t分布的总体,包含一切实数,属于无限总体。在实际研 究中还有一类假想总体。例如进行几种饲料的饲养试验,实际上并不存在用这几种饲料进行 饲养的总体,只是假设有这样的总体存在,把所进行的试验看成是假想总体的一个样本。样 本中所包含的个体数目叫样本容量或大小( sample size)。例如上述中国黑白花乳牛头胎305 天产乳量样本容量为200。样本容量常记为n。通常把n≤30的样本叫小样本,n>30的样本叫 大样本。 生物统计一般是通过样本来了解总体。这是因为或者总体是无限的、假想的:即便是有 限的但包含的个体数目相当多,要获得全部观测值须花费大量人力、物力和时间:或者观测 值的获得带有破坏性,例如猪的瘦肉率测定,要求将猪屠宰后,把剥离板油和肾脏的胴体分 割为瘦肉、脂肪、皮、骨四部分,再进行计算,不允许也没有必要对每一头猪一一屠宰测定 研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基 本特点。为了能可靠地从样本来推总体,要求样本具有一定的含量和代表性。只有从总体随 机抽取的样本才具有代表性。所谓随机抽取( random sampling)是指总体中的每一个个体都 有同等的机会被抽取组成样本。然而样本毕竟只是总体的一部分,尽管样本具有一定的含量 也具有代表性,通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但有一定 的错误率这是统计分析的又一特点。所以 Lienert(1973)指出:作为科学方法论的现代统计学 究竟能提供什么?它能回答在抽样调査中所发现的差异、联系和规律性以什么样的概率纯属 偶然?对于总体来说这些发现作为一般规律的可靠程度有多大? 二、参数与统计量 为了表示总体和样本的数量特征,需要计算出几个特征数。由总体计算的特征数叫参数 ( parameter);由样本计算的特征数叫统计量( statistic)。常用希腊字母表示参数,例如用μ 表示总体平均数,用0表示总体标准差:常用拉丁字母表示统计量,例如用x表示样本平均 数,用S表示样本标准差。总体参数由相应的统计量来估计,例如用x估计μ,用S估计σ 、准确性与精确性 准确性( accuracy)也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真 值接近的程度。设某一试验指标或性状的真值为μ,观测值为x,若x与μ相差的绝对值|x 一μ小,则观测值x的准确性高;反之则低。精确性φ precision)也叫精确度,指调査或试验 中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测 值x、x相差的绝对值lx-y1小,则观测值精确性高:反之则低。准确性、精确性的意
3 一、总体与样本 根据研究目的确定的研究对象的全体称为总体(population),其中的一个研究单位称为 个体(individual);总体的一部分称为样本(sample)。例如研究中国黑白花乳牛头胎305天产 乳量,所有中国黑白花乳牛头胎305天产乳量观测值的全体就构成中国黑白花乳牛头胎305 天产乳量总体;而观测200头中国黑白花乳牛头胎305天产乳量所得的200个观测值则是中国 黑白花乳牛头胎305天产乳量总体的一个样本,这个样本包含有200个个体。含有有限个个体 的总体称为有限总体。例如上述中国黑白花乳牛头胎305天产乳量总体虽然包含的个体数目 很多,但仍为有限总体。包含有无限多个个体的总体叫无限总体。例如在生物统计理论研究 上的服从正态分布的总体、服从 t 分布的总体,包含一切实数,属于无限总体。在实际研 究中还有一类假想总体。例如进行几种饲料的饲养试验,实际上并不存在用这几种饲料进行 饲养的总体,只是假设有这样的总体存在,把所进行的试验看成是假想总体的一个样本。样 本中所包含的个体数目叫样本容量或大小(sample size)。例如上述中国黑白花乳牛头胎305 天产乳量样本容量为200。样本容量常记为n。通常把n≤30的样本叫小样本,n>30的样本叫 大样本。 生物统计一般是通过样本来了解总体。这是因为或者总体是无限的、假想的;即便是有 限的但包含的个体数目相当多,要获得全部观测值须花费大量人力、物力和时间;或者观测 值的获得带有破坏性,例如猪的瘦肉率测定,要求将猪屠宰后,把剥离板油和肾脏的胴体分 割为瘦肉、脂肪、皮、骨四部分,再进行计算,不允许也没有必要对每一头猪一一屠宰测定。 研究的目的是要了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基 本特点。为了能可靠地从样本来推总体,要求样本具有一定的含量和代表性。只有从总体随 机抽取的样本才具有代表性。所谓随机抽取(random sampling)是指总体中的每一个个体都 有同等的机会被抽取组成样本。然而样本毕竟只是总体的一部分,尽管样本具有一定的含量 也具有代表性,通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但有一定 的错误率这是统计分析的又一特点。所以Lienert(1973)指出:作为科学方法论的现代统计学 究竟能提供什么?它能回答在抽样调查中所发现的差异、联系和规律性以什么样的概率纯属 偶然?对于总体来说这些发现作为一般规律的可靠程度有多大? 二、参数与统计量 为了表示总体和样本的数量特征,需要计算出几个特征数。由总体计算的特征数叫参数 (parameter);由样本计算的特征数叫统计量(statistic)。常用希腊字母表示参数,例如用μ 表示总体平均数,用σ表示总体标准差;常用拉丁字母表示统计量,例如用 x 表示样本平均 数,用S表示样本标准差。总体参数由相应的统计量来估计,例如用 x 估计μ,用S估计σ 等。 三、准确性与精确性 准确性(accuracy)也叫准确度,指在调查或试验中某一试验指标或性状的观测值与其真 值接近的程度。设某一试验指标或性状的真值为μ,观测值为 x,若 x与μ相差的绝对值|x -μ|小,则观测值x的准确性高;反之则低。精确性(precision)也叫精确度,指调查或试验 中同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测 值xi 、xj 相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。准确性、精确性的意
义图示如下: A 4) 图1-1准确性与精确性示( 图1-1ω)观测值密集于真值μ两侧,其准确性髙、精确性亦高:图1-1(b)观测值稀疏地 分布于真值μ两侧,其准确性高,精确性却低:图1-1(c)观测值密集于远离真值μ的一侧, 准确性低,精确性髙:图1-1(ω观测值稀疏的分布于远离真值μ的一侧,其准确性、精确性 都低。调査或试验的准确性、精确性合称为正确性。在调査或试验中应严格按照调査或试验 计划进行,准确地进行观测记载,力求避免人为差错,特别要注意试验条件的一致性,即除 所研究的各个处理外,供试畜禽的初始条件如品种、性别、年龄、健康状况、饲养条件、管 理措施等应尽量控制一致,并通过合理的调査或试验设计努力提高试验的准确性和精确性。 由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性 四、随机误差与系统误差 在畜牧、水产科学试验中,试验指标除受试验因素影响外,还受到许多其它非试验因素 的干扰,从而产生误差。试验中出现的误差分为两类:随机误差( random error)与系统误差 ( systematic error)。随机误差也叫抽样误差( sampling error),这是由于许多无法控制的内 在和外在的偶然因素如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致 但不可能绝对一致所造成。随机误差带有偶然性质,在试验中,即使十分小心也难以消除 随机误差影响试验的精确性。统计上的试验误差指随机误差。这种误差愈小,试验的精确性 愈高。系统误差也叫片面误差( lopsided error),这是由于试验动物的初始条件如年龄、初始 重、性别、健康状况等相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量的仪 器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。系统误差影响 试验的准确性。图1-1(c)、(a所表示的情况,则是由于出现了系统误差的缘故。一般说来, 只要试验工作做得精细,系统误差容易克服。图1-1(a)表示克服了系统误差的影响,且随机 误差较小,因而准确性高,精确性也高 第三节统计学发展概况
4 义图示如下: 图1-1(a)观测值密集于真值μ两侧,其准确性高、精确性亦高;图1-1(b)观测值稀疏地 分布于真值μ两侧,其准确性高,精确性却低;图1-1(c)观测值密集于远离真值μ的一侧, 准确性低,精确性高;图1-1(d)观测值稀疏的分布于远离真值μ的一侧,其准确性、精确性 都低。调查或试验的准确性、精确性合称为正确性。在调查或试验中应严格按照调查或试验 计划进行,准确地进行观测记载,力求避免人为差错,特别要注意试验条件的一致性,即除 所研究的各个处理外,供试畜禽的初始条件如品种、性别、年龄、健康状况、饲养条件、管 理措施等应尽量控制一致,并通过合理的调查或试验设计努力提高试验的准确性和精确性。 由于真值μ常常不知道,所以准确性不易度量,但利用统计方法可度量精确性。 四、随机误差与系统误差 在畜牧、水产科学试验中,试验指标除受试验因素影响外,还受到许多其它非试验因素 的干扰,从而产生误差。试验中出现的误差分为两类:随机误差(random error)与系统误差 (systematic error)。随机误差也叫抽样误差(sampling error),这是由于许多无法控制的内 在和外在的偶然因素如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致 但不可能绝对一致所造成。随机误差带有偶然性质,在试验中,即使十分小心也难以消除。 随机误差影响试验的精确性。统计上的试验误差指随机误差。这种误差愈小,试验的精确性 愈高。系统误差也叫片面误差(lopsided error),这是由于试验动物的初始条件如年龄、初始 重、性别、健康状况等相差较大,饲料种类、品质、数量、饲养条件未控制相同,测量的仪 器不准、标准试剂未经校正,以及观测、记载、抄录、计算中的错误所引起。系统误差影响 试验的准确性。图1-1(c)、(d)所表示的情况,则是由于出现了系统误差的缘故。一般说来, 只要试验工作做得精细,系统误差容易克服。图1-1(a)表示克服了系统误差的影响,且随机 误差较小,因而准确性高,精确性也高。 第三节 统计学发展概况 图1-1 准确性与精确性示 意图
由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原 始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践上升到理论上 予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百 余年的短暂历史。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现 代推断统计学三种形态 、古典记录统计学 古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。统计学在这个兴起阶 段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济 状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项 较成熟的方法。最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计 学家拉普拉斯(PS. Laplace,1749~1827)。因此,后来比利时大统计学家凯特勒指出,统 计学应从拉普拉斯开始。 (一)拉普拉斯的主要贡献 1、发展了概率论的研究拉普拉斯第一种关于概率论的表述发表于1774年。从1812 年起,先后出过四版《概率分析理论》,是他的代表作。书中,拉普拉斯最早系统地把数学 分析方法运用到概率论研究中去,建立了严密的概率数学理论。该书不仅总结了他自己过去 的研究,而且还总结了前一代学者研究概率论的成果,成为古典概率论的集大成者。 2、推广了概率论在统计中的应用由于拉普拉斯是通过结合天文学、物理学的研 究来从事概率研究的,所以,他能相当自觉、相当明确地指出:概率论能在广泛范围中应用, 能解决一系列的实际问题。他在实际推广中的成绩是多方面的,主要表现在人口统计、观察 误差理论和概率论对于天文问题的应用。1809~1812年,他结合概率分布模型和中心极限思 想来研究最小二乘法,首次为统计学中这项后来最常用的手段奠定了理论基础 3、明确了统计学的大数法则拉普拉斯认为:“由于现象发生的原因,是为我们 所不知或知道了也因为原因繁复而不能计算:发生原因又往往受偶然因素或无一定规律性因 素所扰乱,以至事物发展发生的变化,只有进行长期大量观察,才能求得发展的真实规律 概率论则能研究此项发展改变原因所起作用的成份,并可指明成份多少。”这是他通过天文 学上的研究后所得的体会。他发现在观察天体运动现象中,当次数足够多时,能使个体的特 征趋于消失,而呈现出某种同一现象。他指出这其中一定存在着某些原因,而非出于偶然 4、进行了大样本推断的尝试在统计发展史上,人口的推算问题,多少年来成为 统计学家耿耿于怀的难题。直到十九世纪初,拉普拉斯才用概率论的原理迈出了关键的一步 在理论上,1781年拉普拉斯在“论概率”一文中,建立了概率积分,为计算区间误差提供了 有力手段。1781~1786年提出“拉普拉斯定理”(中心极限定理的一部分),初步建立了大样 本推断的理论基础。在实践上,拉普拉斯于1786年写了一篇关于巴黎人口的出生、婚姻、死 亡的文章,文中提出根据法国特定地方的出生率来推算全国人口的问题。他抽选了30个市县, 进行深入调查,推算出全国总人口数。尽管其方法和结果还相当粗糙,但在统计发展史上, 他利用样本来推断总体的思想方法,为后人开创了一条抽样调查的新路子
5 由于人类的统计实践是随着计数活动而产生的,因此,统计发展史可以追溯到远古的原 始社会,也就是说距今足有五千多年的漫长岁月。但是,能使人类的统计实践上升到理论上 予以概括总结的程度,即开始成为一门系统的学科统计学,却是近代的事情,距今只有三百 余年的短暂历史。统计学发展的概貌,大致可划分为古典记录统计学、近代描述统计学和现 代推断统计学三种形态。 一、古典记录统计学 古典记录统计学形成期间大致在十七世纪中叶至十九世纪中叶。统计学在这个兴起阶 段,还是一门意义和范围不太明确的学问,在它用文字或数字如实记录与分析国家社会经济 状况的过程中,初步建立了统计研究的方法和规则。到概率论被引进之后,才逐渐成为一项 较成熟的方法。最初卓有成效地把古典概率论引进统计学的是法国天文学家、数学家、统计 学家拉普拉斯(P.S. Laplace,1749~1827)。因此,后来比利时大统计学家凯特勒指出,统 计学应从拉普拉斯开始。 (一)拉普拉斯的主要贡献 1、发展了概率论的研究 拉普拉斯第一种关于概率论的表述发表于1774年。从1812 年起,先后出过四版《概率分析理论》,是他的代表作。书中,拉普拉斯最早系统地把数学 分析方法运用到概率论研究中去,建立了严密的概率数学理论。该书不仅总结了他自己过去 的研究,而且还总结了前一代学者研究概率论的成果,成为古典概率论的集大成者。 2、推广了概率论在统计中的应用 由于拉普拉斯是通过结合天文学、物理学的研 究来从事概率研究的,所以,他能相当自觉、相当明确地指出:概率论能在广泛范围中应用, 能解决一系列的实际问题。他在实际推广中的成绩是多方面的,主要表现在人口统计、观察 误差理论和概率论对于天文问题的应用。1809~1812年,他结合概率分布模型和中心极限思 想来研究最小二乘法,首次为统计学中这项后来最常用的手段奠定了理论基础。 3、明确了统计学的大数法则 拉普拉斯认为:“由于现象发生的原因,是为我们 所不知或知道了也因为原因繁复而不能计算;发生原因又往往受偶然因素或无一定规律性因 素所扰乱,以至事物发展发生的变化,只有进行长期大量观察,才能求得发展的真实规律。 概率论则能研究此项发展改变原因所起作用的成份,并可指明成份多少。”这是他通过天文 学上的研究后所得的体会。他发现在观察天体运动现象中,当次数足够多时,能使个体的特 征趋于消失,而呈现出某种同一现象。他指出这其中一定存在着某些原因,而非出于偶然。 4、进行了大样本推断的尝试 在统计发展史上,人口的推算问题,多少年来成为 统计学家耿耿于怀的难题。直到十九世纪初,拉普拉斯才用概率论的原理迈出了关键的一步。 在理论上,1781年拉普拉斯在“论概率”一文中,建立了概率积分,为计算区间误差提供了 有力手段。1781~1786年提出“拉普拉斯定理”(中心极限定理的一部分),初步建立了大样 本推断的理论基础。在实践上,拉普拉斯于1786年写了一篇关于巴黎人口的出生、婚姻、死 亡的文章,文中提出根据法国特定地方的出生率来推算全国人口的问题。他抽选了30个市县, 进行深入调查,推算出全国总人口数。尽管其方法和结果还相当粗糙,但在统计发展史上, 他利用样本来推断总体的思想方法,为后人开创了一条抽样调查的新路子