∑(x-x)∑(y-2 式中,r为相关系数,x为ⅹ变量数列的平均值,n为变量值的项数 y为y变量数列的平均值,o,为x变量数列的标准差,,为y变量数列的标 准差,σn 2∑(x-xXy-y为x与y的协方差, 为变量ⅹ的 标准差,a,=Vn 为变量y的标准差 相关系数公式的剖析: 相关系数是由协方差σ、σ,、O,组成的。 显示x、y是正相关、负相关 1、协方差的作用 显示ⅹ与y之间线性相关关系的密切程度 协方差是两个变量离差乘积的平均数,用来度量x,y关系的一个重要指标, 其作用在于: ①示x与y是正相关还是负相关。在平面坐标系上以两个变量的平均值 x,y为原点将第一象限划为四个象限,由于其原点是平均数,所以各相关点的 位置都改由它们的离差来决定。 其原坐标中第一对观测值的坐标点为(x1,y1),而在新的坐标图中表示为 (x1-x,y1-y),其余类推 当相关点分布在新坐标系中的第一象限时,(x-x)为正,(y-y)为正,所以 (x-x)(y-y)为正数;当相关点分在新坐标系中第二象限时,(x-x)为负,(y-y) 为正,(x-x)(y-y)为负;当分布在第三象限时,(x-x)为负,(y-y)为负,则 (x-x)(y-y)为正:当相关点分布在第四象限时,(x-x)为正,(y-y)为负,则 (x-x)(y-y)为负 此看来,r的正负号完全取决于协方差的正负号:
11 式中,r 为相关系数, x 为 x 变量数列的平均值,n 为变量值的项数 y 为 y 变量数列的平均值, x为 x 变量数列的标准差, y 为 y 变量数列的标 准差, 2 ( )( ) xy x x y y n 为 x 与 y 的协方差, 2 ( ) x x x n 为变量 x 的 标准差, 2 ( ) y y y n 为变量 y 的标准差. 相关系数公式的剖析: 相关系数是由协方差 2 xy 、 x 、 y 组成的。 1、协方差的作用 显示 x、y 是正相关、负相关 显示 x 与 y 之间线性相关关系的密切程度 协方差是两个变量离差乘积的平均数,用来度量 x,y 关系的一个重要指标, 其作用在于: 1 示 x 与 y 是正相关还是负相关。在平面坐标系上以两个变量的平均值 x , y 为原点将第一象限划为四个象限,由于其原点是平均数,所以各相关点的 位置都改由它们的离差来决定。 其原坐标中第一对观测值的坐标点为( 1 1 x , y ),而在新的坐标图中表示为 1 1 (x x, y y) ,其余类推。 当相关点分布在新坐标系中的第一象限时,(x x) 为正,( y y)为正,所以 (x x)( y y) 为正数;当相关点分在新坐标系中第二象限时,(x x) 为负,( y y) 为正,(x x)( y y) 为负;当分布在第三象限时,(x x) 为负,( y y)为负,则 (x x)( y y) 为正;当相关点分布在第四象限时,(x x) 为正,( y y)为负,则 (x x)( y y) 为负。 由此看来,r 的正负号完全取决于协方差的正负号: 2 2 1 ( )( ) 1 1 ( ) ( ) x x y y n r x x y y n n 2 xy x y
当∑(x-x)(y-y为负时,r为负,点大多分布在2、4象限; ∑(x-x)y-y为正时,r为正,点大多布在1、3象限。 ②协方差显示x与y相关程度的大小 A、当相关点在新坐标的四个象限散乱分布时,如图2-2,表示x与y线性 相关程度很低,这时(x-x)y-y)的正负项相互抵消,∑(x-x)y-y)几乎等于 0,∑(x-x)(y-y)绝对很小,从而r的绝对值也很小,表明相关程度很低。 弱相关 图2-2 B、当相关点分布在y=y线上,表示y与x值的变化无关;或相关点分布 在x=x线上,表示x与y值的变化无关,这时离差乘积∑(x-xy-y)都等于0, 从而相关系数等于0,二者不相关。见图2-3 图2-3.无线性相关关系 C、当相关点的分布十分靠近于一直线上,如图2-4中所示,表示ⅹ与y线
12 当 (x x)( y y)为负时,r 为负,点大多分布在 2、4 象限; (x x)( y y)为正时,r 为正 ,点大多布在 1、3 象限。 ②协方差显示 x 与 y 相关程度的大小 A、当相关点在新坐标的四个象限散乱分布时,如图 2-2,表示 x 与 y 线性 相关程度很低,这时(x x)( y y) 的正负项相互抵消,(x x)( y y)几乎等于 0,(x x)( y y)绝对很小,从而 r 的绝对值也很小,表明相关程度很低。 · · · · · · · · · · · · 弱相关 图 2-2 B、当相关点分布在 y y 线上,表示 y 与 x 值的变化无关;或相关点分布 在 x x 线上,表示 x 与 y 值的变化无关,这时离差乘积(x x)( y y)都等于 0, 从而相关系数等于 0,二者不相关。见图 2-3. y y y X x x 图 2-3. 无线性相关关系 C、当相关点的分布十分靠近于一直线上,如图 2-4 中所示,表示 x 与 y 线
性相关关系越密切,这时(x-x)y-y)很少或者没有正负项相抵消,则积差和的 绝对值较大,从而相关系数的绝对值较大,表示ⅹ与y相关关系密切 正线性相关 图2-4 2、标准差O;,O,的作用 ①消除离差积乘中两个变量原有计量单位的影响 ②使r局限在-1至1之间 协方差已经可以显示两个变量之间相关关系的性质和密切程度,那么,为什 么在相关系数中还要将协方差除以标准差,,呢? ∑ 上式可变为r σ,O-,它意味着x,y与各自平均值的离差,分 别以各自的标准差为尺度加以标准化,然后再求标准数量的协方差。 经过离差标准化,再求其协方差,有两方面的作用 ①将名数转化为不名数 不同现象其使用价值不同,计量单位不同,为了消除积差中两个变量原有计 量单位的影响,将两个变量的离差除以变量数列的标准差(平均离差),使之成 为相对积差,(x-x)·(2-),然后将它们的乘积加总除以项数,标准化结果将 名数表示的协方差化为不名数,这样的相关系数可以比较不同现象之间相关程度 的髙低。如土地面积和施肥量、粮食亩产和耕作深度,某地消费量与居民人数等, 计量单位是不同的
13 性相关关系越密切,这时(x x)( y y) 很少或者没有正负项相抵消,则积差和的 绝对值较大,从而相关系数的绝对值较大,表示 x 与 y 相关关系密切。 · · · · · · · · · 正线性相关 图 2-4 2、标准差 x , y 的作用 ①消除离差积乘中两个变量原有计量单位的影响 ②使 r 局限在-1 至 1 之间 协方差已经可以显示两个变量之间相关关系的性质和密切程度,那么,为什 么在相关系数中还要将协方差除以标准差 , x y 呢? 上式可变为 ( ) x y x x y y r n ,它意味着 x,y 与各自平均值的离差,分 别以各自的标准差为尺度加以标准化,然后再求标准数量的协方差。 经过离差标准化,再求其协方差,有两方面的作用: 1 将名数转化为不名数 不同现象其使用价值不同,计量单位不同,为了消除积差中两个变量原有计 量单位的影响,将两个变量的离差除以变量数列的标准差(平均离差),使之成 为相对积差,( ) ( ) x y x x y y ,然后将它们的乘积加总除以项数,标准化结果将 名数表示的协方差化为不名数,这样的相关系数可以比较不同现象之间相关程度 的高低。如土地面积和施肥量、粮食亩产和耕作深度,某地消费量与居民人数等, 计量单位是不同的
②将相关系数的值局限在-1到+1之间。 不同的量,协方差的数值大小不同,不便于说明问题,将离差标准化的结果 使r的绝对值不超过1,相关系数在-1与+1之间变动,这就便于比较和说明问题 证明: 2 1∑ 2(x-x 同理 ∴2r+2≥0r≥-1 2∑() 同理:根据-2r= 可得2r+2≥0r≤1 则1≤r≤+1 当H=1时,x与y完全线性相关 =0时,x与y无线性相关关系 r越接近于1,表明x与y的相关程度越高。 例如,现有两项资料,其协相关相等,但相关的程度却有很大的差异(举例 说明协方差必须标准化),见表2-5、表2-6。 资料25中,x=3,y=2协方差计算过程见表2-5 ∑(x-xxy-y)5 n
14 2 将相关系数的值局限在-1 到+1 之间。 不同的量,协方差的数值大小不同,不便于说明问题,将离差标准化的结果 使 r 的绝对值不超过 1,相关系数在-1 与+1 之间变动,这就便于比较和说明问题。 证明: 2 2 2 2 ( ) ( ) 2 1 1 1 ( ) ( ) ( ) x y x y x y x x y y n x x y y x x y y n n n ∵ 1 2 ( ) 0 x y x x y y n 2 2 2 2 2 1 ( ) 1 ( ) x x x x x x n n x x 同理: 1 2 ( ) 1 y y y n ∴2r+2≥0 r≥-1 同理:根据 2 ( ) ( ) 2 x y x x y y r n 可得 2r+2≥0 r≤1 则 -1≤r≤+1 当 r 1 时,x 与 y 完全线性相关。 r 0 时,x 与 y 无线性相关关系 r 越接近于 1,表明 x 与 y 的相关程度越高。 例如,现有两项资料,其协相关相等,但相关的程度却有很大的差异(举例 说明协方差必须标准化),见表 2-5、表 2-6。 资料 2-5 中, x =3 , y =2 协方差计算过程见表 2-5。 2 ( )( ) 5 1 5 xy x x y y n