定理1.设随机向量X=(X1,·,X)了的协方差矩阵∑有特征根 和特征向量(以,p),i=1,,p,且入1≥2≥…≥入p≥0.则满 足上述过程的单位向量à为 ai=,i=1,..,p. 证明.由代数事实(课本2.7节)有 maxa'∑a=X1,最大值在a1=1处达到 lal=1 max a∑a=Xk,最大值在ak=中k处达到 al=1,a1p1,k-1 注意到a∑ak=a∑中k=ka4pk=0,k<i台ai⊥1,,pi-1, 从而由上述代数事实立证. 口 Previous Next First Last Back Forward 5
定理 1. 设随机向量 X = (X1, . . . , Xp) ′ 的协方差矩阵 Σ 有特征根 和特征向量 (λi, ϕi), i = 1, . . . , p, 且 λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0. 则满 足上述过程的单位向量 aˆ 为 aˆi = ϕi, i = 1, . . . , p. 证明. 由代数事实 (课本 2.7 节) 有 max ∥a∥=1 a ′Σa = λ1, 最大值在aˆ1 = ϕ1处达到 max ∥a∥=1,a⊥ϕ1,...,ϕk−1 a ′Σa = λk, 最大值在aˆk = ϕk处达到 注意到 a ′ iΣˆak = a ′ iΣϕk = λka ′ iϕk = 0, k < i ⇔ ai ⊥ ϕ1, . . . , ϕi−1, 从而由上述代数事实立证. Previous Next First Last Back Forward 5
·此时 Var(Ya)=p∑φ=λipip:=λ: Cou(Y,Yk)=∑bk=入kppk=0,i≠k ·因此主成分方法将相关的变量X1,,Xp转换为不相关的变 量Y,,yp,且 Var=aa四=+…+-ar0价 Previous Next First Last Back Forward 6
• 此时 V ar(Yi) = ϕ ′ iΣϕ = λiϕ ′ iϕi = λi Cov(Yi, Yk) = ϕ ′ iΣϕk = λkϕ ′ iϕk = 0, i ̸= k • 因此主成分方法将相关的变量 X1, . . . , Xp 转换为不相关的变 量 Y1, . . . , Yp. 且 ∑p i=1 V ar(Xi) = trace(Σ) = λ1 + · · · + λp = ∑p i=1 V ar(Yi) Previous Next First Last Back Forward 6
·第k个主成分Y:所占的方差比例 入k ,k=1,,p 入1+·+入p ·如果前d个(化=1,,d.)主成分所能解释的总的方差比例超 过80%(经验上),则可以使用这前d个主成分来表示原来变量, 这样做仅仅损失少量信息. Previous Next First Last Back Forward 1
• 第 k 个主成分 Yk 所占的方差比例 λk λ1 + · · · + λp , k = 1, . . . , p • 如果前 d 个 (k = 1, . . . , d.) 主成分所能解释的总的方差比例超 过 80%(经验上), 则可以使用这前 d 个主成分来表示原来变量, 这样做仅仅损失少量信息. Previous Next First Last Back Forward 7
·第:个主成分和第k个原始变量之间的相关系数为 Cou(oX,ekx) PyXk= VVar(Yi)Var(Xk) V八:0kk √Okk 度量了第k个变量对第i个主成分的贡献.其中k=[0,.,0,1,0,,0 使得Xk=ekX. ·py,x仅仅衡量Xk对上的贡献,而不管其他变量.因此一些 学者建议仅使用中k来衡量变量Xk对主成分Y的重要程度, 根据中:的(绝对值)值对原始p个变量从大到小排序,来表示 原始变量对主成分Y的重要性排序 ·前m个主成分Y,Y,…,Ym与原变量Xk(1≤k≤p)的 各相关系数的平方和称为Y,Y2,…·,Ym对Xk的方差贡献率 (或简称贡献率),记作m(或在不混淆的情况下直接记为,) Previous Next First Last Back Forward
• 第 i 个主成分和第 k 个原始变量之间的相关系数为 ρYi,Xk = Cov(ϕ ′ iX, e′ kX) √ V ar(Yi)V ar(Xk) = ϕ ′ iΣek √ λiσkk = ϕik√ λi √ σkk 度量了第 k 个变量对第 i 个主成分的贡献. 其中 e ′ k = [0, . . . , 0, 1, 0, . . . , 0], 使得 Xk = e ′ kX. • ρYi,Xk 仅仅衡量 Xk 对 Yi 的贡献, 而不管其他变量. 因此一些 学者建议仅使用 ϕik 来衡量变量 Xk 对主成分 Yi 的重要程度, 根据 ϕi 的 (绝对值) 值对原始 p 个变量从大到小排序, 来表示 原始变量对主成分 Yi 的重要性排序. • 前 m 个主成分 Y1, Y2, · · · , Ym 与原变量 Xk (1 ≤ k ≤ p) 的 各相关系数的平方和称为 Y1, Y2, · · · , Ym 对 Xk 的方差贡献率 (或简称贡献率), 记作 ν (m) k (或在不混淆的情况下直接记为 νk), Previous Next First Last Back Forward 8
即有 1 Vk= Xa,k=1,2,…,p. 设三维随机向量X=(X1,X2,X3)'的协方差阵为 TExample 求其相应的主成分. ⊥Example 首先,经过简单计算可得∑的特征值以及对应的单位特征向量分 Previous Next First Last Back Forward 9
即有 νk = 1 σkk ∑m i=1 λia 2 ki, k = 1, 2, · · · , p. ↑Example 设三维随机向量 X = (X1, X2, X3) ′ 的协方差阵为 Σ = 1 −2 0 −2 5 0 0 0 2 . 求其相应的主成分. ↓Example 首先, 经过简单计算可得 Σ 的特征值以及对应的单位特征向量分 Previous Next First Last Back Forward 9