简介 1.1 简介 1 1.2 总体主成分 3 1.3 样本主成分 16 1.4 大样本性质.· 22 1.5PCA和SVD 26 1.6PCA的应用 28 Previous Next First Last Back Forward 1
简介 1.1 简介 . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 总体主成分 . . . . . . . . . . . . . . . . . . . 3 1.3 样本主成分 . . . . . . . . . . . . . . . . . . . 16 1.4 大样本性质 . . . . . . . . . . . . . . . . . . . 22 1.5 PCA 和 SVD . . . . . . . . . . . . . . . . . . 26 1.6 PCA 的应用 . . . . . . . . . . . . . . . . . . . 28 Previous Next First Last Back Forward 1
1.1 简介 ·高维数据存在的问题:维数灾难(curse of dimensionality,p》 n) 一运算时间 一过拟合 -需要的样本量大小(达到同样的精度,需要样本量) ·维数减低技术:希望用较少的变量来代替原来较多的变量,而 这些较少的变量尽可能反映原来变量的信息 ·维数降低技术包括主成分分析,因子分析,典型相关分析,多维 标度法,神经网络,流行学习等等 Previous Next First Last Back Forward 1
1.1 简介 • 高维数据存在的问题: 维数灾难 (curse of dimensionality, p ≫ n) – 运算时间 – 过拟合 – 需要的样本量大小 (达到同样的精度, 需要样本量 n d ) • 维数减低技术: 希望用较少的变量来代替原来较多的变量, 而 这些较少的变量尽可能反映原来变量的信息. • 维数降低技术包括主成分分析, 因子分析, 典型相关分析, 多维 标度法, 神经网络, 流行学习等等. Previous Next First Last Back Forward 1
主成分分析(PCA,Principal components analysis) ·一种自然的想法就是将数据线性投影到低维空间:记个观测 的m维数据矩阵为Xmxn,寻找变换矩阵Paxm,d《m,则 Y=PX,即将原始m维数据点在d维空间表示.选择合适的 目标(准则)函数后,寻找最优的投影阵A. ·主成分分析方法就是寻找d个原来变量的线性组合,使得它们 保留了大部分方差波动性, ·这些由原来变量的线性组合构成的变量即称为主成分 ·主成分分析可以用来检测样本点中的异常点,在低维空间表达 原始数据以发现可能存在的模式 ·(样本)主成分的得分常常作为响应变量,以进行下一步分析(回 归,聚类,判别等等)的基础. Previous Next First Last Back Forward 2
主成分分析 (PCA, Principal components analysis) • 一种自然的想法就是将数据线性投影到低维空间: 记 n 个观测 的 m 维数据矩阵为 Xm×n, 寻找变换矩阵 Pd×m, d ≪ m, 则 Y = PX, 即将原始 m 维数据点在 d 维空间表示. 选择合适的 目标 (准则) 函数后, 寻找最优的投影阵 A. • 主成分分析方法就是寻找 d 个原来变量的线性组合, 使得它们 保留了大部分方差波动性. • 这些由原来变量的线性组合构成的变量即称为主成分 • 主成分分析可以用来检测样本点中的异常点, 在低维空间表达 原始数据以发现可能存在的模式 • (样本) 主成分的得分常常作为响应变量, 以进行下一步分析 (回 归, 聚类, 判别等等) 的基础. Previous Next First Last Back Forward 2
1.2 总体主成分 ·假设随机向量X=(X1,.,X)'的协方差矩阵∑有特征根 入1≥2≥…2入p≥0 ·考虑p个线性组合 Yi=aiX a11X1+...+aipXp Y2 a2X a21X1+...+a2pXp Yp apx apIX1+...+appXp ·Y,…,Y。称为主成分.我们有 Var(Yi)=aiEai,i=1,...,p Cov(Yi,Yj)=aiSaj,aj,i,j=1,...,p Previous Next First Last Back Forward 3
1.2 总体主成分 • 假设随机向量 X = (X1, . . . , Xp) ′ 的协方差矩阵 Σ 有特征根 λ1 ≥ λ2 ≥ · · · ≥ λp ≥ 0 • 考虑 p 个线性组合 Y1 = a ′ 1X = a11X1 + · · · + a1pXp Y2 = a ′ 2X = a21X1 + · · · + a2pXp . . . Yp = a ′ pX = ap1X1 + · · · + appXp • Y1, . . . , Yp 称为主成分. 我们有 V ar(Yi) = a ′ iΣai, i = 1, . . . , p Cov(Yi, Yj ) = a ′ iΣaj , aj , i, j = 1, . . . , p Previous Next First Last Back Forward 3
·选择单位向量a,使得Var(Y)≥Var()≥…≥Var(Yp) 且,,yp不相关.可以通过如下过程得到这样的向量a: 1.d1 arg max aia ‖a1I=1 2.a2=arg max 吃a2 ‖a2ll=1,a42a1=0 3.di=arg max ,a∑a llai=1,aEak=0,k<i .. 4.dp arg. max pEap apl=1,aEak=0,k<p Previous Next First Last Back Forward 4
• 选择单位向量 ai, 使得 V ar(Y1) ≥ V ar(Y2) ≥ · · · ≥ V ar(Yp) 且 Y1, . . . , Yp 不相关. 可以通过如下过程得到这样的向量 ai: 1. aˆ1 = arg max ∥a1∥=1 a ′ 1Σa1 2. aˆ2 = arg max ∥a2∥=1,a′ 2Σˆa1=0 a ′ 2Σa2 . . . 3. aˆi = arg max ∥ai∥=1,a′ iΣˆak=0,k<i a ′ iΣai . . . 4. aˆp = arg max ∥ap∥=1,a′ pΣˆak=0,k<p a ′ pΣap Previous Next First Last Back Forward 4