·使用可视化工具探测类 一多峰性是不同类存在的标志 -多种可视化技术可以使用:PCA,FA,MDS,Manifest learning,SOM等等. Previous Next First Last Back Forward
• 使用可视化工具探测类 – 多峰性是不同类存在的标志 – 多种可视化技术可以使用: PCA, FA, MDS, Manifest learning, SOM 等等. Previous Next First Last Back Forward 5
1.2 距离与相异性度量 ·聚类就是发现数据中具有“相似性”(similarity)的个体 ·选择合适的“相似性”度量是进行聚类的关键,相似性度量函 数s(,)一般满足 1.0≤s(x,y)≤1 2.s(x,x)=1 3.s(x,y)=s(y,x) ·也可以使用相异性(dissimilarity)来度量数据之间的接近程度. 下面我们以相异性为例.相异性度量和相似性度量之间一般可 以相互转换 ·相异性度量多为某种”距离”度量 ·样本点之间的相异性(距离)函数d(,)一般满足 Previous Next First Last Back Forward 6
1.2 距离与相异性度量 • 聚类就是发现数据中具有“相似性”(similarity) 的个体 • 选择合适的“相似性”度量是进行聚类的关键, 相似性度量函 数 s(·, ·) 一般满足 1. 0 ≤ s(x, y) ≤ 1 2. s(x, x) = 1 3. s(x, y) = s(y, x) • 也可以使用相异性 (dissimilarity) 来度量数据之间的接近程度. 下面我们以相异性为例. 相异性度量和相似性度量之间一般可 以相互转换. • 相异性度量多为某种” 距离” 度量 • 样本点之间的相异性 (距离) 函数 d(·, ·) 一般满足 Previous Next First Last Back Forward 6
1.d(x,y)≥0,等号成立当且仅当x=y 2.d(x,x)=0 metric dissimilarity 3.d(x,y)=d(y,x) 4.d(x,y)≤d(x,z)+d(z,y) 5.d(x,y)≤max{d(x,z),d(z,y)} 如果还满足第5条,则称d为ultrametric dissimilarity 。 样本点之间的相异性记x,y∈P为两个样本点,则距离的选 择非常重要,最好的距离谁则往往要基于经验,知识和运气等得 到 ·一般要根据数据的类型选择合适的相异性(距离)度量准则 一比例尺度(区间尺度)下的样本数据点常用距离准则 Previous Next First Last Back Forward
1. .d(x, y) ≥ 0, 等号成立当且仅当 x = y 2. d(x, x) = 0 3. d(x, y) = d(y, x) 4. d(x, y) ≤ d(x, z) + d(z, y) .. metric dissimilarity 5. d(x, y) ≤ max{d(x, z), d(z, y)} . 如果还满足第 5 条, 则称 d 为ultrametric dissimilarity • 样本点之间的相异性 记 x, y ∈ R p 为两个样本点, 则距离的选 择非常重要, 最好的距离准则往往要基于经验, 知识和运气等得 到. • 一般要根据数据的类型选择合适的相异性 (距离) 度量准则. – 比例尺度 (区间尺度) 下的样本数据点常用距离准则 Previous Next First Last Back Forward 7
Minkowski: dn(x,y) [wm--ylm Manhattan:city-block distance,box-car distance) P dk-空-则=k- Euclidean: d(x,y)=llx-yll2 maximum:(Chebyshev distance) d(x,y)=maxi-yl=llx-ylloo Canberra:(非负量) d(x,y)=】 工k十 k=1 Previous Next First Last Back Forward f
Minkowski: dm(x, y) = [∑p k=1 |xk − yk| m ]1/m = ∥x − y∥m Manhattan: ( city-block distance, box-car distance) d(x, y) = ∑p k=1 |xk − yk| = ∥x − y∥1 Euclidean: d(x, y) = ∥x − y∥2 maximum:(Chebyshev distance) d(x, y) = max |xi − yi| = ∥x − y∥∞ Canberra:(非负量) d(x, y) = ∑p k=1 |xk − yk| xk + yk Previous Next First Last Back Forward 8
-0-1型变量:若x,y的元素均非零即1,则 0 行和 y 的 b a+b 0 d c+d 列和 a+c b+d n=a+b+c+d binary(Jaccard): d(x,y)= b+c←-no0-0 match a+b+c Czekanowski:d(x,y)= b+c 2a+b+c ←-no0-0 natch double 1-1 match 其他见课本表12.1. -属性变量:若x,y为属性变量,各有p和q个不同的类 别,则度量两者之间的相似性常常基于列联表度量性检验 Previous Next First Last Back Forward
– 0-1 型变量: 若 x, y 的元素均非零即 1, 则 ❅ ❅y ❅ x 1 0 行和 1 a b a+b 0 c d c+d 列和 a+c b+d n=a+b+c+d binary(Jaccard) : d(x, y) = b + c a + b + c Czekanowski : d(x, y) = b + c 2a + b + c . ←no 0-0 match ←no 0-0 match double 1-1 match 其他见课本表 12.1. – 属性变量: 若 x, y 为属性变量, 各有 p 和 q 个不同的类 别, 则度量两者之间的相似性常常基于列联表度量性检验 Previous Next First Last Back Forward 9