中的X2统计量进行. Coef.of contingency s= 1/2 Cramer's V contingency coef.sij nminfp-1,g-1 ·变量之间的相似性样本相关系数常常用来度量变量之间的相 似性,常常使用相关系数的绝对值度量变量之间的相似性.x的 第i个分量X:和第方个分量X;之间的相似性: 样本相关系数r= ∑4=1(xk-元)(xk-,) [∑=xk-P∑x-x丹]7 夹角余弦0= ∑火=1XXh [a-为]严 Previous Next First Last Back Forward 10
中的 χ 2 统计量进行. Coef. of contingency sij = ( χ 2 χ2 + n )1/2 Cramer’s V contingency coef. sij = ( χ 2 n min{p − 1, q − 1} )1/2 • 变量之间的相似性 样本相关系数常常用来度量变量之间的相 似性, 常常使用相关系数的绝对值度量变量之间的相似性. x 的 第 i 个分量 Xi 和第 j 个分量 Xj 之间的相似性: 样本相关系数 rij = ∑n k=1(xik − x¯i)(xjk − x¯j ) [∑n k=1(xik − x¯i) 2 ∑n k=1(xjk − x¯j ) 2 ]1/2 夹角余弦 θij = ∑n k=1 xikxjk [∑n k=1 x 2 ik ∑n k=1 x 2 jk]1/2 Previous Next First Last Back Forward 10
1.3 聚类方法 常见的聚类方法包括 Clustering algorithins Hierarchical Partitional Density.Grid Others PIW OSOOH theoretic A-Means FCM MDS Chuster K-Modes K-Modes K-Means-CP NFWFCA FGFCM (CGC) (Hun】 [IPR-A-Modes Previous Next First Last Back Forward 11
1.3 聚类方法 常见的聚类方法包括 Previous Next First Last Back Forward 11
1.3.1 系统聚类法 。系统聚类法(Hierarchical clustering,也称层次聚类法)是最经 典和常用的聚类方法之一 。系统聚类法需要度量样本点之间的距离(dissimilarity)和类与 类之间的联接(linkage)程度 ·系统聚类法包括两种 -聚合方法(agglomerative hierarchical method):(自下而上)一 开始将每个样本个体作为单独的一类,然后根据类间联接程度, 合并相近的类,直到所有的类合并成一个类 -分裂方法(divisive hierarchical method):(自上而下)一开始将 所有的样本个体置于一类,在迭代的每一步中,一个类不断地 分为更小的类,直到每个样本个体单独为一个类 ·我们主要介绍聚合聚类方法 Previous Next First Last Back Forward 12
1.3.1 系统聚类法 • 系统聚类法 (Hierarchical clustering, 也称层次聚类法) 是最经 典和常用的聚类方法之一. • 系统聚类法需要度量样本点之间的距离 (dissimilarity) 和类与 类之间的联接 (linkage) 程度 • 系统聚类法包括两种 – 聚合方法(agglomerative hierarchical method): (自下而上) 一 开始将每个样本个体作为单独的一类,然后根据类间联接程度, 合并相近的类,直到所有的类合并成一个类 – 分裂方法(divisive hierarchical method): (自上而下) 一开始将 所有的样本个体置于一类,在迭代的每一步中,一个类不断地 分为更小的类,直到每个样本个体单独为一个类. • 我们主要介绍聚合聚类方法 Previous Next First Last Back Forward 12
树状图(Dendrogram) 层次聚类的结果常常使用树状图(dendrogram)来表示. ·每个节点表示一个类 ·每个叶子节点表示一个独点(只含 一个样本点的类). 6 ·根节点是包含了所有样本点的类 ·每个中间节点有两个子节点,表示 其通过合并这两个子类而来 ·当叶子节点调整到高度0时候,则 每个中间节点的高度与其两个子节 01 点间的相异度大小成比例 Objects ·在合适的高度上对树进行切割得到 聚类结果 Previous Next First Last Back Forward 13
树状图 (Dendrogram) 层次聚类的结果常常使用树状图 (dendrogram) 来表示. • 每个节点表示一个类 • 每个叶子节点表示一个独点 (只含 一个样本点的类). • 根节点是包含了所有样本点的类 • 每个中间节点有两个子节点, 表示 其通过合并这两个子类而来 • 当叶子节点调整到高度 0 时候, 则 每个中间节点的高度与其两个子节 点间的相异度大小成比例 • 在合适的高度上对树进行切割得到 聚类结果 Previous Next First Last Back Forward 13