简介 1.1 简介 1 1.2 距离与相异性度量 6 1.3 聚类方法 11 1.3.1系统聚类法 12 1.3.2 K-means.. 19 1.3.3谱聚类. 24 1.4确定类的数目 30 1.5聚类质量的评价... 38 Previous Next First Last Back Forward 1
简介 1.1 简介 . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 距离与相异性度量 . . . . . . . . . . . . . . . 6 1.3 聚类方法 . . . . . . . . . . . . . . . . . . . . 11 1.3.1 系统聚类法 . . . . . . . . . . . . . . . 12 1.3.2 K-means . . . . . . . . . . . . . . . . . 19 1.3.3 谱聚类 . . . . . . . . . . . . . . . . . . 24 1.4 确定类的数目 . . . . . . . . . . . . . . . . . . 30 1.5 聚类质量的评价 . . . . . . . . . . . . . . . . . 38 Previous Next First Last Back Forward 1
1.1 简介 ·将一组数据依照内在相似性划分为多个类别,使类别内的数据 相似度较大而类别间的数据相似度较小。 ·聚类分析假设数据的特征允许我们可以识别不同的类别,但事 先并不知道数据由几个组构成,因而是一种无监督的学习。 ·同义词:data segmentation(数据挖掘领域)、class discovery (机器学习领域)。 ·应用领域包括经济领域,生物领域,数据挖掘等等 ·例如商店希望刻画顾客群的特征,区分不同的客户类,挖掘有 价值的客户,以制定不同的关系管理方式,提高客户对商业活 动的响应率 Previous Next First Last Back Forward 1
1.1 简介 • 将一组数据依照内在相似性划分为多个类别,使类别内的数据 相似度较大而类别间的数据相似度较小。 • 聚类分析假设数据的特征允许我们可以识别不同的类别,但事 先并不知道数据由几个组构成,因而是一种无监督的学习。 • 同义词:data segmentation(数据挖掘领域)、class discovery (机器学习领域)。 • 应用领域包括经济领域,生物领域,数据挖掘等等 • 例如商店希望刻画顾客群的特征,区分不同的客户类,挖掘有 价值的客户,以制定不同的关系管理方式,提高客户对商业活 动的响应率 Previous Next First Last Back Forward 1
相关的研究领域 一数据挖掘:各种各种复杂形状类的识别,高维聚类等 一统计学:主要集中在基于距离的聚类分析,发现球状类 一机器学习:无指导学习(聚类不依赖预先定义的类) 一其他领域:空间数据技术,生物学,市场营销学 什么是类? -至今还没有普遍接受的定义:哪些特征决定了一个类。因此, 不同的聚类方法多得到不同的聚类结果。 一直观上:一个类是一组个体(对象、点等),这些个体离这个类 的中心个体比较“近”(在合适的度量下);不同类的成员之间 的距离“比较远”。 Previous Next First Last Back Forward 2
相关的研究领域 – 数据挖掘: 各种各种复杂形状类的识别,高维聚类等 – 统计学: 主要集中在基于距离的聚类分析,发现球状类 – 机器学习: 无指导学习(聚类不依赖预先定义的类) – 其他领域: 空间数据技术, 生物学, 市场营销学 什么是类? – 至今还没有普遍接受的定义:哪些特征决定了一个类。因此, 不同的聚类方法多得到不同的聚类结果。 – 直观上:一个类是一组个体(对象、点等),这些个体离这个类 的中心个体比较“近”(在合适的度量下);不同类的成员之间 的距离“比较远”。 Previous Next First Last Back Forward 2
·在2D或3D散点图中,我 00 们很容易的发现数据中的 00d000 o 类。 80 89 ,对发现的类我们经常赋予 我们认为“应该”会存在 的结构或者意义。 。必须注意:“类”可能仅 仅是一个聚类方法的结果 ·一个“类”依赖于如何定 义它以及应用背景 Previous Next First Last Back Forward 3
• 在 2D 或 3D 散点图中,我 们很容易的发现数据中的 类。 • 对发现的类我们经常赋予 我们认为“应该”会存在 的结构或者意义。 • 必须注意:“类”可能仅 仅是一个聚类方法的结果 • 一个“类”依赖于如何定 义它以及应用背景 Previous Next First Last Back Forward 3
聚类与分类(clustering and classification) ·分类: 一有类别标记信息.因此是一种监督学习 一根据训练样本获得分类器,然后把每个数据归结到某个 已知的类,进而也可以预测未来数据的归类。 一分类具有广泛的应用,例如医疗诊断、信用卡的信用分 级、图像模式识别。 ·聚类: 一无类别标记,因此是一种无监督学习 一无训练样本,根据信息相似度原则进行聚类,通过聚类, 人们能够识别密集的和稀疏的区域,因而发现全局的分 布模式,以及数据属性之间的关系 Previous Next First Last Back Forward 4
聚类与分类(clustering and classification) • 分类: – 有类别标记信息, 因此是一种监督学习 – 根据训练样本获得分类器,然后把每个数据归结到某个 已知的类,进而也可以预测未来数据的归类。 – 分类具有广泛的应用,例如医疗诊断、信用卡的信用分 级、图像模式识别。 • 聚类: – 无类别标记, 因此是一种无监督学习 – 无训练样本,根据信息相似度原则进行聚类,通过聚类, 人们能够识别密集的和稀疏的区域,因而发现全局的分 布模式,以及数据属性之间的关系 Previous Next First Last Back Forward 4