更新时间:2024-05-21 14:49
子空间聚类是聚类分析在数据挖掘领域中的关键技术之一。高维数据聚类是聚类分析技术的难点和重点,子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。
特性
根据算法思想,传统的聚类算法可分以下五类 :① 划分方法:将数据集随机划分为k个子集,随后通过迭代重定位技术试图将数据对象从一个簇移到另一个簇来不断改进聚类的质量;②层次方法:对给定的数据对象集合进行层次的分解,根据层次的形成方法,又可以分为凝聚和分裂方法两大类;③基于密度的方法:根据领域对象的密度或者某种密度函数来生成聚类,使得每个类在给定范围的区域内必须至少包含一定数目的点;④基于网格的方法:将对象空间量化为有限数目的单元,形成一个网格结构,使所有聚类操作都在这个网格结构上进行,使聚类速度得到较大提高;⑤基于模型的方法:为每个类假定一个模型,寻找数据对给定模型的最佳拟合。
目前,聚类分析的研究集中在聚类方法的可伸缩性、对复杂形状和类型的数据进行聚类的有效性、高维聚类分析技术以及混合数据的聚类方法研究,其中,高维数据聚类是聚类分析的难题,也是涉及到聚类算法是否适用于很多领域的关键。而传统聚类算法对高维数据空间进行聚类时会遇到困难,为了解决这个问题,R.Agrawal首次提出了子空间聚类的概念 ,以解决高维数据的聚类问题。
传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;②高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
目前一般使用两种方法解决以上问题:(1)特征转换,(2)特征选择 /子空间聚类。
特征选择只在那些相关的子空间上执行挖掘任务,因此它比特征转换更有效地减少维。特征选择一般使用贪心策略等搜索方法搜索不同的特征子空间,然后使用一些标准来评价这些子空间,从而找到所需的簇。
子空间聚类算法拓展了特征选择的任务,尝试在相同数据集的不同子空间上发现聚类。和特征选择一样,子空间聚类需要使用一种搜索策略和评测标准来筛选出需要聚类的簇,不过考虑到不同簇存在于不同的子空间,需要对评测标准做一些限制。
选择的搜索策略对聚类结果有很大的影响。根据搜索的方向的不同,可以将子空间聚类方法分成两大类:自顶向下的搜索策略和自底向上的搜索策略。