更新时间:2024-08-23 21:09
将物理或抽象对象的集合分组称为由类似的对象组成的多个类的过程被称为聚类。高维聚类分析与传统聚类分析的最主要差别就是高维度。高维数据聚类是聚类技术的难点和重点。
目前,聚类分析的研究集中在聚类方法的可伸缩性、对复杂形状和类型的数据进行聚类的有效性、高维聚类分析技术以及混合数据的聚类方法研究,其中,高维数据聚类是聚类分析的难题,也是涉及到聚类算法是否适用于很多领域的关键。而传统聚类算法对高维数据空间进行聚类时会遇到困难,为了解决这个问题,R.Agrawal首次提出了子空间聚类的概念 ,以解决高维数据的聚类问题。
高维数据聚类已成为数据挖掘中的一个重要研究方向。因为随着技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web 文档、基因表达数据等,它们的维度(属性)通常可以达到成百上千维,甚至更高。但是,受“维度效应”的影响,许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。
传统的聚类算法可分以下五类 :① 划分方法②层次方法③基于密度的方法④基于网格的方法⑤基于模型的方法。它们已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性,在处理许多问题时,现有的算法经常失效,特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时,主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;②高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。
目前一般使用两种方法解决以上问题:(1)特征转换,(2)特征选择 /子空间聚类。
特征转换是一种传统的方法,包括主成份分析和奇异值分解等策略。该方法通过线性合并将原数据集的维合并至k个新维,使得诸如k~均值一类的传统算法能在这k个新维中进行有效聚类,从而达到减少维的目的。但是该方法的缺点有三点:一是难于确定合适的k值,二是高维空间中存在大量无关维而掩盖了簇,给聚类造成困难;三是聚类时容易产生无意义的簇。因此该方法只适合对事先已知多数维都相关的高维数据集进行聚类。
特征选择和特征转换不同,它只在那些相关的子空间上执行挖掘任务,因此它比特征转换更有效地减少维。特征选择一般使用贪心策略等搜索方法搜索不同的特征子空间,然后使用一些标准来评价这些子空间,从而找到所需的簇。
子空间聚类算法拓展了特征选择的任务,尝试在相同数据集的不同子空间上发现聚类。和特征选择一样,子空间聚类需要使用一种搜索策略和评测标准来筛选出需要聚类的簇,不过考虑到不同簇存在于不同的子空间,需要对评测标准做一些限制。选择的搜索策略对聚类结果有很大的影响。根据搜索的方向的不同,可以将子空间聚类方法分成两大类:自顶向下的搜索策略和自底向上的搜索策略。子空间聚类是实现高维数据集聚类的有效途径,它是在高维数据空间中对传统聚类算法的一种扩展,其思想是将搜索局部化在相关维中进行。
高维数据聚类分析是聚类分析中一个非常活跃的领域,同时它也是一个具有挑战性的工作。目前,高维数据聚类分析在市场分析、信息安全、金融、娱乐、反恐等方面都有很广泛的应用。