高维聚类分析 - 知识百科

高维聚类分析

更新时间：2024-08-23 21:09

将物理或抽象对象的集合分组称为由类似的对象组成的多个类的过程被称为聚类。高维聚类分析与传统聚类分析的最主要差别就是高维度。高维数据聚类是聚类技术的难点和重点。

详细内容

目前，聚类分析的研究集中在聚类方法的可伸缩性、对复杂形状和类型的数据进行聚类的有效性、高维聚类分析技术以及混合数据的聚类方法研究，其中，高维数据聚类是聚类分析的难题，也是涉及到聚类算法是否适用于很多领域的关键。而传统聚类算法对高维数据空间进行聚类时会遇到困难，为了解决这个问题，R．Agrawal首次提出了子空间聚类的概念，以解决高维数据的聚类问题。

高维数据聚类已成为数据挖掘中的一个重要研究方向。因为随着技术的进步使得数据收集变得越来越容易，导致数据库规模越来越大、复杂性越来越高，如各种类型的贸易交易数据、Web 文档、基因表达数据等，它们的维度（属性）通常可以达到成百上千维，甚至更高。但是，受“维度效应”的影响，许多在低维数据空间表现良好的聚类方法运用在高维空间上往往无法获得好的聚类效果。

传统算法

传统的聚类算法可分以下五类：① 划分方法②层次方法③基于密度的方法④基于网格的方法⑤基于模型的方法。它们已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性，在处理许多问题时，现有的算法经常失效，特别是对于高维数据和大型数据的情况。因为传统聚类方法在高维数据集中进行聚类时，主要遇到两个问题。①高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零；②高维空间中数据较低维空间中数据分布要稀疏，其中数据间距离几乎相等是普遍现象，而传统聚类方法是基于距离进行聚类的，因此在高维空间中无法基于距离来构建簇。

目前一般使用两种方法解决以上问题：（1）特征转换，（2）特征选择 /子空间聚类。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}