更新时间:2022-08-25 16:51
动态聚类法(dynamical clustering methods )亦称逐步聚类法。一类聚类法,属于大样本聚类法.具体作法是:先粗略地进行预分类,然后再逐步调整,直到把类分得比较合理为止,这种分类方法较之系统聚类法,具有计算量较小、占用计算机存贮单元少、方法简单等优点,所以更适用于大样本的聚类分析。 动态聚类法的聚类过程,可用以框图来描述,框图的每一部分,均有很多种方法可采用,将这些方法按框图进行组合,就会得到各种动态聚类法。
Q型系统聚类法一般是在样品间距离矩阵的基础上进行的,故当样品的个数n很大(如n≥100)时,系统聚类法的计算量是非常大的,将占据大量的计算机内存空间和较多的计算机时间,甚至会因计算机内存或计算机时间的限制而无法进行。因此,当n很大时,我们自然需要一种相比系统聚类法而言计算量少得多,以致计算机运行时只需占用较少的内存空间和较短计算时间的聚类法。动态聚类法正是基于这种考虑而产生的一种方法。由于该方法不必确定距离矩阵,在计算机运行中不必存储基本数据,因此同系统聚类法相比,这种方法更适用于大的数据集,而且n越大,它的优越性就越突出。
动态聚类法的基本思想是:选择一批凝聚点或给出一个初始的分类,让样品按某种原则向凝聚点凝聚,对凝聚点进行不断地修改或迭代,直至分类比较合理或迭代稳定为止。
注:类的个数可以事先指定,也可以在聚类过程中确定。选择初始凝聚点(或给出初始分类)的一种简单方法是采用随机抽选样品的方法。
运用动态聚类法对样本进行分类一般分成三步。
第一步:运用标准变换法对原始数据进行标准化处理。
第二步:选择预定数目的聚核,对样本数据进行初始分组。
聚核就是一批有代表性的点,是欲形成类的中心。聚核选择直接决定初始分类,对分类结果也有很大的影响,由于聚核的不同选择,其最终分类结果也将出现不同,故选择时要慎重。通常选择聚核的方法有如下几种:
①人为选择,当人们对所欲分类的问题有一定了解时,根据经验,预先确定分类个数和初始分类,并从每一类中选择一个有代表性的样品作为聚核。
②将数据人为地分为K类,计算每一类的重心,并将这些重心作为聚核。
③密度法选择聚核,以某个正数d为半径,以每个样品为球心,落在这个球内的样本数(不包括作为球心的样品)就叫做这个样品的密度。
④人为地选择一正数d,首先以所有样本的均值作为第一聚核,然后依次考察每个样本,若某样本与已选定的聚核的距离均大于d,该样本作为新的聚核,否则考察下一个样本。
动态聚类法有许多种方法,在这一节中,我们将讨论一种比较流行的动态聚类法——k均值法。它是由麦奎因提出并命名的,其基本步骤如下:
(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。
(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类的均值,直至所有样品都归了类。
(3)重复步骤(2),直至所有的样品都不能再分配为止。
最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次分配中。