更新时间:2022-11-21 15:19
相似系数是衡量两个实体,或一个实体与一个实体组或两个实体组之间相似程度的数量指标,它是进行数量分类的基础,相似系数根据原始数据计算,实际应用时,又分相似性指标和相异性指标,相似性指标的数值大小直接反映两成员间的相似程度;而相异性指标,其数值大小则反映两成员的差异程度,两种指标都可以衡量相似性,区别仅在于前者数值越大表示越相似,而后者数值越小表示越相似。
相似系数是指衡量全部样本或全部变量中任何两部分相似程度的指标。它主要有匹配系数、内积和概率系数等项指标。由于内积系数是普遍应用于数量数据的相似性指标,因此,这里仅对内积系数作一介绍。对于观测数据矩阵X,一个样本的数据可以认为是h维向量,同样变量的数据也可以认为是多维向量。两个同维向量的各分量依次相乘再相加得到一个数值,称为两向量的内积。
相似系数的选取原则一般来说,同一批数据采用不同的相似性尺度,会得到不同的分类结果。产生不同结果的原因主要是由于不同的指标所衡量的相似程度的物理意义不同。也就是说,不同指标代表了不同意义上的相似性。因此,在进行数值分类时,应注意相似性尺度的选择。一般情况下,应遵循下列基本原则:①所选择的相似性尺度在实际应用中应有明确的意义。②如在变量分析中,常用相关系数表示变量之间的亲疏程度。③根据原始数据的性质,选择适当的变换方法,不同的变换方法涉及选用不同的相似系数。
按其系数取值在[0,1]和[-1,+1]之内,又分为两类:匹配系数和关联系数。其计算都需要先列出被比较的两实体(或属性)的 列联表。
有了列联表中a,b,c,d的数值,这些系数的计算就容易了,列如匹配系数中的0chiai系数
关联系数中的Dagnelie系数V和 系数
距离系数由欧氏距离、弦距离、广义距离等,但应用较多的是欧氏距离。计算公式为:
和
欧氏距离没有确定的上界,受数据大小影响很大。若个属性数据的量纲不同,大小相差悬殊,则可先对每个属性用极差、离差或标准差等方法标准化,然后再求实体间的距离。
一个实体的数据可认为是P维向量,同样,属性的数据也可认为是N维向量。两个同维向量的各分量依次相乘相加,得到一个数值,称为两向量的内积或称数量积。
常见的内积系数有模标准化后的内积(夹角余弦)、中心化后的内积(方差-协方差)、离差标准化后的内积(相关系数)。
信息系数包括对称的信息系数和非对称的信息系数系数,这里以对称信息系数多状态的 数据为例,说明如何判断相似性的大小。
依据上述数据,可以计算样方B与样方C间的信息相似系数,也可以计算样方组A与样方B间的信息相似系数,以及样方组A与样方C间的信息相似系数。信息相似系数的大小以两个样方或一个样方与一个样方合并后的信息增量的大小来表示。以组A总信息量为例来计算:
n为样方组中包含的样方个数,p为属性的个数。
样方B与样方C间的信息相似系数为
样方组A与样方间的信息相似系数为
首先计算各样方和合并后样方组的信息量,即:
在样方组A中,n=3,p=4;
因而有:
所以,
Goodall提出一种依据概率的相似系数,对任何两个实体的计算都要比较全部实体中所有可能实体对的数据。因此,它的数值与整个数据矩阵有关。
概率相似系数的取值在0与1之间。对于任何数据矩阵来说,必有一对样方的相似系数近于1,表示它们最相似;也必有一对样方近于0,表示它们最相异。