更新时间:2023-05-18 09:27
边界点是拓扑空间的基本概念之一。如果点ζ的任何邻域内都既有属于集合A的点,也有不属于A的点,则称点ζ为A的一个边界点。A的所有边界点组成的集合称为A的边界。
边界点是拓扑空间的基本概念之一,边界概念是康托尔(Cantor,G.(F.P.))在研究欧几里得空间的子集情形时首先引入的。
设A是拓扑空间X的子集,x∈X,若x既不属于A的内部,又不属于A的外部,亦即x的任意邻域既含有A的点也含有不属于A的点,则称x是A的边界点。A的所有边界点组成的集合称为A的边界,记为.
注:将A的全部内点组成的集合记为Ao,则有
例2 考虑有理点集Q,则
边界点处理在数据挖掘技术中有重要意义,它们代表了一类归属并不明确的个体,如果单纯地依靠某种方法把其归类到一个特定的簇中,其效果往往适得其反。边界点不同于孤立点和噪声点。孤立点是一类在统计上处于少数地位的对象,噪声点是一类对统计产生干扰或者偏离一定分布的对象,它们通常位于数据空间的低密区域中,而边界点则不同,它们是数据空间中处于高密区域边沿的一类数据对象,它们的一侧是高密区域,一侧是相对的低密区域。
聚类技术的研究是近几年研究的一个热点,已经提出的许多聚类算法,但是,对聚类边界模式的探讨还不多。聚类的边界点是指位于高密聚类边沿的一类数据对象,它代表了游离在两个或多个类别之间的一类个体对象,其归属并不明确,它们常常具有两个或两个以上的聚类特征。边界点研究有着重要的应用价值。
Chen Xia等提出了聚类边界点检测算法BORDER,其边界点的定义如下:
定义 边界点(Boundary point):一个边界点p是指满足下列两个条件的数据对象:
(1)它位于一个高密的区域IR;
(2)p的附近存在一个区域IR’,Density(IR) >> Density(IR’),或者Density(IR) << Density(IR’)。
聚类的边界代表了一种潜在的模式,对数据挖掘的着重要的意义。但是涉及的边界的算法并不多,对其的研究远远不够。
在DBSCAN算法中,提到边界点:一个非核心点对象,如果其落在某核心点的Eps-邻域内,则称之为边界点。一个边界点可能同时落入一个或多个核心点的Eps-邻域。