更新时间:2024-05-21 12:53
网络中的链路预测(Link Prediction)是指如何通过已知的网络节点以及网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的可能性。这种预测既包含了对未知链接(exist yet unknown links)的预测也包含了对未来链接(future links)的预测。该问题的研究在理论和应用两个方面都具有重要的意义和价值。
近年来,随着网络科学的快速发展,其理论上的成果为链路预测搭建了一个研究的平台,使得链路预测的研究与网络的结构与演化紧密联系起来。因此,对于预测的结果更能够从理论的角度进行解释。这也是我们相比计算机专业的人研究链路预测的优势所在。与此同时,链路预测的研究也可以从理论上帮助我们认识复杂网络演化的机制。针对同一个或者同一类网络,很多模型都提供了可能的网络演化机制。由于刻画网络结构特征的统计量非常多,很难比较不同的机制孰优孰劣。链路预测机制有望为演化网络提供一个简单统一且较为公平的比较平台,从而大大推动复杂网络演化模型的理论研究。另外,如何刻画网络中节点的相似性也是一个重大的理论问题,这个问题和网络聚类等应用息息相关。类似地,相似性的度量指标数不胜数,只有能够快速准确地评估某种相似性定义是否能够很好刻画一个给定网络节点间的关系,才能进一步研究网络特征对相似性指标选择的影响。在这个方面,链路预测可以起到核心技术的作用。链路预测问题本身也带来了有趣且有重要价值的理论问题,也就是通过构造网络系综并藉此利用最大似然估计的方法进行链路预测的可能性和可行性研究。这方面的研究对于链路预测本身以及复杂网络研究的理论基础的建立和完善,可以起到推动和借鉴的作用。
基于相似性的链路预测算法尤其是局部相似性指标可应用领域最为广泛。因为它设计简洁、可解释性强、运算时间低、灵活可扩展,同时其预测准确度有时甚至优于相对复杂的概率模型、最大似然模型和网络嵌入模型。该类算法的基本思路利用节点的局部拓扑结构信息为每一条候选连边分配一个相似性得分,得分越高的连边被认为有更大可能是缺失边,因此在预测列表中排序更靠前。
文献首次明确提出了基于网络拓扑结构的相似性定义框架,同时一个非常简单且符合直觉的相似指标——共同邻居指标 (common neighbors, CN) 也是在该文中被明确强调,即两个节点如果拥有越多的共同邻居,则越相似。定义P为节点X的邻居集合,则网络中节点X和节点Y的共同邻居指标可定义为:
链路预测研究不仅具有如上所述的理论价值,其更重要的意义还是体现应用方面。很多生物网络,例如蛋白质相互作用网络和新陈代谢网络,节点之间是否存在链接,或者说是否存在相互作用关系,是需要通过大量实验结果进行推断的。我们已知的实验结果仅仅揭示了巨大网络的冰山一角。仅以蛋白质相互作用网络为例,酵母菌蛋白质之间80%的相互作用不为我们所知,而对于人类自身,我们知道的仅有可怜的0.3%。由于揭示这类网络中隐而未现的链接需要耗费高额的实验成本。那么如果能够事先在已知网络结构的基础上设计出足够精确的链路预测算法,再利用预测的结果指导试验,就有可能提高实验的成功率从而降低试验成本并加快揭开这类网络真实面目的步伐!实际上,社会网络分析中也会遇到数据不全的问题,这时候链路预测同样可以作为准确分析社会网络结构的有力的辅助工具。除了帮助分析数据缺失的网络,链路预测算法还可以用于分析演化网络,即对未来的预测。举例来说,近几年在线社交网络发展非常迅速,链路预测可以基于当前的网络结构去预测哪些尚未结交的用户“应该是朋友”,并将此结果作为“朋友推荐”发送给用户:如果预测足够准确,显然有助于提高相关网站在用户心目中的地位,从而提高用户对该网站的忠诚度。另外,链路预测的思想和方法,还可以用于在已知部分节点类型的网络(partially labeled networks)中预测未标签节点的类型——这可以用于判断一篇学术论文的类型或者判断一个手机用户是否产生了切换运营商(例如从移动到联通)的念头。最近在一篇关于链路预测的工作中提到了不仅可以预测所谓的缺失链接还可以预测网络中的错误链接,这对于网络重组和结构功能优化有重要的应用价值。例如在很多构建生物网络的实验中存在暧昧不清甚至自相矛盾的数据,我们就有可能应用链路预测的方法对其进行纠正。