联邦机器学习 - 知识百科

联邦机器学习

更新时间：2024-07-23 02:13

联邦机器学习（Federated machine learning/Federated Learning），又名联邦学习，联合学习，联盟学习。联邦机器学习是一个机器学习框架，能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下，进行数据使用和机器学习建模。

背景介绍

随着数字化进程加快，产生了大量数据。通过机器学习技术可以自动化地挖掘数据中蕴藏的宝藏，经过大量数据训练出来的机器学习模型已经应用在各类场景中，正在深刻改变着我们的世界，例如精准医疗、临床辅助诊断、新药研发、人像识别、声纹识别、千人千面推荐算法、图片、语音、自然语言等多模态学习。在应用中，模型的精度、泛化能力等至关重要，而这些都赖于机器对大量数据的学习。

受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束，多个数据来源方无法直接交换数据，形成“数据孤岛”现象，制约着人工智能模型能力的进一步提高。联邦学习的诞生即是为了解决这一问题。

联邦学习技术及数据隐私保护大会上明确提出了“联邦机器学习”这个概念。数据是机器学习的基础。而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。随着人工智能的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如Facebook的数据泄露事件就引起了大范围的抗议行动。

针对数据孤岛和数据隐私的两难问题,多家机构和学者提出解决办法。联邦学习的技术理论基础可以追溯到分布式数据库（Distributed Database）关联规则挖掘技术，1996年，Cheung等人首次提出在分布式数据库中实现关联规则（Association Rules）挖掘。2006年，Yu等人提出了在横向和纵向分割的数据上，实现带有隐私保护的分布式支持向量机建模。2012年，王爽教授团队首次提出分布式隐私保护下的在线机器学习等概念，并首次解决医疗在线安全联邦学习问题，该框架服务于多个国家级医疗健康网络，也是联邦学习系统构架层面的突破。针对手机终端和多方机构数据的隐私问题,谷歌公司和微众银行分别提出了不同的“联邦学习”(Federated Learning)算法框架。谷歌公司提出了基于个人终端设备的“联邦学习”(Federated Learning)算法框架,而AAAI Fellow 杨强教授与微众银行随后提出了基于“联邦学习”(Federated Learning)的系统性的通用解决方案,可以解决个人(2C)和公司间(2B)联合建模的问题。在满足数据隐私、安全和监管要求的前提下，设计一个机器学习框架，让人工智能系统能够更加高效、准确的共同使用各自的数据。2020年，李晓林教授首创知识联邦理论体系。2021年3月，IEEE正式发布联邦学习首个国际标准《IEEE 3652.1-2020 - IEEE Guide for Architectural Framework and Application of Federated Machine Learning》。

举例说明

举例来说,假设有两个不同的企业 A 和 B,它们拥有不同数据。比如,企业 A 有用户特征数据;企业 B 有产品特征数据和标注数据。这两个企业按照上述 GDPR 准则是不能粗暴地把双方数据加以合并的,因为数据的原始提供者,即他们各自的用户可能不同意这样做。假设双方各自建立一个任务模型,每个任务可以是分类或预测,而这些任务也已经在获得数据时有各自用户的认可,那问题是如何在 A 和 B 各端建立高质量的模型。由于数据不完整(例如企业 A 缺少标签数据,企业 B 缺少用户特征数据),或者数据不充分 (数据量不足以建立好的模型),那么,在各端的模型有可能无法建立或效果并不理想。联邦学习是要解决这个问题:它希望做到各个企业的自有数据不出本地,而后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。这样,建好的模型在各自的区域仅为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富裕”的策略。这就是为什么这个体系叫做“联邦学习”。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}