更新时间:2024-07-23 02:13
联邦机器学习(Federated machine learning/Federated Learning),又名联邦学习,联合学习,联盟学习。联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。
随着数字化进程加快,产生了大量数据。通过机器学习技术可以自动化地挖掘数据中蕴藏的宝藏,经过大量数据训练出来的机器学习模型已经应用在各类场景中,正在深刻改变着我们的世界,例如精准医疗、临床辅助诊断、新药研发、人像识别、声纹识别、千人千面推荐算法、图片、语音、自然语言等多模态学习。在应用中,模型的精度、泛化能力等至关重要,而这些都赖于机器对大量数据的学习。
受限于法律法规、政策监管、商业机密、个人隐私等数据隐私安全上的约束,多个数据来源方无法直接交换数据,形成“数据孤岛”现象,制约着人工智能模型能力的进一步提高。联邦学习的诞生即是为了解决这一问题。
联邦学习技术及数据隐私保护大会上明确提出了“联邦机器学习”这个概念。数据是机器学习的基础 。而在大多数行业中,由于行业竞争、隐私安全、行政手续复杂等问题,数据常常是以孤岛的形式存在的。甚至即使是在同一个公司的不同部门之间实现数据集中整合也面临着重重阻力。在现实中想要将分散在各地、各个机构的数据进行整合几乎是不可能的,或者说所需的成本是巨大的。随着人工智能的进一步发展,重视数据隐私和安全已经成为了世界性的趋势。每一次公众数据的泄露都会引起媒体和公众的极大关注,例如Facebook的数据泄露事件就引起了大范围的抗议行动。
针对数据孤岛和数据隐私的两难问题,多家机构和学者提出解决办法。联邦学习的技术理论基础可以追溯到分布式数据库(Distributed Database)关联规则挖掘技术,1996年,Cheung等人首次提出在分布式数据库中实现关联规则(Association Rules)挖掘。2006年,Yu等人提出了在横向和纵向分割的数据上,实现带有隐私保护的分布式支持向量机建模。2012年,王爽教授团队首次提出分布式隐私保护下的在线机器学习等概念,并首次解决医疗在线安全联邦学习问题,该框架服务于多个国家级医疗健康网络,也是联邦学习系统构架层面的突破。针对手机终端和多方机构数据的隐私问题,谷歌公司和微众银行分别提出了不同的“联邦学习”(Federated Learning)算法框架。谷歌公司提出了基于个人终端设备的“联邦学习”(Federated Learning)算法框架,而AAAI Fellow 杨强教授与微众银行随后提出了基于“联邦学习”(Federated Learning)的系统性的通用解决方案,可以解决个人(2C)和公司间(2B)联合建模的问题。在满足数据隐私、安全和监管要求的前提下,设计一个机器学习框架,让人工智能系统能够更加高效、准确的共同使用各自的数据。2020年,李晓林教授首创知识联邦理论体系。2021年3月,IEEE正式发布联邦学习首个国际标准《IEEE 3652.1-2020 - IEEE Guide for Architectural Framework and Application of Federated Machine Learning》。
举例来说,假设有两个不同的企业 A 和 B,它们拥有不同数据。比如,企业 A 有用户特征数据;企业 B 有产品特征数据和标注数据。这两个企业按照上述 GDPR 准则是不能粗暴地把双方数据加以合并的,因为数据的原始提供者,即他们各自的用户可能不同意这样做。假设双方各自建立一个任务模型,每个任务可以是分类或预测,而这些任务也已经在获得数据时有各自用户的认可,那问题是如何在 A 和 B 各端建立高质量的模型。由于数据不完整(例如企业 A 缺少标签数据,企业 B 缺少用户特征数据),或者数据不充分 (数据量不足以建立好的模型),那么,在各端的模型有可能无法建立或效果并不理想。联邦学习是要解决这个问题:它希望做到各个企业的自有数据不出本地,而后联邦系统可以通过加密机制下的参数交换方式,即在不违反数据隐私法规情况下,建立一个虚拟的共有模型。这个虚拟模型就好像大家把数据聚合在一起建立的最优模型一样。但是在建立虚拟模型的时候,数据本身不移动,也不泄露隐私和影响数据合规。这样,建好的模型在各自的区域仅为本地的目标服务。在这样一个联邦机制下,各个参与者的身份和地位相同,而联邦系统帮助大家建立了“共同富裕”的策略。 这就是为什么这个体系叫做“联邦学习”。
根据孤岛数据的分布特点将联邦学习分为三类。
数据分布基本可以分为以下三种情况:
两个数据集的数据特征(X1,X2,…)重叠部分较大,而用户(U1, U2…)重叠部分较小;
两个数据集的用户(U1, U2…)重叠部分较大,而数据特征(X1,X2,…)重叠部分较小;
两个数据集的用户(U1, U2…)与数据特征重叠(X1,X2,…)部分都比较小。
为了应对以上三种数据分布情况,我们把联邦学习分为横向联邦学习、纵向联邦学习与联邦迁移学习。
横向联邦学习,也称为特征对齐的联邦学习
纵向联邦学习,也称为样本对齐的联邦学习
迁移学习
数据矩阵的横向的一行表示一条训练样本,纵向的一列表示一个数据特征。联合多个参与者的具有相同特征的多行样本进行联邦学习,即各个参与者的训练数据是横向划分的,称为横向联邦学习(Horizontal Federated Learning)。横向联邦学习也称为特征对齐的联邦学习(Feature-Aligned Federated Learning),即横向联邦学习的参与者的数据特征是对齐的。横向联邦可以增加训练样本总量。
联合多个参与者的共同样本的不同数据特征进行联邦学习,即各个参与者的训练数据是纵向划分的,称为纵向联邦学习(Vertical Federated Learning)。纵向联邦学习也称为样本对齐的联邦学习(Sample-Aligned Federated Learning),即纵向联邦学习的参与者的训练样本是对齐的。纵向联邦可以增加训练数据特征维度。
2012年
王爽:提出医疗在线安全联邦学习框架
2012年,王爽教授团队提交并于2013年发表在SCI学术期刊Journal of Biomedical Informatics的《Expectation Propagation Logistic Regression (EXPLORER): Distributed privacy-preserving online model learning》论文,这是目前有据可查的全球第一篇医疗在线安全联邦学习文献,论文提出了数据“可用不可见”问题,在不需要分享原始个体数据的情况下,利用多个数据源进行带有隐私保护的联合建模的概念。同年,该团队发表了开源联邦学习框架“WebGLORE: a web service for Grid Logistic Regression”(9),该底层技术服务于多个医疗网络数据的联邦建模需求。
2016年
Google:联邦学习移动端应用框架
2016年,Google AI团队提出联邦学习算法框架应用于移动互联网手机终端的隐私保护。该算法框架主要针对设备数据集进行协同机器学习模型训练,让数据在不离开设备的情况下,可以在多种设备上训练共享机器学习模型。2019年,Google实现了第一个产品级的移动端联邦学习系统,并把该系统从联邦学习推广到联邦计算和联邦分析。
2019年
微众银行:发布联邦学习开源项目FATE
2019年2月,微众银行AI团队对外发布自主研发的联邦学习开源项目FATE(Federated AI Technology Enabler)。FATE提供了一种带有数据隐私保护功能的分布式安全计算框架,为机器学习、迁移学习算法提供隐私计算支持。同时,FATE提供了一套跨域交互信息管理方案,提供联邦学习信息安全审计功能。
2020年
李晓林:提出知识联邦学习理论体系
2020年,李晓林教授提出知识联邦理论体系(7),知识联邦是一个安全多方应用框架,它支持安全多方查询、安全多方计算、安全多方学习、安全多方推理等联邦应用。知识联邦关注的是数据到知识的全生命周期隐私安全保护,包括知识创造、管理和使用及其监管,设计目标是面向生产环境的知识联邦生态系统,致力于推动人工智能发展。
技术——涉及到的技术及概念
① 机器学习
a. 机器学习
b. 深度学习
c. 迁移学习
d. 分布式机器学习
②分布式存储
a.kvdb数据存储;
b. 外部存储持久化;
d. 内存数据存储
e. 保证数据的可用性、可靠性。
③加密算法
a. 同态加密
b. 秘密共享
c. 遗忘传输
d. 混淆电路
e. RSA加密算法
f. 软件保护扩展
④技术路径
联邦迁移学习
安全联邦学习
知识联邦
技术成果及开源论文
1.H. Brendan McMahan, Eider Moore, Daniel Ramage, and Blaise Agüera y Arcas. 2016. Federated Learning of DeepNetworks using Model Averaging. CoRR abs/1602.05629 (2016). arXiv:1602.05629
3.Jakub Konecný, H. Brendan McMahan, Felix X. Yu, Peter Richtárik, Ananda Theertha Suresh, and Dave Bacon. 2016.Federated Learning: Strategies for Improving Communication Efficiency
4. 杨强,刘洋,陈天健,童咏昕, “联邦学习”。 中国计算机学会通讯, 第14卷,第11期,2018年11月。
5. 杨强, “GDPR对AI的挑战和基于联邦迁移学习的对策”,. 中国人工智能学会通讯,第8卷,第8期2018年8月。
6.Jakub Konecný, H. Brendan McMahan, Daniel Ramage, and Peter Richtárik. 2016. Federated Optimization: DistributedMachine Learning for On-Device Intelligence, CoRR abs/1610.02527 (2016). arXiv:1610.02527
8. Abhishek Bhowmick, John Duchi, Julien Freudiger, Gaurav Kapoor, Ryan Rogers. “Protection Against Reconstruction and Its Applications in Private Federated Learning”. arXiv, 2018.12.03.
(1)联邦学习FATE (Federated AI Technology Enabler)是微众银行AI团队自主研发的开源联邦学习框架,为联邦AI生态提供了一种安全计算框架。
作为一个工业级的联邦学习框架,联邦学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和建模。FATE提供了一种基于数据隐私保护的安全计算框架,为机器学习、深度学习、迁移学习算法提供强有力的安全计算支持。 安全底层支持同态加密、秘密共享、哈希散列等多种多方安全计算机制,算法层支持多方安全计算模式下的逻辑回归、Boosting、联邦迁移学习等。
2019年2月18日,FATE在GitHub正式发布了0.1版本。
(2)谷歌是联邦学习技术及应用的积极推动者,于2019年2月发布了开源的联邦学习开源框架TensorFlow Federated。TensorFlow Federated运行于谷歌的开源深度学习框架TensorFlow之上,方便科研人员和应用开发者基于分布式的数据(即数据没有集中在一起)来训练全局模型。
为了加速“联邦学习”的普及与落地,微众银行于2018年10月向IEEE标准协会提交关于建立联邦学习标准的提案——“Guide for Architectural Framework and Application of Federated Machine Learning”(联邦学习基础架构与应用标准)。该立项提案已于2018年12月获批。由微众银行主办的IEEEP3652.1(联邦学习基础架构与应用)标准工作组第一次会议在深圳成功召开,此次会议的召开也正式宣告“联邦学习”走入行业规范。
2020年7月,中国信息通信研究院联合华控清交、锘崴科技、微众银行、数牍科技、同盾科技等十余家单位及企业制定了联邦学习技术标准——《基于联邦学习的数据流通产品技术要求与测试方法》,该标准规定了基于联邦学习的数据流通产品必要的技术要求及相应的测试方法,适用于基于联邦学习的数据流通产品的研发、测试、评估和验收等场景。
2022年2月,中国信息通信研究院联合卓信大数据、铸基计划、锘崴科技、百度网讯、洞见科技等多家联邦学习产业链上下游企业编写的《联邦学习场景应用研究报告(2022年)》正式发布,标志着中国隐私计算领域进入到了一个快速发展阶段。
联邦机器学习可以避免非授权的数据扩散和解决数据孤岛问题 。
Ocean采用了“联邦机器学习”。