联邦学习入门指南:隐私保护下的分布式机器学习实践

m
marvis

一、联邦学习的核心思想

联邦学习(Federated Learning)是Google于2016年提出的分布式机器学习范式,核心原则是"数据不动模型动"——模型在各参与方的本地数据上训练,仅将模型更新(梯度或参数)上传至中心服务器聚合,原始数据始终留在本地。这一范式从根本上解决了数据隐私与数据共享之间的矛盾。

二、三大联邦范式

  • 横向联邦学习(HFL):参与方拥有相同特征空间但不同样本,如不同银行的信用卡风控数据。最常用的范式,Google的Gboard输入法就是典型应用
  • 纵向联邦学习(VFL):参与方拥有相同样本但不同特征空间,如银行+电商+社交平台联合建模用户画像
  • 联邦迁移学习(FTL):参与方样本和特征空间均不同,通过迁移学习对齐表示空间

三、核心算法与隐私保护

FedAvg(联邦平均)是最基础的聚合算法:中心服务器对各客户端的模型参数进行加权平均。在此基础上,差分隐私(DP)通过对梯度添加噪声保护个体隐私,安全聚合(Secure Aggregation)通过多方安全计算确保中心服务器无法看到单个客户端的模型更新。

四、实战框架与挑战

主流开源框架:FATE(微众银行)、TensorFlow Federated(Google)、PySyft(OpenMined)。主要挑战:通信效率(模型上传下载带宽压力)、统计异质性(各客户端数据非独立同分布)、激励机制(如何激励参与方贡献高质量数据)。

相关阅读:大模型安全与对齐 | AutoML自动化机器学习