HtFLlib

Name: HtFLlib
Creator: 上海交通大学, 中国
Published: 2025-06-04 21:44:00
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/TsingZ0/HtFLlib

下载链接

链接失效反馈

官方服务：

资源简介：

HtFLlib是一个全面的异构联邦学习库和基准，旨在促进异构联邦学习（HtFL）方法的研究和应用。它包含了跨越不同领域、模态和数据异构性场景的12个数据集，以及40种模型架构和10种代表性的HtFL方法。HtFLlib旨在提供一个统一的框架，用于评估和分析HtFL方法在不同领域的有效性和鲁棒性，并为研究人员提供一个易于使用和可扩展的平台。

HtFLlib is a comprehensive heterogeneous federated learning library and benchmark, aiming to facilitate the research and application of heterogeneous federated learning (HtFL) methods. It includes 12 datasets spanning diverse domains, modalities, and data heterogeneity scenarios, along with 40 model architectures and 10 representative HtFL methods. HtFLlib is designed to provide a unified framework for evaluating and analyzing the effectiveness and robustness of HtFL methods across different domains, as well as an easy-to-use and extensible platform for researchers.

提供机构：

上海交通大学, 中国

创建时间：

2025-06-04

原始信息汇总

HtFLlib: Heterogeneous Federated Learning Library and Benchmark 数据集概述

数据集简介

专注于异构联邦学习（Heterogeneous Federated Learning, HtFL）场景
解决数据异构性、模型异构性、通信开销和知识产权保护等问题
兼容PFLlib库

核心特性

包含40种异构模型架构
提供19个异构模型组
实现10种无数据HtFL算法

支持场景与数据

默认展示MNIST数据集在标签偏斜（label skew）场景下的示例
数据通过Dirichlet分布生成
支持用户自定义模型异构性场景配置

无数据算法列表

Local - 纯本地训练
FD (FedDistill) - 基于蒸馏的通信高效方法
FML - 联邦互学习
LG-FedAvg - 本地全局表征学习
FedGen - 无数据知识蒸馏
FedProto - 联邦原型学习
FedKD - 基于知识蒸馏的通信高效方法
FedGH - 广义全局头方法
FedTGP - 可训练全局原型方法
FedKTL - 服务器预训练生成器知识迁移
FedMRL - 异构模型嵌套表征学习

实验与复现

提供预调优超参数的total.sh脚本进行实验
部分结果可参考相关论文（FedTGP、FedKTL）
注意基础设置可能因社区需求而变化

环境要求

需要安装CUDA和最新版conda
提供env_cuda_latest.yaml环境配置文件
可能需要调整torch版本以匹配CUDA版本

维护说明

程序意外终止时需要手动清理temp/文件夹
可通过-sfn参数自定义检查点文件夹
提供system/clean_temp_files.py清理工具

搜集汇总

数据集介绍

构建方式

HtFLlib数据集的构建采用了多模态、多场景的异构联邦学习框架，整合了12个跨领域数据集、40种异构模型架构以及10种代表性HtFL方法。数据集覆盖图像、文本和传感器信号三种模态，并设计了标签偏斜、特征偏移和真实世界三种数据异构场景。通过模块化代码库设计，实现了方法扩展的便捷性，同时采用统一的评估标准对准确性、收敛性、计算成本和通信成本进行系统化度量。

特点

该数据集的核心特点体现在其全面性和异构兼容性：1) 涵盖医学影像（如COVIDx）、自然语言（如AG News）和传感器信号（如HAR）等跨模态数据；2) 支持从CNN到Transformer等19组异构模型架构的协同训练；3) 创新性地设计了基于知识载体的轻量级交互机制，解决了传统联邦学习中模型参数直接共享的隐私和架构兼容性问题。特别在医疗领域，验证了黑盒预训练模型的协作增强效果。

使用方法

使用该数据集需遵循三步流程：首先配置异构场景（如HtFE_img_8模型组与Dirichlet数据划分），随后选择知识迁移方法（如原型共享或互蒸馏），最后通过标准化接口评估性能指标。典型应用包括：1) 跨医院协作的医学影像分析，通过FedTGP方法提升模型泛化性；2) 多客户端文本分类任务，利用FedKD实现特征空间对齐；3) 传感器信号处理，采用FD方法实现高效日志空间知识迁移。所有实验可通过模块化代码快速复现，支持自定义异构组和评估维度扩展。

背景与挑战

背景概述

HtFLlib是由上海交通大学、北京航空航天大学、重庆大学、同济大学以及香港理工大学等机构的研究团队于2025年提出的异构联邦学习基准库。该数据集旨在解决传统联邦学习仅支持同构模型协作的局限性，通过整合12个跨图像、文本和传感器信号模态的数据集，40种异构模型架构以及10种代表性异构联邦学习方法，为研究者和实践者提供了标准化的评估框架。其核心研究问题聚焦于模型异构性（如不同架构的CNN、Transformer等）与数据异构性（包括标签偏斜、特征偏移和真实场景分布）的协同挑战，推动了隐私保护下跨机构知识迁移的研究范式变革，对医疗、物联网等领域的分布式AI应用具有重要启示意义。

当前挑战

HtFLlib面临的核心挑战体现在两个维度：领域问题层面，需解决跨模态（如图像与文本）、跨架构（如CNN与ViT）模型的参数不可对齐问题，以及非独立同分布数据导致的局部模型漂移；构建过程层面，存在三大技术难点：1) 知识载体设计需平衡轻量化（如原型共享仅0.34MB）与表征能力，2) 医疗等敏感领域数据需满足隐私约束下的黑盒模型协作，3) 传感器信号等动态数据要求原型捕捉时序特征。实验表明，在Cifar100上模型异构度增加时FedProto性能下降9.35%，突显特征空间对齐的脆弱性。

常用场景

经典使用场景

HtFLlib作为异构联邦学习的综合基准库，其经典使用场景涵盖跨机构、跨设备的异构模型协作学习。在医疗领域，不同医院使用专有模型进行疾病诊断时，通过HtFLlib实现知识共享，有效解决了数据孤岛问题。该库支持图像、文本和传感器信号三种模态，在Cifar10、AG News等12个数据集上验证了异构联邦学习方法的性能，为研究者提供了统一的评估平台。

解决学术问题

HtFLlib系统性地解决了异构联邦学习领域缺乏标准化评估体系的学术难题。通过整合40种异构模型架构和10种代表性方法，该数据集首次实现了对模型异构性、数据异构性及多模态场景的全面测评。其模块化设计突破了传统联邦学习仅支持同构模型的局限，为研究模型架构差异对知识迁移的影响提供了量化依据，显著推进了隐私保护下的分布式协作学习理论研究。

衍生相关工作

基于HtFLlib的基准研究催生了多项创新工作：FedTGP通过可训练全局原型提升图像任务性能，FedKTL利用预训练生成器增强原型表示，FedMRL创新性地结合全局辅助模型与本地模型特征。这些衍生研究在CVPR、AAAI等会议发表，形成了异构联邦学习在原型共享、互蒸馏等方向的方法体系，推动了FedProto、FedGH等算法在跨模态场景的应用突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集