ATR-Bench

Name: ATR-Bench
Creator: MBZUAI, University of Queensland, University of California, Santa Cruz, Yale University, Gaash Lab, NIT Srinagar
Published: 2025-05-23 00:11:38
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/Tajamul21/ATR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

ATR-Bench是一个用于分析联邦学习的统一框架，通过适应性、信任和推理三个基本维度进行评估。该数据集由MBZUAI、昆士兰大学、加州大学圣克鲁斯分校、耶鲁大学、Gaash实验室和NIT斯里纳加尔的研究人员共同创建。ATR-Bench旨在解决联邦学习中的实际挑战，如数据异构性、安全性和推理能力。数据集的创建过程涉及到对现有方法的深入分析和基准测试，以及新方法的开发。ATR-Bench的应用领域包括但不限于医疗分析、计算机视觉、自然语言处理和多模态学习等，旨在提高模型在现实世界场景下的泛化能力、鲁棒性和公平性。

ATR-Bench is a unified framework for federated learning analysis, with evaluations conducted across three core dimensions: adaptability, trust, and reasoning. It was co-created by researchers from MBZUAI, The University of Queensland, University of California, Santa Cruz, Yale University, Gaash Laboratory, and National Institute of Technology Srinagar. ATR-Bench aims to address practical challenges in federated learning, including data heterogeneity, security issues, and reasoning capabilities. The development of this benchmark involves in-depth analysis and benchmarking of existing federated learning methods, as well as the development of novel approaches. Its application scope covers but is not limited to medical analytics, computer vision, natural language processing, multimodal learning and other fields, with the goal of improving the generalization ability, robustness and fairness of models in real-world scenarios.

提供机构：

MBZUAI, University of Queensland, University of California, Santa Cruz, Yale University, Gaash Lab, NIT Srinagar

创建时间：

2025-05-23

原始信息汇总

ATR-Bench数据集概述

数据集简介

ATR-Bench是一个关于领域自适应(DA)和联邦学习(FL)的资源集合，包含论文、代码、基准测试和其他相关资源。

主要内容

1. 论文资源

综述论文：包含领域自适应和迁移学习的综合调查
理论论文：涵盖领域自适应的理论基础和算法分析
可解释性论文：关注领域自适应中的可视化方法

2. 领域自适应方法

联邦领域自适应：Domain Adaptive Federated Learning
无源领域自适应：Source Free Unsupervised Domain Adaptation
无监督领域自适应：
- 对抗方法
- 基于距离的方法
- 基于信息的方法
- 最优传输方法
- 增量方法
- 半监督学习方法
- 自训练方法
- 自监督方法
- 基于Transformer的方法
- 其他方法

3. 其他领域自适应方法

包含20+种不同场景的DA方法，如：

半监督DA
弱监督DA
零样本DA
少样本DA
开放集DA
多源DA
多目标DA
异构DA等

4. 其他迁移学习范式

领域泛化
领域随机化
迁移度量学习
知识迁移

5. 应用领域

目标检测
语义分割
行人重识别
仿真到现实迁移
视频领域自适应
医疗相关
3D应用
遥感等

资源类型

论文（arXiv、会议、期刊）
基准测试数据集
实用工具库
讲座和教程
其他资源

许可信息

MIT License

搜集汇总

数据集介绍

构建方式

ATR-Bench数据集的构建基于联邦学习的三个核心维度：适应性（Adaptation）、信任（Trust）和推理（Reasoning）。该数据集通过整合多个公开数据集（如Cifar-10、Office Caltech、PACS等）并模拟非独立同分布（Non-IID）的客户端数据分布，采用Dirichlet分布划分标签偏斜（Label Skew）和特征偏移（Domain Skew）场景。具体流程包括：1）数据预处理（随机裁剪、归一化）；2）客户端本地模型训练（SGD优化）；3）全局聚合（FedAvg等算法）；4）对抗性攻击注入（如PairFlip噪声、后门触发器等）。实验设置涵盖100通信轮次，10个客户端，batch size为64，确保覆盖异构数据、拜占庭攻击和跨域泛化等挑战。

使用方法

使用ATR-Bench需遵循三步流程：1）**任务配置**：通过配置文件指定数据分区（如Dirichlet β值）、攻击类型（如Min-Sum模型毒化）和评估维度（如推理链一致性）；2）**方法集成**：继承基准类实现本地训练（client_update）和聚合逻辑（server_aggregate），支持自定义模块（如MOON的对比损失）；3）**结果分析**：调用内置评估器输出跨客户端准确率（AU）、后门成功率（R）等指标，并可视化训练曲线（如图1的Cifar-10收敛趋势）。代码库提供PyTorch接口和预训练模型，可通过GitHub获取完整实验复现脚本。

背景与挑战

背景概述

ATR-Bench是由MBZUAI、昆士兰大学、加州大学圣克鲁兹分校、耶鲁大学和Gaash实验室的研究团队于2025年提出的联邦学习基准测试框架。该数据集聚焦于联邦学习中的三大核心维度：适应性（Adaptation）、可信性（Trust）和推理能力（Reasoning），旨在解决分布式环境中模型训练的数据异构性、安全威胁和推理能力不足等问题。ATR-Bench通过系统化评估指标和标准化任务设置，推动了联邦学习在医疗影像、自动驾驶等隐私敏感领域的应用发展。

当前挑战

ATR-Bench面临的挑战主要体现在两个方面：领域问题方面，需解决非独立同分布数据导致的跨客户端分布偏移和域外泛化难题，例如医疗场景中不同机构数据的特征差异；构建过程方面，需平衡隐私保护与模型性能，设计对抗拜占庭攻击的鲁棒聚合算法，同时开发可解释的分布式推理评估框架。具体挑战包括：1) 异构客户端间的知识迁移效率低下；2) 对抗性环境下的模型安全性保障；3) 缺乏跨模态推理的标准化评估体系。

常用场景

经典使用场景

ATR-Bench数据集在联邦学习领域中被广泛用于评估模型在异构客户端数据分布下的性能表现。其经典使用场景包括跨客户端分布偏移（Cross-Client Distribution Shift）和客户端外分布偏移（Out-of-Client Distribution Shift）的基准测试。通过模拟真实世界中的数据异构性，如医疗影像中不同医院的设备差异或金融数据中的地域性特征差异，该数据集为研究者提供了系统评估联邦学习算法泛化能力的标准化环境。在实验中，常采用Dirichlet分布模拟标签偏斜（Label Skew），并通过多领域数据集（如Office Caltech、PACS）验证模型在未见领域上的域适应（Domain Adaptation）与域泛化（Domain Generalization）能力。

解决学术问题

ATR-Bench针对联邦学习中的三大核心挑战提出了系统化解決方案：在适应性（Adaptation）维度，通过对比FedProx、SCAFFOLD等算法在Non-IID数据下的收敛性，解决了客户端数据分布异构导致的优化目标冲突问题；在可信性（Trust）维度，设计了拜占庭攻击（Byzantine Attacks）和后门攻击（Backdoor Attacks）的量化评估框架，为鲁棒聚合算法（如Krum、Bulyan）提供标准化对抗基准；在推理（Reasoning）维度，尽管现有评估体系尚不完善，但通过知识蒸馏（Knowledge Distillation）和符号-神经混合模型（Symbolic-Neural Hybrids）的初步探索，为分布式多步推理研究指明了方向。该数据集首次实现了对联邦学习模型在隐私保护、泛化能力和安全性的多维度联合评估。

实际应用

在医疗联合诊断场景中，ATR-Bench支持不同医院在保护患者隐私的前提下协作训练医学影像分析模型。其域适应评估模块可验证模型从CT设备（源域）到MRI设备（目标域）的迁移效果；金融风控领域则利用其拜占庭鲁棒性测试，确保联邦信用评分模型在部分恶意客户端上传虚假数据时仍保持稳定。数据集的标签偏斜模拟功能也被应用于智能手机键盘预测，优化对长尾用户输入习惯的个性化适配。此外，在自动驾驶领域，通过客户端外分布评估可检验视觉模型从仿真环境（训练域）到真实路况（未知域）的泛化能力。

数据集最近研究