FedMABench

Name: FedMABench
Creator: 浙江大学上海人工智能实验室
Published: 2025-03-07 12:52:20
License: 暂无描述

arXiv2025-03-07 更新2025-03-11 收录

下载链接：

https://github.com/wwh0411/FedMABench

下载链接

链接失效反馈

官方服务：

资源简介：

FedMABench是由浙江大学上海人工智能实验室创建的，包含6个数据集，旨在为联邦训练和评估移动代理提供标准化基准。该数据集涵盖了30多个子集，8种联邦算法，10多种基础模型，以及跨5个类别的800多个应用程序，提供了一个全面的框架，用于评估不同环境下的移动代理。数据集基于Android Control和Android in the Wild数据集，针对移动使用的多样性，设计了不同类型的数据集，包括同质和异质场景，以促进进一步研究。

FedMABench was developed by the Shanghai AI Laboratory of Zhejiang University. It comprises 6 datasets, aiming to provide a standardized benchmark for federated training and evaluation of mobile agents. The benchmark encompasses over 30 subsets, 8 federated learning algorithms, more than 10 foundational models, and over 800 applications spanning 5 categories, offering a comprehensive framework for evaluating mobile agents across various environments. Grounded in the Android Control and Android in the Wild datasets, FedMABench designs diverse dataset configurations including homogeneous and heterogeneous scenarios to accommodate the diversity of mobile usage patterns, so as to facilitate further research.

提供机构：

浙江大学上海人工智能实验室

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

FedMABench 数据集的构建方法独具匠心，旨在模拟真实世界中用户数据分布的异构性。数据集的组成来源于 Android Control 和 Android in the Wild 数据集，经过标注和分割，形成了具有不同分布特征的子集。这些子集通过控制变量，确保了在分布上的差异，以提供公平的比较。数据集涵盖了超过 30 个子集，包括 877 个应用，横跨五个类别，为研究提供了丰富的多样性。数据收集过程中，每个数据集被标注了应用程序名称和相应的类别，并通过 GPT-4o 自动分配每个应用的类别。此外，数据集被分割成多个子集，以模拟联邦学习环境，每个子集代表一个不同的数据分布。

特点

FedMABench 数据集的特点在于其多样性和异构性。它提供了六个数据集，包括超过 30 个子集，涵盖了从基本到复杂的不同场景。数据集模拟了真实世界中用户使用习惯的多样性，包括应用程序类别分布、特定应用程序的偏好以及两级行为计数。这些特点使得 FedMABench 成为评估和训练联邦移动代理的理想平台。此外，数据集的设计考虑了隐私保护，确保敏感信息保持分散，从而增强用户信任。

使用方法

使用 FedMABench 数据集的方法包括两个训练设置：高级和低级训练。每个设置都可以使用两个指标进行评估：步骤级准确性和剧集级准确性。高级训练提供子目标作为当前步骤的额外输入。数据集的构建和使用遵循联邦学习协议，包括服务器到客户端模型广播、本地模型训练、客户端到服务器模型上传和全局模型聚合。此外，FedMABench 框架集成了八个联邦学习算法，并支持超过十个基础模型，为研究人员提供了灵活性和易用性。

背景与挑战

背景概述

随着移动设备的普及和用户对个性化服务的需求增加，移动智能体（Mobile Agent）的研究逐渐兴起。移动智能体能够自动化复杂任务，显著减轻人类工作负担。传统的移动智能体训练依赖于集中式数据收集，这种方法存在成本高、可扩展性有限等问题。为了克服这些挑战，分布式训练，尤其是联邦学习（Federated Learning, FL），提供了一种利用真实世界用户数据的新方法，实现了可扩展性和成本降低。然而，缺乏标准化的基准测试阻碍了该领域的发展。为了应对这些挑战，Wenhao Wang 等研究人员提出了 FedMABench，这是第一个专门为联邦训练和评估移动智能体设计的基准测试，特别针对异构场景。FedMABench 包含 6 个数据集，超过 30 个子集，8 种联邦算法，10 多个基础模型，以及超过 800 个应用程序，涵盖了 5 个类别，为在多样化环境中评估移动智能体提供了一个全面的框架。

当前挑战

尽管联邦学习在训练移动智能体方面具有巨大的潜力，但仍面临一些关键挑战。首先，缺乏多样化的数据集来有效地解决异构性问题，这是利用分布式手机使用轨迹的关键。其次，缺乏高效统一的框架，可能导致未来研究产生不同的训练和评估协议，从而增加重新实现的复杂性并增加不公平比较的风险。此外，联邦学习算法在面对用户数据异构性时表现出的性能下降，以及隐私保护问题，都是亟待解决的问题。最后，移动设备的计算资源有限，通信渠道有限，可能影响联邦学习的可行性。

常用场景

经典使用场景

在移动智能体领域，FedMABench数据集被广泛应用于评估和训练移动智能体在联邦学习环境下的性能。该数据集提供了多样化的应用场景和用户数据，使得研究人员能够测试和优化联邦学习算法在不同异构环境下的表现。通过使用FedMABench，研究者可以探索移动智能体在处理实际用户数据时的性能差异，并评估不同联邦学习算法的有效性。

实际应用

FedMABench数据集在实际应用中具有重要的价值。通过使用该数据集，研究人员可以开发出更智能、更高效的移动智能体，从而提升用户体验。此外，FedMABench还可以帮助开发者优化联邦学习算法，使其在处理实际用户数据时更具鲁棒性和可扩展性。因此，FedMABench数据集在移动智能体领域具有广泛的应用前景。

衍生相关工作

FedMABench数据集的发布推动了联邦学习在移动智能体领域的进一步研究。基于FedMABench，研究者们已经开展了一系列相关工作，包括开发新的联邦学习算法、优化移动智能体的性能和探索联邦学习在移动设备上的应用。这些相关工作不仅扩展了FedMABench的功能和应用范围，也为联邦学习在移动智能体领域的进一步发展奠定了基础。

以上内容由遇见数据集搜集并总结生成