FedGUI-Platform; FedGUI-Device; FedGUI-OS; FedGUI-Web; FedGUI-Mobile; FedGUI-Full

Name: FedGUI-Platform; FedGUI-Device; FedGUI-OS; FedGUI-Web; FedGUI-Mobile; FedGUI-Full
Creator: 浙江大学; 上海交通大学; 同义实验室; 多智能体治理与智能团队（MAGIC）; 武汉大学
Published: 2026-04-16 20:53:03
License: 暂无描述

arXiv2026-04-16 更新2026-04-19 收录

下载链接：

https://github.com/wwh0411/FedGUI

下载链接

链接失效反馈

官方服务：

资源简介：

FedGUI是由同义实验室等机构构建的首个跨平台联邦学习GUI智能体基准数据集，涵盖移动端、网页端和桌面端三大平台，包含6个子集共15,500个交互事件。数据源自AndroidControl、Mind2Web等9个真实场景数据集，通过统一动作空间映射和系统性数据清洗，模拟了跨平台、跨设备、跨操作系统及跨数据源四类异构性。该数据集旨在解决分布式环境下GUI智能体的隐私保护协作训练问题，为构建可扩展的跨模态界面交互系统提供关键支持。

提供机构：

浙江大学; 上海交通大学; 同义实验室; 多智能体治理与智能团队（MAGIC）; 武汉大学

创建时间：

2026-04-16

原始信息汇总

FedGUI 数据集概述

数据集基本信息

数据集名称：FedGUI
核心定位：首个为开发和评估跨异构平台的联邦图形用户界面（GUI）智能体而设计的综合性基准。
主要特点：专注于利用联邦学习（FL）在去中心化的异构数据上训练通用智能体，以应对传统集中式训练在隐私和可扩展性方面的挑战。
学术认可：已被第64届计算语言学协会年会（ACL 2026）的Findings接收。

数据集内容与构成

数据来源：数据集整合了来自6个主要来源的9个精选数据集。
- 移动端：AndroidControl (AC), AitW, GUI Odyssey (GO)
- 网页端：Mind2Web (M2W), GUIAct-Web (GA-W), OmniAct-Web
- 桌面端：AgentSynth (AS), OmniAct-Mac/Windows
平台覆盖：支持超过900个移动应用、40多个桌面应用程序以及200多个网站。
异构性建模：系统性地建模了四种现实世界的异构类型：跨平台、跨设备、跨操作系统（OS）和跨数据源。
统一行动空间：将所有平台的交互标准化为17种离散的行动类型，包括基本行动（如CLICK, TYPE）和平台特定的自定义行动。

数据集文件与结构

开源数据集存放于项目根目录的 datasets/ 文件夹下，主要包含：

FedGUI-Full/
- Full_IID.json
- Full_Non-Uniform.json
FedGUI-OS/
- OS_IID.json
prompt.py （用于向数据集样本注入提示以进行一致的训练和评估）

数据集中每个步骤的样本格式示例如下： json { "images": "/path/to/screenshot.png", "query": "Task instruction with history...", "response": "Actions: CLICK <point>[[100, 200]]</point>", "client_id": 0 }

数据处理流程

数据处理脚本位于 data_process/ 目录。

单数据集处理：data_process/single_dataset_level/ 目录下的脚本（如 0_dump_AC.py, 1_gen_jsonl.py）用于对各个来源的数据集进行单独处理，包括数据提取、规范化和转换为FedGUI所需的统一格式。
多数据集聚合与提示生成：使用 gen_message_VLM.py 脚本聚合多个已处理的数据集，并将情节级数据转换为带有视觉语言模型（VLM）兼容提示的步骤级格式。

训练与评估支持

联邦学习算法：集成了7种代表性联邦学习算法，例如FedAvg、FedYogi、FedAdam。
基础模型支持：支持20多种基础视觉语言模型（VLM），如Qwen3-VL、InternVL2、Gemma-3。
高效训练技术：采用LoRA（低秩适应）技术，仅交换轻量级的适配器参数，以降低通信和计算开销。
评估指标：使用三种行动级指标评估GUI智能体性能：
1. 行动类型准确率（Type）：基于生成行动的第一个令牌，判断预测的交互意图是否与真实行动类型匹配。
2. 定位准确率（Ground）：评估基于坐标的行动（如CLICK）的空间正确性。当预测坐标与真实坐标之间的欧几里得距离小于屏幕对角线长度的**14%**时，视为正确。
3. 成功率（SR）：反映端到端执行准确性，要求行动类型和参数均正确。对于基于文本的行动，使用相似度分数（令牌级F1 + 字符级重叠）衡量语义正确性，成功阈值为0.5。

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体研究领域，数据集的构建需精准模拟真实世界中的分布式与异构特性。FedGUI基准通过整合八个公开数据源，系统性地构建了六个子数据集，以探究跨平台、跨设备、跨操作系统及跨数据源四种关键异构性。具体而言，FedGUI-Platform、FedGUI-Device、FedGUI-OS分别从平台、设备型号和操作系统维度划分数据；FedGUI-Web与FedGUI-Mobile则聚焦于同一平台内不同采集方法导致的数据分布差异；而FedGUI-Full作为最复杂的集合，综合了前述所有异构性，并设计了从独立同分布到高度倾斜的七种数据划分变体，以模拟联邦学习环境中多样的客户端数据分布模式。

使用方法

FedGUI为联邦GUI智能体的开发与评估提供了一套标准化研究框架。研究者可基于其开源代码库，便捷地配置不同的客户端数据分布、选择联邦优化算法并加载各类基础模型进行训练。基准内置了统一的动作空间与评估指标，包括动作类型准确率、空间定位准确率及任务成功率，确保了跨实验的可比性。典型工作流程涉及：选定目标数据集与异构性设置，配置参与训练的客户端数量与采样策略，运行联邦学习轮次进行模型微调，最终在预留的标准化测试集上进行多维度性能评估，从而系统分析算法在异构环境下的鲁棒性与泛化能力。

背景与挑战

背景概述

随着视觉语言模型的快速发展，图形用户界面智能体已成为人机交互领域的研究热点。传统集中式训练方法面临数据收集成本高昂与可扩展性受限的挑战，而联邦学习为隐私保护的分布式协作提供了可行路径。FedGUI基准由浙江大学、上海交通大学等机构的研究团队于2026年提出，旨在构建首个跨移动、网页和桌面平台的联邦GUI智能体评估体系。该基准通过整合九个异构数据源，系统化建模了跨平台、跨设备、跨操作系统和跨数据源四类真实世界异质性，为开发可扩展且保护隐私的GUI智能体奠定了重要基础。

当前挑战

FedGUI基准致力于解决联邦GUI智能体在跨平台协同训练中的核心挑战。在领域问题层面，主要挑战在于如何克服移动、网页和桌面环境间因视觉属性、交互范式和应用生态差异导致的分布偏移，以实现智能体在异构平台间的有效泛化。在构建过程中，挑战集中于对真实世界异质性的量化建模，包括从多源数据中提取统一动作空间、设计可控的非独立同分布数据划分策略，以及在模拟环境中复现用户设备、操作系统和数据采集方法的多样性，从而确保基准既能反映实际部署复杂度，又具备可重复性与可扩展性。

常用场景

经典使用场景

在图形用户界面智能体研究领域，FedGUI系列数据集为联邦学习范式下的跨平台GUI智能体训练与评估提供了标准化基准。其最经典的使用场景在于系统性地模拟和量化现实世界中存在的四种异构性：跨平台、跨设备、跨操作系统以及跨数据源。研究者通过配置FedGUI-Platform、FedGUI-Device等不同数据集，能够精确控制异构程度，例如在FedGUI-Platform中设置从平台独立同分布到平台完全倾斜等多种数据划分，从而深入探究异构性对联邦模型收敛速度、泛化能力及最终性能的具体影响。该场景使得学术界得以在受控环境下复现并分析分布式GUI智能体在实际部署中面临的核心挑战。

解决学术问题

FedGUI数据集有效解决了联邦学习与GUI智能体交叉领域的若干关键学术问题。首要贡献在于填补了跨平台联邦GUI智能体基准测试的空白，突破了此前FedMABench等基准仅局限于单一移动平台的局限。它使得研究者能够定量研究“跨平台协作是否以及如何提升智能体性能”这一根本性问题，并通过实验证实了即使参与客户端来自高度异构的平台和设备，扩大协作范围依然能显著提升模型性能，展现出强大的“挽救效应”。此外，数据集通过构建多维异构性，为厘清不同异构维度（如平台、操作系统）对模型影响的相对重要性提供了实证基础，揭示了平台级异构性是比设备级或数据源级异构性更为严峻的挑战。

实际应用

FedGUI数据集的设计紧密贴合实际应用需求，其构建的异构性场景直接反映了真实世界分布式GUI智能体部署的复杂性。例如，FedGUI-Device模拟了不同型号智能手机（如Pixel系列、不同尺寸平板）因屏幕分辨率、渲染差异导致的视觉数据分布偏移，这对于开发能在多样用户设备上稳定运行的移动助手至关重要。FedGUI-OS则涵盖了Ubuntu、macOS和Windows等主流桌面操作系统，其数据差异体现了不同系统在GUI设计、窗口管理和交互惯例上的区别，为开发跨桌面平台的自动化办公助手提供了训练与测试基础。这些数据集共同支持开发更具可扩展性和隐私保护能力的GUI智能体，以适应电商、办公、教育等场景中用户设备与使用环境的天然异构性。

数据集最近研究