D-GARA

Name: D-GARA
Creator: 同济大学
Published: 2025-11-21 01:43:46
License: 暂无描述

arXiv2025-11-21 更新2025-11-22 收录

下载链接：

https://github.com/sen0609/D-GARA

下载链接

链接失效反馈

官方服务：

资源简介：

D-GARA是由同济大学等机构联合开发的动态基准测试框架，专注于评估Android图形界面智能体在真实异常环境下的鲁棒性。该数据集通过集成Android模拟器构建动态交互环境，包含权限弹窗、系统警告等高频异常类型，支持实时异常注入与多路径执行轨迹模拟。其创建过程采用语义触发机制与可配置规则库，通过数据收集工具采集带有人工标注的屏幕截图与XML文件。该数据集主要应用于智能体鲁棒性评估领域，旨在解决现有静态基准无法反映真实环境动态复杂性的核心问题，推动强适应性GUI智能体的发展。

D-GARA is a dynamic benchmark testing framework co-developed by Tongji University and other institutions, dedicated to evaluating the robustness of Android GUI agents in real-world anomalous environments. This dataset establishes a dynamic interactive environment through the integration of Android emulators, incorporates high-frequency anomaly types including permission pop-ups and system warnings, and supports real-time anomaly injection and multi-path execution trajectory simulation. Its development process adopts a semantic triggering mechanism and a configurable rule base, and collects manually annotated screenshots and XML files via dedicated data collection tools. This dataset is primarily applied in the field of agent robustness evaluation, aiming to address the core limitation that existing static benchmarks fail to reflect the dynamic complexity of real-world environments, and advance the development of highly adaptive GUI agents.

提供机构：

同济大学

创建时间：

2025-11-21

原始信息汇总

D-GARA 数据集概述

数据集名称

D-GARA

核心功能

动态基准测试框架，用于评估图形用户界面（GUI）智能体在真实世界安卓异常情况下的鲁棒性。

项目信息

项目页面：https://sen0609.github.io/D-GARA/
代码仓库：https://github.com/sen0609/D-GARA
引用文献：Chen等人，AAAI 2026会议论文

应用领域

安卓GUI智能体测试、鲁棒性评估、动态基准测试

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体研究领域，动态环境下的异常处理能力评估长期面临标准化工具的缺失。D-GARA框架通过整合安卓模拟器构建真实交互环境，采用模块化异常注入机制，在智能体执行任务过程中动态触发系统弹窗、权限请求等七类常见异常。其语义触发引擎基于XML层级结构的关键词匹配规则，配合可配置的后续动作流，模拟现实场景中因异常导致的路径分叉与状态迁移，最终通过数据收集工具固化包含152个任务的基准数据集。

特点

该数据集突破传统静态基准的局限，具备动态演进的交互特性。其异常类型覆盖系统资源告警、网络波动等五大维度，其中系统网络类异常占比42.8%，精准还原移动端真实干扰分布。每个任务嵌入了可导致执行轨迹重构的复杂异常，如应用崩溃后的状态恢复挑战，相较仅包含可逆弹窗的静态基准更能检验智能体的持续规划能力。数据集支持中英双语评估，并提供分离模态输入的对照实验设计。

使用方法

研究者可通过配置化文件定义自定义异常规则与成功验证条件，依托框架的动态执行管道进行稳健性测试。评估时采用基础成功率与稳健成功率双指标体系，后者专门衡量智能体在异常环境下维持基线任务完成度的能力。实验流程支持纯视觉输入与视觉+XML坐标的模态对比，并能通过限制响应选项强制检验复杂路径处理能力。该框架的模块化设计允许扩展新的应用场景与异常类型，为GUI智能体稳健性研究提供可持续演进的技术基座。

背景与挑战

背景概述

D-GARA数据集由同济大学联合广东人工智能与数字经济实验室、上海人工智能实验室于2025年共同研发，聚焦图形用户界面智能体在真实异常环境下的鲁棒性评估。该数据集针对现有静态基准无法反映动态交互复杂性的局限，通过构建模块化框架实现了对权限弹窗、系统警告、应用崩溃等高频异常的系统性模拟，填补了GUI智能体在非理想环境下评估标准的空白，为推进通用人工智能在现实场景中的落地提供了关键基础设施。

当前挑战

该数据集需解决图形用户界面智能体在动态异常环境中的任务持续执行问题，具体挑战包括：智能体面对突发弹窗时易偏离原始任务路径，系统资源波动导致的感知-决策链断裂，以及应用崩溃后历史动作对当前状态的干扰。构建过程中需克服动态异常注入的时序控制难题，跨应用交互轨迹的标准化标注，以及多模态状态下成功验证规则的泛化设计。

常用场景

经典使用场景

在图形用户界面智能体研究领域，D-GARA框架被广泛应用于评估移动端GUI代理在动态异常环境下的鲁棒性表现。该数据集通过模拟真实Android系统中的突发中断场景，如权限弹窗、电池警告和网络波动等，为研究者提供了标准化的测试平台。其动态注入机制能够实时生成多样化的异常事件，有效检验智能体在复杂交互环境中的任务持续执行能力。

衍生相关工作

基于D-GARA的评估范式，学术界衍生出多个关注GUI智能体鲁棒性的研究方向。部分研究团队受其动态评估机制启发，开发了面向跨平台应用的异常注入系统；另有工作专注于改进智能体的状态感知模块，以应对数据集中揭示的感知漂移问题。这些研究共同推动了动态评估标准在GUI智能体领域的普及与应用。

数据集最近研究