Android-World-Eval

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/SeerRay-Lab/Android-World-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

Android-World-Eval 是一个包含评估结果的数据集，用于衡量 Xiaomi-GUI-0 方法在 Android World 基准测试上的性能。该基准测试包含 116 个不同的任务，旨在评估智能体在真实 Android 图形用户界面（GUI）环境中的交互能力。数据集记录了每个任务进行 4 次独立评估运行（rollout）的详细轨迹，共计 464 个样本。数据以 JSON 格式存储，每个文件对应一次任务评估运行，包含顶层元数据（如任务描述、唯一标识符、最终奖励（成功为1.0，失败为0.0）和任务复杂度等属性），以及一个 `turns` 数组，详细记录了智能体与环境交互的每一步（包括屏幕截图（Base64编码的PNG图像）、大语言模型（LLM）的原始响应、解析后的动作对象、中间奖励和完整对话历史）。该数据集适用于机器人学、GUI 智能体、强化学习评估等研究领域，可用于分析智能体在复杂 GUI 任务中的决策过程、失败模式和评估方法的稳定性。

Android-World-Eval is a dataset containing evaluation results to measure the performance of the Xiaomi-GUI-0 method on the Android World benchmark. The Android World benchmark includes 116 different tasks designed to evaluate the interaction capabilities of agents in real Android graphical user interface (GUI) environments. This dataset records detailed trajectories of 4 independent evaluation runs (rollouts) per task, totaling 464 samples. The data is stored in JSON format, with each file corresponding to a task evaluation run. The data structure includes top-level metadata such as task description, unique identifier, final reward (1.0 for success, 0.0 for failure), and task complexity attributes. More importantly, it contains a `turns` array that details each step of the agents interaction with the environment, including screenshots (Base64-encoded PNG images), raw responses from the large language model (LLM), parsed action objects, intermediate rewards, and complete conversation history. This dataset is suitable for research areas such as robotics, GUI agents, and reinforcement learning evaluation, and can be used to analyze the decision-making processes, failure patterns, and stability of evaluation methods for agents in complex GUI tasks.

创建时间：

2026-06-18

原始信息汇总

数据集概述

数据集名称: Android-World-Eval
许可证: MIT
任务类别: 机器人 (Robotics)
标签: android, gui-agent, evaluation, RealGUI, xiaomi
数据集规模: n<1K (少于1000个样本)

来源与基准

评估方法: Xiaomi-GUI-0
基准测试: Android World (包含116个任务)
评估次数: 每个任务进行4次独立评估 (共464个样本)

评估结果

评估轮次	样本数	成功次数	准确率
0	116	94	81.03%
1	116	91	78.45%
2	116	91	78.45%
3	116	90	77.59%
总计	464	366	78.88%

数据格式

每个JSON文件代表一个任务的单次评估，包含以下字段：

顶层字段

字段名	说明
`trace_id`	评估轨迹的唯一标识符
`step`	评估检查点的训练步数
`sample_index`	任务索引 (0-115)
`rollout_n`	评估轮次编号 (0-3)
`experiment_name`	实验配置名称
`task`	人类可读的任务描述
`task_name`	规范化的任务标识符
`initial_prompt`	智能体接收的指令
`start_time` / `end_time`	评估运行的时间戳
`total_spans`	交互步骤总数
`status`	评估状态 (completed)
`phase`	评估阶段 (validate)
`final_reward`	最终奖励 (1.0代表成功，0.0代表失败)
`attributes`	任务元数据 (包含 `task_complexity` 和 `task_max_steps`)

每一步字段 (在 `turns` 数组中)

每个turn表示智能体与环境交互的一个步骤：

字段名	说明
`turn_index`	该步骤的顺序索引
`screenshot_base64`	设备屏幕的Base64编码PNG截图
`llm_response`	包含思考过程和动作的原始LLM输出
`action`	解析后的动作对象 (包含 `action` 类型、`arguments`、`thought` 和 `answer`)
`reward`	中间奖励信号 (中间步骤为0.0)
`timestamp`	该步骤的时间戳
`messages`	发送给LLM的完整消息历史

文件命名规则

sample_{task_index}rollout{rollout_number}.json

task_index: 0-115 (116个唯一任务)
rollout_number: 0-3 (每个任务4次独立运行)

使用示例

python import json from huggingface_hub import hf_hub_download

file = hf_hub_download( repo_id="SeerRay-Lab/Android-World-Eval", filename="sample_0_rollout_0.json", repo_type="dataset" )

with open(file, "r") as f: data = json.load(f)

print(f"Task: {data[task]}") print(f"Success: {data[final_reward] == 1.0}") print(f"Steps taken: {len(data[turns])}")

引用说明

使用该数据集时，请引用RealGUI论文和Android World基准测试。

搜集汇总

数据集介绍

构建方式

Android-World-Eval数据集旨在评估移动图形用户界面智能体的性能，其构建基于Xiaomi-GUI-0方法在Android World基准上的系统性评测。该基准包含116项任务，每项任务均独立执行四次评估运行，由此生成464个样本，全面覆盖了多样化的移动端交互场景。每个评估样本以JSON文件形式存储，通过统一的命名规则如sample_{task_index}_rollout_{rollout_number}.json进行标识，其中包含从任务描述、初始指令到最终奖励信号的完整交互轨迹，记录了每一步的环境截图、模型输出及解析后的动作。这种结构化的数据组织方式确保了评测过程的可复现性与细粒度分析能力。

特点

该数据集的核心特点在于其真实环境下的全面性与详实性。所有交互均在小米设备上实际执行，而非模拟环境，使得数据具备高度的生态效度。每个样本不仅记录了任务是否成功完成（final_reward为1.0或0.0），还包含了每轮交互的完整上下文，包括截图、模型推理过程与中间奖励信号。通过四次独立滚动评估，数据展现了方法在不同随机种子下的稳定性，整体准确率达到78.88%，为对比研究提供了坚实的基线。此外，字段中涵盖任务复杂度与最大步骤数等元数据，便于对不同难度层级进行深入剖析。

使用方法

用户可通过Hugging Face Hub便捷地获取与使用该数据集。推荐利用huggingface_hub库中的hf_hub_download函数直接下载所需样本，例如指定仓库ID为SeerRay-Lab/Android-World-Eval，文件名根据任务索引与滚动编号灵活选择。加载后的JSON对象包含顶层字段与turns数组，通过解析final_reward字段即可快速判断任务成败，而遍历turns数组可逐步骤分析智能体的行为轨迹与决策过程。对于批量分析，可编写脚本迭代下载所有样本，并结合pandas等工具进行统计汇总，从而全面评估方法在116项任务上的表现分布与失败模式。

背景与挑战

背景概述

随着移动设备交互界面的日益复杂，基于图形用户界面（GUI）的智能代理技术成为人机交互研究的前沿。Android-World-Eval数据集由SeerRay-Lab于2024年创建，旨在评估小米GUI-0方法在Android World基准测试中的性能。该数据集包含116个任务，每个任务进行4次独立评估，共计464个样本，专注于衡量GUI代理在真实安卓环境中的任务完成能力。通过发布结构化评估结果，该数据集为GUI代理领域提供了标准化评价指标，推动了从仿真环境向真实设备应用的跨越。其影响力体现在为研究人员提供了可复现的基线，促进了对代理泛化性和鲁棒性的深入探索。

当前挑战

该数据集在构建过程中面临多重挑战。首先，领域问题层面，真实安卓GUI环境存在非确定性响应和界面状态多样性，传统仿真评估方法难以准确衡量代理的泛化能力。其次，构建过程中需解决任务复杂度的显著差异，116个任务涵盖从简单点击到多步推理的操作，需设计合理的评估协议以避免偏差。此外，每个任务需进行4次滚动评估以确保统计可靠性，但环境状态和代理决策的随机性导致性能波动，如何从多次运行中提取稳定结论构成关键难题。最后，数据收集涉及大量屏幕截图与交互日志，存储与处理的效率问题也需被妥善应对。

常用场景

经典使用场景

Android-World-Eval数据集专为评估移动设备图形用户界面（GUI）智能体性能而设计，其经典使用场景在于衡量基于大语言模型的自动化代理在真实Android环境中的任务完成能力。该数据集包含116个多样化任务，每个任务独立执行四次模拟，总计464次交互轨迹，记录了从指令解析到屏幕操作的全过程。研究者可通过解析JSON文件中记录的最终奖励值（1.0表示成功，0.0表示失败）、交互轮次信息及中间屏幕截图，系统性地评估智能体在多步任务规划、视觉界面理解和动作执行等核心维度的表现，从而为GUI自主代理的优化提供可复现的量化基准。

实际应用

在实际应用层面，该数据集支撑了多项提升Android设备操作自动化水平的关键技术落地。基于评估结果，开发者可训练智能体执行设置调整、社交媒体发帖、消息发送、文件管理及多应用协作任务，例如自动填写表单或在图库、邮件和地图间联动操作。这些能力可赋能无障碍辅助工具，极大改善视障或行动不便用户的手机使用体验；同时为企业级场景如移动端办公流程自动化、客服测试和回归测试提供高效解决方案。数据集记录的失败案例还直接指导了鲁棒性增强策略的研发，使得智能体在面临弹出广告、网络加载延迟或动态权限请求等现实干扰时表现更为稳定可靠。

衍生相关工作

Android-World-Eval作为RealGUI研究项目的重要组成部分，直接衍生了多类开创性学术工作。数据集驱动的分析方法催生了针对大语言模型GUI代理在失败模式分布上的系统归类研究，揭示了指令歧义、元素定位偏差和步骤顺序依赖等典型瓶颈。此外，该评估框架激发了多种代表性方法的涌现，包括引入视觉Transformer的跨应用状态感知网络、结合强化学习的任务分解策略网络，以及融合在线适应机制的动态规划模型。基于该数据集的对比实验已经成为衡量新一代GUI智能体进步程度的标准参照，并牵引出一系列关于多模态对齐学习、安全约束型行动策略和轻量化端侧部署技术的后续探索。

以上内容由遇见数据集搜集并总结生成