five

TreeCUA-Datasets

收藏
github2026-02-11 更新2026-02-28 收录
下载链接:
https://github.com/UITron-hub/TreeCUA
下载链接
链接失效反馈
官方服务:
资源简介:
由于商业限制,我们提供了环境配置和动作序列(探索树)。要获取视觉观察(屏幕截图)和完整轨迹数据,用户需要在OSWorld环境中重放这些动作。数据集结构包括trees/和data_resource/目录,其中trees/包含探索树的核心逻辑,data_resource/包含任务初始化所需的静态资源。

Due to commercial restrictions, we only provide environment configurations and action sequences (exploration trees). To acquire visual observations (screenshots) and full trajectory data, users need to replay these actions in the OSWorld environment. The dataset structure includes two directories: trees/ and data_resource/. The trees/ directory contains the core logic of the exploration trees, while the data_resource/ directory stores the static resources required for task initialization.
创建时间:
2026-02-09
原始信息汇总

TreeCUA 数据集概述

数据集基本信息

  • 数据集名称:TreeCUA-Datasets
  • 核心框架:TreeCUA (Tree-Structured Verifiable Evolution)
  • 主要用途:用于高效扩展图形用户界面(GUI)自动化代理
  • 数据获取地址:https://huggingface.co/datasets/jdy18/TreeCUA-Datasets
  • 相关论文地址:https://arxiv.org/abs/2602.09662
  • 许可证:Apache 2.0

核心特点

  • 树状结构探索:最大化节点复用,消除对浅层功能入口的冗余探索。
  • 步骤级验证:确保每个动作有效且符合预期的视觉结果。
  • 世界知识引导:利用官方文档引导代理实现长尾、专业功能。
  • 可扩展回放机制:支持在标准操作系统环境中进行异步并发生成,无需原生快照功能。
  • TreeCUA-DPO:一种新颖的对齐策略,使用分支节点作为直接偏好优化(DPO)的自然偏好对。

数据集内容与结构

由于商业限制,本数据集提供环境配置动作序列(探索树)。要获取视觉观察(屏幕截图)和完整的轨迹数据,用户需要在 OSWorld 环境中回放这些动作。

数据集目录结构组织如下:

Your_Working_Directory/ ├── trees/ │ ├── app_name/ # 例如:chrome, vscode │ │ ├── category_name/ # 例如:Bookmarks, Tabs & Session Management │ │ │ ├── tree_root_id/ # 探索树的唯一ID │ │ │ │ ├── config.json # 任务配置与环境设置 │ │ │ │ ├── nodes.jsonl # 此树中的动作(节点)序列 │ │ │ └── ... │ │ └── ... │ └── ... └── data_resource/ # 任务初始化所需的资源(文件、压缩包等) └── ...

文件描述

  • trees/:探索的核心逻辑。
    • config.json:定义虚拟机的初始状态。注意:此文件引用位于 data_resource/ 目录中的外部资源(例如,代码库、文档)。初始化环境时必须确保 data_resource/ 可访问。
    • nodes.jsonl:一个 JSON Lines 文件,每行代表探索树中的一个节点(状态)。包含到达此状态所采取的动作以及验证结果。
  • data_resource/:包含设置任务所需的静态资源(例如,用于 VS Code 任务的代码项目压缩包,用于 GIMP 任务的图像)。

数据格式示例 (nodes.jsonl)

json {"node_id": "node_03_0349c777", "parent_node_id": "node_02_80671614", "root_node_id": "root_001_4bb91e98", "depth": 3, "step_action": [{"action": "left_click", "coordinate": [97, 140]}, {"action": "wait", "duration": 1}], "step_goal": "Navigate to You and Google settings to manage user profile and account information", "verification_result": "SUCCESS", "meta": {"app": "chrome", "category": "Browser Configuration & Personalization"}}

关键字段说明:

  • node_id:当前状态的唯一标识符。
  • parent_node_id:前一个状态的ID。
  • step_action:为从父节点转换到当前节点而执行的动作。
  • step_goal:对此步骤执行动作的特定目标或意图的自然语言描述。
  • verification_result:验证器验证的动作是否成功执行。

使用与回放指南

要重建完整数据集(包括屏幕截图),需要回放动作序列。

环境设置

必须按照 OSWorld 的官方指南设置环境。

  • 分辨率要求:请确保桌面分辨率设置为 1024x768,以匹配我们动作的坐标空间。

回放逻辑

数据以树的形式存储。要到达任何特定的 node_id,必须从根节点开始遍历路径。

  1. 初始化:启动 OSWorld 环境。加载特定树文件夹中的 config.json。这将设置必要的文件(来自 data_resource)和应用程序状态。
  2. 追溯谱系:对于目标节点,在 nodes.jsonl 中递归查找其 parent_node_id,直到到达 root_node
  3. 执行:从根节点开始,按顺序执行每个祖先节点的 step_action,直到到达目标节点。

即将推出:自动化回放脚本

我们正在最终确定一个即用型脚本,该脚本将:

  • 自动解析树结构。
  • 处理 config.json 初始化和 data_resource 挂载。
  • 逐步回放动作并自动保存屏幕截图。

模型性能

提供了基于 Qwen2.5-VL-7B 在 TreeCUA 数据上训练的模型性能。

模型 基础模型 方法 OSWorld (ID) OOD Benchmark
Qwen2.5-VL-7B 5.5% 0.8%
TreeCUA-7B Qwen2.5-VL-7B SFT (2-Stage) 34.6% 26.7%
TreeCUA-DPO-7B Qwen2.5-VL-7B SFT + DPO 36.6% 30.8%

详细的基准测试结果和分析可在论文中找到。

引用

如果此工作对您有用,请引用我们的论文: bibtex @article{jiang2025treecua, title={TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution}, author={Jiang, Deyang and Huang, Jing and Zhao, Xuanle and Chen, Lei and Zheng, Liming and Liu, Fanfan and Qiu, Haibo and Shi, Peng and Zeng, Zhixiong}, journal={arXiv preprint arXiv:2602.09662}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在图形用户界面自动化领域,数据合成常面临冗余与多样性不足的挑战。TreeCUA数据集通过树状可验证演化框架重构了轨迹合成流程,将其转化为一种树状探索过程。该框架部署了探索、验证、总结与评估四类智能体,协同生成高质量、多样化且可验证的GUI操作轨迹。其核心在于利用树状结构最大化节点复用,避免对浅层功能入口的冗余探索,同时借助官方文档等世界知识引导智能体触及长尾的专业功能,并通过步骤级验证确保每个动作的有效性与预期视觉结果一致。
使用方法
为获取完整的轨迹数据(包括视觉观察截图),用户需在OSWorld环境中回放数据集提供的动作序列。使用前需严格遵循OSWorld官方指南设置环境,并将桌面分辨率调整为1024x768以匹配动作坐标空间。数据集以树状结构存储,用户需从目标节点的`node_id`出发,在`nodes.jsonl`中递归追溯其`parent_node_id`直至根节点,从而重建完整的执行路径。初始化时需加载对应树目录下的`config.json`文件以配置虚拟机初始状态,并确保`data_resource`目录中的静态资源可访问,随后从根节点开始,按顺序执行路径上每个祖先节点的`step_action`,最终复现目标状态。
背景与挑战
背景概述
在图形用户界面自动化领域,传统方法常受限于线性数据合成导致的冗余与多样性不足。TreeCUA数据集由研究团队于2025年提出,其核心创新在于将轨迹合成重构为树状探索过程,通过多智能体框架(探索、验证、总结与评估)生成高质量、多样化且可验证的GUI操作轨迹。该数据集依托OSWorld环境,专注于解决复杂软件操作任务的自动化问题,旨在提升智能体在真实操作系统环境中的泛化能力与执行效率,为GUI自动化研究提供了结构化的基准数据支撑。
当前挑战
TreeCUA数据集致力于应对GUI自动化中长尾功能覆盖与操作轨迹可靠性的核心挑战。在领域层面,需克服多步骤任务中动作序列的冗余探索、视觉状态对齐的验证困难,以及专业功能(如代码编辑或图像处理)的复杂逻辑建模。构建过程中,数据集面临树状结构数据的高效生成与存储、跨平台环境配置的一致性维护,以及动作坐标在特定屏幕分辨率下的精准映射等工程难题,这些因素共同制约了数据集的完整复现与规模化扩展。
常用场景
经典使用场景
在图形用户界面自动化研究领域,TreeCUA数据集以其树形结构轨迹数据,为智能体探索复杂软件环境提供了经典范例。该数据集通过记录从根节点到叶节点的完整动作序列,包括点击坐标、等待时长及自然语言目标描述,使得研究人员能够深入分析多步骤交互任务的执行路径。这种结构化的轨迹数据特别适用于训练和评估基于视觉语言模型的GUI自动化智能体,帮助模型学习如何在真实操作系统环境中高效导航并完成特定功能操作,从而推动自动化任务从简单指令执行向深层、多样化功能探索的演进。
解决学术问题
TreeCUA数据集有效应对了GUI自动化研究中数据合成冗余与多样性不足的核心挑战。传统线性合成方法往往产生大量重复轨迹,难以覆盖软件的长尾功能,而该数据集通过树形可验证进化机制,确保了每一步动作都经过验证并与预期视觉结果对齐。这不仅提升了轨迹数据的质量和可信度,还为研究社区提供了大规模、高保真的交互数据,助力解决自动化智能体的可扩展性、泛化能力以及对齐人类偏好等关键学术问题,为构建更可靠、高效的自动化系统奠定了数据基础。
实际应用
在实际应用层面,TreeCUA数据集为开发智能桌面助手、自动化测试工具以及无障碍辅助技术提供了重要支撑。基于该数据集训练的模型能够理解并执行跨应用程序的复杂任务,例如在浏览器中管理书签、在代码编辑器中配置项目,或在图像处理软件中完成编辑操作。这些能力可直接转化为企业级自动化解决方案,降低人工操作成本,提升工作效率。同时,数据集强调的可复现性设计,允许开发者在标准操作系统环境中重放动作序列,便于在实际部署前验证和优化自动化流程,确保技术的稳健落地。
数据集最近研究
最新研究方向
在图形用户界面自动化领域,TreeCUA数据集正推动着高效可扩展智能体训练范式的革新。该数据集通过树形可验证演化结构,突破了传统线性数据合成方法在多样性与冗余度上的局限,为构建能够处理复杂、长尾任务的GUI智能体提供了高质量轨迹数据。当前研究前沿聚焦于利用其树形分支节点作为自然偏好对,开发新型直接偏好优化策略,显著提升了模型在分布外场景下的泛化能力。这一进展不仅关联于多模态大模型在具身交互中的热点应用,也为操作系统级自动化任务的可靠部署奠定了数据基础,具有重要的学术与工程意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作