TreeCUA-Datasets
收藏TreeCUA 数据集概述
数据集基本信息
- 数据集名称:TreeCUA-Datasets
- 核心框架:TreeCUA (Tree-Structured Verifiable Evolution)
- 主要用途:用于高效扩展图形用户界面(GUI)自动化代理
- 数据获取地址:https://huggingface.co/datasets/jdy18/TreeCUA-Datasets
- 相关论文地址:https://arxiv.org/abs/2602.09662
- 许可证:Apache 2.0
核心特点
- 树状结构探索:最大化节点复用,消除对浅层功能入口的冗余探索。
- 步骤级验证:确保每个动作有效且符合预期的视觉结果。
- 世界知识引导:利用官方文档引导代理实现长尾、专业功能。
- 可扩展回放机制:支持在标准操作系统环境中进行异步并发生成,无需原生快照功能。
- TreeCUA-DPO:一种新颖的对齐策略,使用分支节点作为直接偏好优化(DPO)的自然偏好对。
数据集内容与结构
由于商业限制,本数据集提供环境配置和动作序列(探索树)。要获取视觉观察(屏幕截图)和完整的轨迹数据,用户需要在 OSWorld 环境中回放这些动作。
数据集目录结构组织如下:
Your_Working_Directory/ ├── trees/ │ ├── app_name/ # 例如:chrome, vscode │ │ ├── category_name/ # 例如:Bookmarks, Tabs & Session Management │ │ │ ├── tree_root_id/ # 探索树的唯一ID │ │ │ │ ├── config.json # 任务配置与环境设置 │ │ │ │ ├── nodes.jsonl # 此树中的动作(节点)序列 │ │ │ └── ... │ │ └── ... │ └── ... └── data_resource/ # 任务初始化所需的资源(文件、压缩包等) └── ...
文件描述
trees/:探索的核心逻辑。config.json:定义虚拟机的初始状态。注意:此文件引用位于data_resource/目录中的外部资源(例如,代码库、文档)。初始化环境时必须确保data_resource/可访问。nodes.jsonl:一个 JSON Lines 文件,每行代表探索树中的一个节点(状态)。包含到达此状态所采取的动作以及验证结果。
data_resource/:包含设置任务所需的静态资源(例如,用于 VS Code 任务的代码项目压缩包,用于 GIMP 任务的图像)。
数据格式示例 (nodes.jsonl)
json {"node_id": "node_03_0349c777", "parent_node_id": "node_02_80671614", "root_node_id": "root_001_4bb91e98", "depth": 3, "step_action": [{"action": "left_click", "coordinate": [97, 140]}, {"action": "wait", "duration": 1}], "step_goal": "Navigate to You and Google settings to manage user profile and account information", "verification_result": "SUCCESS", "meta": {"app": "chrome", "category": "Browser Configuration & Personalization"}}
关键字段说明:
node_id:当前状态的唯一标识符。parent_node_id:前一个状态的ID。step_action:为从父节点转换到当前节点而执行的动作。step_goal:对此步骤执行动作的特定目标或意图的自然语言描述。verification_result:验证器验证的动作是否成功执行。
使用与回放指南
要重建完整数据集(包括屏幕截图),需要回放动作序列。
环境设置
必须按照 OSWorld 的官方指南设置环境。
- 分辨率要求:请确保桌面分辨率设置为 1024x768,以匹配我们动作的坐标空间。
回放逻辑
数据以树的形式存储。要到达任何特定的 node_id,必须从根节点开始遍历路径。
- 初始化:启动 OSWorld 环境。加载特定树文件夹中的
config.json。这将设置必要的文件(来自data_resource)和应用程序状态。 - 追溯谱系:对于目标节点,在
nodes.jsonl中递归查找其parent_node_id,直到到达root_node。 - 执行:从根节点开始,按顺序执行每个祖先节点的
step_action,直到到达目标节点。- 动作空间:
step_action的格式与 OSWorld 中 Anthropic Computer Use 的实现方式一致。
- 动作空间:
即将推出:自动化回放脚本
我们正在最终确定一个即用型脚本,该脚本将:
- 自动解析树结构。
- 处理
config.json初始化和data_resource挂载。 - 逐步回放动作并自动保存屏幕截图。
模型性能
提供了基于 Qwen2.5-VL-7B 在 TreeCUA 数据上训练的模型性能。
| 模型 | 基础模型 | 方法 | OSWorld (ID) | OOD Benchmark |
|---|---|---|---|---|
| Qwen2.5-VL-7B | 5.5% | 0.8% | ||
| TreeCUA-7B | Qwen2.5-VL-7B | SFT (2-Stage) | 34.6% | 26.7% |
| TreeCUA-DPO-7B | Qwen2.5-VL-7B | SFT + DPO | 36.6% | 30.8% |
详细的基准测试结果和分析可在论文中找到。
引用
如果此工作对您有用,请引用我们的论文: bibtex @article{jiang2025treecua, title={TreeCUA: Efficiently Scaling GUI Automation with Tree-Structured Verifiable Evolution}, author={Jiang, Deyang and Huang, Jing and Zhao, Xuanle and Chen, Lei and Zheng, Liming and Liu, Fanfan and Qiu, Haibo and Shi, Peng and Zeng, Zhixiong}, journal={arXiv preprint arXiv:2602.09662}, year={2025} }




