CUA-Gym
收藏CUA-Gym 数据集概述
数据集基本信息
- 数据集名称: CUA-Gym
- 许可证: CC-BY-4.0
- 语言: 英语 (en)
- 任务类别: 强化学习、文本生成
- 数据集规模: 1K < n < 10K(当前版本包含 7,897 个任务)
- 配置: 单个配置
tasks
数据集定位与用途
CUA-Gym 是一个面向计算机使用智能体的可验证任务集合,专门用于带可验证奖励的强化学习(RLVR)。每个任务包含:
- 自然语言指令
- 可执行的设置工件
- 用于程序化检查任务完成情况的 Python 奖励函数
预期研究用途:
- 计算机使用智能体与 GUI 智能体研究
- RLVR 与程序化奖励设计
- 合成任务生成
- 可执行桌面与网页评估
- 训练后数据过滤与规模缩放研究
数据集结构
仓库布局
text README.md stats.json url_variables.json data/ tasks.parquet artifacts/ cua_gym_tasks_v1.tar.zst scripts/ materialize_dataset_urls.py
任务包结构
每个任务在归档文件中以独立目录形式存在,包含:
task.json:任务配置reward.py:奖励函数- 设置工件文件(格式不定):
initial_setup.py、initial_setup.sh、initial_setup.xlsx、initial_setup.docx、initial_setup.pptx
元数据表字段
| 字段 | 说明 |
|---|---|
id |
稳定任务标识符 |
instruction |
展示给智能体的自然语言任务指令 |
app_type |
应用或环境标签(如 libreoffice_calc、vscode、instagram_mock、multi_apps) |
app_family |
粗粒度应用家族(desktop_office、desktop、mock_web、multi_apps、other) |
platform |
粗粒度平台(desktop、web、cross_app) |
difficulty |
难度标签(部分任务未标注) |
setup_kind |
设置工件类型(如 py、sh、xlsx、docx、pptx) |
num_setup_steps |
原始任务配置中的设置动作数量 |
num_setup_files |
配置引用的设置工件数量 |
has_ground_truth |
是否包含 ground_truth 字段 |
archive_path |
包含原始任务包的归档文件路径 |
archive_member |
归档内的任务目录 |
task_json_member |
归档内 task.json 的路径 |
reward_member |
归档内 reward.py 的路径 |
setup_file_members |
归档内设置工件文件的路径 |
数据集统计信息
| 指标 | 数值 |
|---|---|
| 任务总数 | 7,897 |
| 原始任务文件数 | 23,691 |
| 未压缩工件大小 | 约 160 MB |
app_type 取值数量 |
264 |
| 已标注难度的任务数 | 5,322 |
| 未标注难度的任务数 | 2,575 |
主要应用类别
libreoffice_calc(LibreOffice 表格)libreoffice_writer(LibreOffice 文档)libreoffice_impress(LibreOffice 演示)multi_apps(多应用组合)vscode(代码编辑器)pdf(PDF 相关)- 模拟网页应用,如:
instagram_mock、hubspot_mock、google_docs_mock、outlook_web_mock、google_sheets_mock
使用说明
数据加载
python from datasets import load_dataset tasks = load_dataset("xlangai/CUA-Gym", "tasks", split="train")
任务过滤
python calc_hard = tasks.filter( lambda row: row["app_type"] == "libreoffice_calc" and row["difficulty"] == "hard" )
下载原始任务包
bash huggingface-cli download xlangai/CUA-Gym --repo-type dataset --local-dir ./CUA-Gym-data --include "artifacts/cua_gym_tasks_v1.tar.zst" "scripts/materialize_dataset_urls.py" "url_variables.json" "data/tasks.parquet"
解压归档
bash mkdir -p ./cua_gym_tasks tar --zstd -xf ./CUA-Gym-data/artifacts/cua_gym_tasks_v1.tar.zst -C ./cua_gym_tasks
关键注意事项
- 自托管网页端点: 部分网页任务的设置和奖励文件需要使用 CUA-Gym-Hub 模拟应用端点。公开版本将端点存储为占位符(如
__CUA_GYM_GMAIL_URL__),用户需自行部署对应应用并设置环境变量。 - 安全执行: 设置和奖励文件是可执行代码,应仅在隔离的虚拟机、容器或沙箱中运行。
- 已知限制: 奖励仅评估最终环境状态;部分任务缺少难度标签;模拟网页任务可能缺失真实网络行为。
引用信息
bibtex @misc{cua-gym, title = {CUA-Gym: Scaling Verifiable Training Environments and Tasks for Computer-Use Agents}, author = {{CUA-Gym Team}}, year = {2026}, howpublished = {url{https://huggingface.co/datasets/xlangai/CUA-Gym}} }




