AGENTNET
收藏AgentNet数据集概述
基本信息
- 语言: 英语 (en)
- 许可证: MIT
- 任务类别: 图像文本到文本 (image-text-to-text)
- 标签: 计算机使用 (Computer-Use), 代理 (Agent)
数据集简介
AgentNet是第一个大规模桌面计算机使用代理轨迹数据集,包含22.6K个人工标注的计算机使用任务,涵盖Windows、macOS和Ubuntu系统。
应用领域
- 计算机使用的视觉-语言-动作(VLA)模型训练与评估
- 桌面自动化的多模态代理
- GUI理解与交互系统
- 跨平台计算机使用代理
动作空间
数据集使用PyAutoGUI动作和预定义的代理相关动作。
任务多样性
数据集涵盖4个主要领域:
- 工作(办公工具、任务管理)
- 专业(创意设计、开发、数据分析、研究)
- 日常(电子商务、社交媒体、娱乐)
- 系统(配置、网络工具)
任务具有中等至高度复杂性,包括多应用程序工作流、专业知识需求和不常见功能使用。
数据合成流程
- 工具标注(AgentNetTool):跨平台标注工具,用于捕获屏幕录制、鼠标/键盘信号和可访问性树
- 动作简化与状态-动作匹配:将原始演示处理为紧凑的状态-动作轨迹
- CoT合成:使用反射长CoT框架为每个步骤生成结构化推理(观察、思考、动作)
数据结构
每个JSONL文件包含以下结构的轨迹: json { "task_id": "20240927235321_5855063d-3f37-47a4-ab45-5247adfdb6f7", "instruction": "sort the table in ascending order based on the number column data in excel", "task_completed": false, "alignment_score": 7, "efficiency_score": 6, "task_difficulty": 3, "natural_language_task": "Could you help me sort this table in Excel...", "actual_task": "Sort a table in WPS Office...", "traj": [ { "index": 0, "image": "ea83c4aa-a4b1-48af-b439-0de7ee7b8d3f.png", "value": { "observation": "Im looking at a WPS Office Excel spreadsheet...", "thought": "Since this is the first action...", "action": "Click on cell C2, which contains the number...", "code": "pyautogui.click(x=0.1632, y=0.2711)", "last_step_correct": true, "last_step_redundant": false, "reflection": "The action has successfully selected cell C2..." } } ] }
训练数据格式
训练时数据转换为对话格式,支持不同CoT级别(L1: 动作+代码, L2: 思考+动作+代码, L3: 观察+思考+动作+代码)和动作历史。
许可证与研究使用
- 许可证: MIT
- 研究用途: 仅限研究和教育目的
- 禁止用途: 非法、不道德或有害活动;侵犯知识产权;未经授权的复制、分发或使用
引用
bibtex @misc{wang2025opencuaopenfoundationscomputeruse, title={OpenCUA: Open Foundations for Computer-Use Agents}, author={Xinyuan Wang and Bowen Wang and Dunjie Lu and Junlin Yang and Tianbao Xie and Junli Wang and Jiaqi Deng and Xiaole Guo and Yiheng Xu and Chen Henry Wu and Zhennan Shen and Zhuokai Li and Ryan Li and Xiaochuan Li and Junda Chen and Boyuan Zheng and Peihang Li and Fangyu Lei and Ruisheng Cao and Yeqiao Fu and Dongchan Shin and Martin Shin and Jiarui Hu and Yuyan Wang and Jixuan Chen and Yuxiao Ye and Danyang Zhang and Dikang Du and Hao Hu and Huarong Chen and Zaida Zhou and Yipu Wang and Heng Wang and Diyi Yang and Victor Zhong and Flood Sung and Y. Charles and Zhilin Yang and Tao Yu}, year={2025}, eprint={2508.09123}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.09123}, }

- 1OpenCUA: Open Foundations for Computer-Use Agents香港大学XLANG实验室, 月之石人工智能, 斯坦福大学, 滑铁卢大学, 卡内基梅隆大学 · 2025年



