five

AGENTNET

收藏
arXiv2025-08-13 更新2025-08-14 收录
下载链接:
https://huggingface.co/datasets/xlangai/AgentNet
下载链接
链接失效反馈
官方服务:
资源简介:
OPENCUA是一个全面的开放源代码框架,用于扩展计算机使用代理(CUA)数据和基础模型。该框架包括:(1)一个无缝捕捉人类计算机使用演示的注释基础设施;(2)AGENTNET,这是第一个涵盖3个操作系统和200多个应用程序和网站的大型计算机使用任务数据集;(3)一个可扩展的管道,它将演示转换为具有反思性长链式思维推理的状态-动作对,这种推理可以随着数据规模的扩大而保持稳健的性能提升。我们的端到端代理模型在CUA基准测试中表现出色。特别是,OPENCUA-32B在OSWorld-Verified上实现了34.8%的平均成功率,在开源模型中建立了新的最先进水平,并超过了OpenAI CUA(基于GPT-4o)。进一步的分析证实,我们的方法在不同领域具有很好的泛化能力,并且从增加的测试时间计算中受益匪浅。我们发布我们的注释工具、数据集、代码和模型,为CUA研究的进一步发展建立开放的基石。

OPENCUA is a comprehensive open-source framework for scaling computer use agent (CUA) datasets and foundation models. The framework encompasses: (1) an annotation infrastructure that seamlessly captures human computer use demonstrations; (2) AGENTNET, the first large-scale computer use task dataset covering 3 operating systems and over 200 applications and websites; (3) a scalable pipeline that converts demonstrations into state-action pairs with reflective long-chain chain-of-thought reasoning, which maintains robust performance improvements as the scale of the dataset increases. Our end-to-end agent models deliver outstanding performance on the CUA benchmark. Specifically, OPENCUA-32B achieves an average success rate of 34.8% on OSWorld-Verified, setting a new state-of-the-art among open-source models and surpassing OpenAI CUA (built on GPT-4o). Further analyses confirm that our method exhibits excellent generalization capabilities across diverse domains and benefits greatly from increased test-time computation. We release our annotation tools, datasets, code, and models to establish an open foundation for the further advancement of CUA research.
提供机构:
香港大学XLANG实验室, 月之石人工智能, 斯坦福大学, 滑铁卢大学, 卡内基梅隆大学
创建时间:
2025-08-13
原始信息汇总

AgentNet数据集概述

基本信息

  • 语言: 英语 (en)
  • 许可证: MIT
  • 任务类别: 图像文本到文本 (image-text-to-text)
  • 标签: 计算机使用 (Computer-Use), 代理 (Agent)

数据集简介

AgentNet是第一个大规模桌面计算机使用代理轨迹数据集,包含22.6K个人工标注的计算机使用任务,涵盖Windows、macOS和Ubuntu系统。

应用领域

  • 计算机使用的视觉-语言-动作(VLA)模型训练与评估
  • 桌面自动化的多模态代理
  • GUI理解与交互系统
  • 跨平台计算机使用代理

动作空间

数据集使用PyAutoGUI动作和预定义的代理相关动作。

任务多样性

数据集涵盖4个主要领域:

  1. 工作(办公工具、任务管理)
  2. 专业(创意设计、开发、数据分析、研究)
  3. 日常(电子商务、社交媒体、娱乐)
  4. 系统(配置、网络工具)

任务具有中等至高度复杂性,包括多应用程序工作流、专业知识需求和不常见功能使用。

数据合成流程

  1. 工具标注(AgentNetTool):跨平台标注工具,用于捕获屏幕录制、鼠标/键盘信号和可访问性树
  2. 动作简化与状态-动作匹配:将原始演示处理为紧凑的状态-动作轨迹
  3. CoT合成:使用反射长CoT框架为每个步骤生成结构化推理(观察、思考、动作)

数据结构

每个JSONL文件包含以下结构的轨迹: json { "task_id": "20240927235321_5855063d-3f37-47a4-ab45-5247adfdb6f7", "instruction": "sort the table in ascending order based on the number column data in excel", "task_completed": false, "alignment_score": 7, "efficiency_score": 6, "task_difficulty": 3, "natural_language_task": "Could you help me sort this table in Excel...", "actual_task": "Sort a table in WPS Office...", "traj": [ { "index": 0, "image": "ea83c4aa-a4b1-48af-b439-0de7ee7b8d3f.png", "value": { "observation": "Im looking at a WPS Office Excel spreadsheet...", "thought": "Since this is the first action...", "action": "Click on cell C2, which contains the number...", "code": "pyautogui.click(x=0.1632, y=0.2711)", "last_step_correct": true, "last_step_redundant": false, "reflection": "The action has successfully selected cell C2..." } } ] }

训练数据格式

训练时数据转换为对话格式,支持不同CoT级别(L1: 动作+代码, L2: 思考+动作+代码, L3: 观察+思考+动作+代码)和动作历史。

许可证与研究使用

  • 许可证: MIT
  • 研究用途: 仅限研究和教育目的
  • 禁止用途: 非法、不道德或有害活动;侵犯知识产权;未经授权的复制、分发或使用

引用

bibtex @misc{wang2025opencuaopenfoundationscomputeruse, title={OpenCUA: Open Foundations for Computer-Use Agents}, author={Xinyuan Wang and Bowen Wang and Dunjie Lu and Junlin Yang and Tianbao Xie and Junli Wang and Jiaqi Deng and Xiaole Guo and Yiheng Xu and Chen Henry Wu and Zhennan Shen and Zhuokai Li and Ryan Li and Xiaochuan Li and Junda Chen and Boyuan Zheng and Peihang Li and Fangyu Lei and Ruisheng Cao and Yeqiao Fu and Dongchan Shin and Martin Shin and Jiarui Hu and Yuyan Wang and Jixuan Chen and Yuxiao Ye and Danyang Zhang and Dikang Du and Hao Hu and Huarong Chen and Zaida Zhou and Yipu Wang and Heng Wang and Diyi Yang and Victor Zhong and Flood Sung and Y. Charles and Zhilin Yang and Tao Yu}, year={2025}, eprint={2508.09123}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2508.09123}, }

搜集汇总
数据集介绍
main_image_url
构建方式
AGENTNET数据集通过OPENCUA框架构建,采用跨平台标注工具AGENTNET TOOL,在Windows、macOS和Ubuntu三大操作系统中捕获真实用户的计算机操作轨迹。该工具同步记录屏幕视频、键盘鼠标信号及无障碍树数据,并通过规则化方法将原始高频交互信号压缩为语义化的状态-动作对。数据集包含22,625条任务轨迹,覆盖200余款应用和网站,平均每任务18.6个步骤,特别强调多应用工作流和专业工具复杂功能的操作记录。数据经过两阶段验证流程,并采用多层级隐私保护机制确保合规性。
特点
作为首个大规模跨平台计算机任务数据集,AGENTNET以三重异构模态数据为特色:1) 像素级屏幕录像完整保留视觉上下文;2) 离散化动作序列精确映射PyAutoGUI可执行命令;3) 增强型无障碍树提供结构化界面语义。其任务复杂度显著超越现有GUI数据集,30.6%案例涉及多应用协作,12.9%需要专业知识,且包含自主生成的反射式思维链标注。数据分布涵盖工作、日常、专业及系统配置四大领域,在操作系统、应用类型和交互模式三个维度实现均衡覆盖。
使用方法
该数据集支持端到端计算机智能体训练与评估:1) 基础使用时,可直接加载预处理后的状态-动作轨迹进行模仿学习;2) 进阶应用可结合配套的反射式思维链数据,通过L1-L3多级推理格式增强模型规划能力;3) 离线评测需遵循AGENTNETBENCH的多动作匹配准则,对坐标类动作采用边界框验证,内容类动作使用编辑距离度量。研究人员还可通过OPENCUA框架将数据转换为VLM训练所需的视觉-语言对,或利用原始视频流进行自监督表征学习。为保障可复现性,建议在Docker容器中配置指定版本的PyAutoGUI环境执行动作验证。
背景与挑战
背景概述
AGENTNET数据集由XLANG Lab与Moonshot AI等机构于2025年8月联合发布,是首个跨操作系统(Windows/macOS/Ubuntu)的大规模计算机使用代理任务数据集,涵盖200+应用程序与网站的真实用户交互轨迹。该数据集通过创新的AGENTNET TOOL捕获屏幕视频、键盘鼠标信号及可访问性树数据,构建了22,625条包含状态-动作对的任务轨迹,平均步长18.6步,显著超越了现有GUI数据集在复杂度和多样性上的局限。其核心研究目标是解决封闭式商业智能代理系统(如OpenAI CUA)的透明度问题,为学术界提供开放的计算机使用代理(CUA)研究基础,推动多模态代理在真实数字环境中的规划、反思与错误恢复能力研究。
当前挑战
领域问题挑战:1) 跨平台GUI交互的泛化性难题,需处理不同操作系统间界面布局与交互逻辑的差异;2) 长周期任务中状态-动作对的时序依赖建模,涉及多达50步的连贯决策;3) 高精度 grounding 需求,如像素级坐标定位与文本输入验证。构建过程挑战:1) 原始动作信号的高频冗余性(单任务含数千低阶事件),需开发基于规则的压缩算法;2) 多模态数据对齐难题,需精确匹配屏幕截图时间戳与离散化后的动作;3) 隐私保护与数据质量的平衡,需设计多层审核机制过滤敏感信息同时保留真实交互模式。
常用场景
经典使用场景
AGENTNET数据集作为首个跨操作系统、覆盖200余种应用和网站的大规模计算机使用任务数据集,其经典使用场景主要集中在训练和评估计算机使用代理(CUAs)的通用能力。通过捕捉真实用户在多平台(Windows、macOS、Ubuntu)的交互轨迹,包括屏幕录像、键盘鼠标信号及可访问性树数据,该数据集为构建端到端的视觉语言代理模型提供了丰富的状态-动作对样本。研究者可利用其18.6步平均长度的复杂任务轨迹,开发能够处理跨应用工作流、专业工具操作及非常见功能调用的智能代理。
衍生相关工作
基于AGENTNET衍生的代表性工作包括:1) Aguvis提出的纯视觉代理框架,利用该数据集验证了多图像历史编码对长时序任务的有效性;2) UI-TARS-72B模型通过引入AGENTNET的跨平台数据,在OSWorld基准上创造27.1%的当时最优成绩;3) 后续研究ScreenSpot-Pro将该数据集的动作离散化方法扩展至专业高分辨率GUI的 grounding任务;4) OPENCUA-32B模型通过融合AGENTNET与反射式CoT,首次在开源模型中超越GPT-4o的商业代理性能。这些工作共同推动了计算机代理从单一领域向通用化的发展。
数据集最近研究
最新研究方向
近年来,AGENTNET数据集在计算机使用代理(CUA)领域的研究中展现出显著的前沿进展。作为首个跨操作系统、覆盖200余种应用和网站的大规模计算机任务数据集,AGENTNET通过整合屏幕录像、交互动作流及可访问性树等多模态数据,为构建端到端的视觉语言代理模型提供了关键支持。其核心突破在于提出反射式长链思维(Reflective Long CoT)合成方法,通过自然语言内省机制增强代理的错误检测与恢复能力,使OPENCUA-32B模型在OSWorld-Verified基准测试中以34.8%的成功率超越GPT-4o等闭源模型,创下开源模型新标杆。当前研究热点聚焦于三大方向:一是探索跨平台数据对代理泛化能力的促进作用,实验表明即使使用非目标域数据(如Windows数据训练Ubuntu任务)仍能提升18.5%的性能;二是优化多图像历史编码与动作离散化管道,解决高密度人机交互信号到可训练状态-动作对的转换难题;三是研究测试时计算扩展对性能的影响,通过Pass@n评估发现模型在增加推理步数时呈现显著性能提升(如Pass@16较Pass@1提升113%)。这些进展不仅推动了开源CUA框架的透明化发展,也为研究代理在医疗、金融等高风险决策领域的可靠部署提供了基础工具链。
相关研究论文
  • 1
    OpenCUA: Open Foundations for Computer-Use Agents香港大学XLANG实验室, 月之石人工智能, 斯坦福大学, 滑铁卢大学, 卡内基梅隆大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作