jacob-valdez/synthux-economy-r5-w042
收藏Hugging Face2026-05-30 更新2026-05-31 收录
下载链接:
https://hf-mirror.com/datasets/jacob-valdez/synthux-economy-r5-w042
下载链接
链接失效反馈官方服务:
资源简介:
SynthUX计算机使用数据集——经济模拟r5是由SynthUX生成的基于视觉的计算机使用轨迹数据集。每条记录代表一个模拟公司内员工的设备会话:一个目标扩展成节点树,终端节点通过低级鼠标/键盘输入驱动真实的桌面模拟器应用程序(包括终端、笔记、VS Code、浏览器、Slack/Teams、邮件、表格、幻灯片等),观察到的轨迹被记录为屏幕视频以及每个节点的帧。该数据集支持应用原生的多应用程序执行(无工作台覆盖),每个参与者的内容多样性,跨操作系统消息传递,以及大型多公司经济模拟。每个经济模拟作为独立的数据集仓库发布。
Grounded visual computer-use trajectories generated by SynthUX. Each record is one workers device session inside a simulated company: a goal expands into a node tree, terminal nodes drive real desktop-simulator apps (Terminal, Notes, VS Code, Browser, Slack/Teams, Mail, Sheets, Slides, …) through low-level mouse/keyboard input, and the observed trajectory is recorded as a screen video plus per-node frames. App-native multi-application execution (no workbench overlay), per-actor content diversity, cross-OS messaging, and large multi-company economies. Each economy simulation is published as its own dataset repo.
提供机构:
jacob-valdez
搜集汇总
数据集介绍

构建方式
该数据集由SynthUX系统生成,聚焦于模拟公司环境中工作者执行图形用户界面操作的全过程。每一条记录代表一个工作者在虚拟公司内的设备会话,其核心构建方式是将自然语言目标逐步展开为节点树,终端节点通过低层级鼠标与键盘输入驱动真实的桌面模拟应用程序(如终端、笔记、代码编辑器、浏览器、即时通讯软件、表格处理及演示文稿工具等),从而记录下完整的操作轨迹。每段轨迹均以屏幕视频及每个终端节点对应的静态帧图像形式呈现,确保操作细节的精确还原。所有观测数据均为因果性记录,仅依赖低层输入作为状态变更通道,未引入高层应用级修改,从而保持了数据生成过程的纯净与可复现性。
特点
该数据集突出于多应用环境下的原生执行能力,摒弃工作台叠加层,实现了跨操作系统的消息交互与大规模多公司经济体系的模拟。每个轨迹包含丰富的元数据字段,如工作者身份、所属公司、角色、目标描述、节点树结构与密集的低层级输入事件序列,支持对操作过程的细粒度分析。数据集涵盖macOS、Windows及纯浏览器三种模拟环境,共计36条轨迹、929帧图像,横跨6家虚拟公司,展现了多样化的操作场景与设备配置。每一条轨迹的观测状态与输入事件段均与节点ID精确关联,便于下游任务针对特定操作步骤进行定位与评估。
使用方法
该数据集以标准格式发布,主文件为JSON Lines格式的`data.jsonl`,每条记录包含完整的轨迹元数据、输入事件序列及观测状态。配套的截图存放于`screenshots/<轨迹ID>/`目录下,每张PNG图像对应一个终端节点的最后输入时刻,而完整的屏幕录像则以WebM格式组织在`videos/<轨迹ID>.webm`中。用户可依据`trajectory_id`字段对特定工作者的会话进行检索,通过解析`tree.nodes`结构获取任务分解路径,利用`trajectory.input_events`与`trajectory.observations`对操作过程进行时间维度的建模。数据集适用于训练或评测图形界面智能体在不同操作系统、多应用协同及目标导向任务下的规划与执行能力。
背景与挑战
背景概述
在图形用户界面(GUI)智能体研究领域,如何让AI模型在真实的多应用、多平台计算环境中自主执行复杂任务,一直是亟待突破的核心难题。SynthUX Computer-Use数据集(economy sim r5)由SynthUX团队于近期创建,旨在通过合成生成技术,模拟跨操作系统(macOS、Windows、浏览器OS)的企业级多应用协作场景。该数据集包含来自6家虚拟公司的36条完整操作轨迹,每条轨迹记录了员工在模拟公司内使用终端、浏览器、办公套件等原生桌面应用完成特定目标的过程。其独特之处在于,所有交互均通过底层鼠标/键盘事件驱动,摒弃了常见的应用覆盖层,从而提供更贴近人类真实操作习惯的视觉-动作数据。这一数据集的发布,为训练和评估具备多步规划、跨应用迁移能力的高鲁棒性GUI智能体提供了前所未有的标准化训练资源,在自动化办公、智能助手等领域展现出重要的应用潜力。
当前挑战
数据集面临的核心挑战可归纳为三方面。首先,在领域问题层面,现有GUI智能体大多局限于单一应用或受限环境,难以处理跨应用、长序列且依赖真实屏幕像素的复杂任务;SynthUX通过引入多公司、多角色的动态经济模拟,显著提升了任务复杂度和泛化要求。其次,在构建过程中,合成数据生成的保真度与多样性难以兼顾——既要确保每帧画面反映真实的桌面应用状态,又需避免因过度模式化导致的过拟合风险。此外,由于采用因果记录机制(仅保留低层级输入事件序列),如何从密集的鼠标/键盘事件中准确对齐每一步操作与对应的语义节点,并对抗模拟环境中的潜在状态漂移,是数据质量控制上的另一技术难点。
常用场景
经典使用场景
在人工智能与计算机交互领域,SynthUX Economy R5 W042数据集专为训练与评估图形用户界面(GUI)智能体而设计。其核心使用场景在于模拟多应用协同工作的企业环境,通过记录工人在模拟公司中的完整设备会话轨迹,包括终端、笔记、代码编辑器、浏览器、即时通讯、邮件及办公套件等真实桌面应用的底层鼠标与键盘操作,为研究者提供了丰富的多应用连续交互数据。该数据集特别适合用于训练能够理解复杂任务目标、自主规划并执行跨应用操作的智能体模型,是探索GUI自动化与智能助手技术的宝贵资源。
衍生相关工作
围绕SynthUX Economy R5 W042数据集,一系列富有启发性的研究路径应运而生。该数据集丰富的因果观测结构,催生了众多关于从低层级输入事件中抽取高层语义意图的研究工作,推动了隐式任务规划与显式动作序列对齐的新方法。基于其多应用原生执行的设计,研究者开始探索跨应用状态建模与统一动作空间表示,衍生出若干针对长程多步骤交互的轨迹学习框架。此外,该数据集独特的公司层级与角色信息,也启发了将组织行为学融入智能体训练的新方向,为构建能够在复杂社会技术系统中自主协作的AI代理奠定了理论与实践基础。
数据集最近研究
最新研究方向
该数据集聚焦于图形用户界面(GUI)智能体在模拟多公司经济环境中的视觉计算机使用轨迹研究,涵盖跨平台(macOS、Windows、浏览器)的多应用协同操作,例如终端、代码编辑、浏览器、办公软件及通讯工具等桌面应用的自然语言驱动执行。通过记录低层鼠标/键盘输入事件与屏幕视频、帧级观测,该数据集为开发与评估具备跨应用感知与长链推理能力的GUI智能体提供了真实模拟场景。在AI自动化办公、企业级任务编排及人机交互前沿领域,此类合成数据有助于探索智能体在多应用、多角色环境中的决策一致性与迁移泛化能力,推动大语言模型驱动的计算机使用范式从单一应用向复合生态演进。
以上内容由遇见数据集搜集并总结生成



