five

microsoft/synthetic-computers-at-scale

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/microsoft/synthetic-computers-at-scale
下载链接
链接失效反馈
官方服务:
资源简介:
一个包含98个合成计算机环境的数据集,设计用于研究计算机使用代理、长期规划和基于角色的推理。每个条目描述了一个虚构用户的计算机环境,包括用户角色、专业背景、月度目标、合作者、项目组合、文件系统策略、文件列表和文件关系图。数据集的结构是每行一个合成计算机,所有非ID列都是JSON编码的字符串。数据集还提供了配套的文件内容和回顾性分析报告,但需要额外下载和解压。数据集的主要用途包括基准测试计算机使用代理、研究长期规划以及为需要推理文件组织、命名和文件间关系的代理提供合成数据。数据集完全合成,角色、项目和文件都是虚构的,且规模较小(98台计算机),主要用于评估和作为更大规模生成的种子。

A dataset of 98 synthetic computer environments designed for research on computer-use agents, long-horizon planning, and persona-grounded reasoning. Each row describes a single fictional users computer — including the users persona, professional context, monthly objectives, collaborators, project portfolio, filesystem policy, full file listing, and a graph of file relationships. The dataset structure is one row per synthetic computer, with all non-id columns being JSON-encoded strings. The dataset also includes companion artifacts (file contents) and retrospective analysis reports, which need to be downloaded and extracted separately. The primary intended uses are benchmarking computer-use/desktop agents, studying long-horizon planning grounded in monthly objectives and project portfolios, and providing synthetic data for training agents that must reason about file organization, naming, and inter-file relationships. The dataset is fully synthetic, with personas, projects, and files being fictional, and is small in scale (98 computers), intended for evaluation and as a seed for larger generations rather than large-scale pretraining.
提供机构:
microsoft
搜集汇总
数据集介绍
main_image_url
构建方式
Synthetic Computers at Scale数据集通过一套完整的合成管线构建了98个虚构用户的计算环境。管线首先随机采样用户角色与目标操作系统(macOS或Windows),随后将角色扩展为详细的用户画像及协作网络,并规划月度目标、重复性活动与每周重点。接着,数据集为每个用户生成了对应的项目组合与文件系统策略,包括驱动器布局、默认路径及命名规范。最终,基于上述策略与项目内容,产生具体的文件列表,并推导出反映文件间关联的关系图。所有结构化信息以JSON字符串形式存储于Parquet文件中,确保了异构数据的无损保存。
使用方法
用户可通过HuggingFace Datasets库中的load_dataset函数加载该数据集,并利用json.loads方法解析各JSON编码列。基础元数据(如用户画像、文件列表与关系图)可直接从Parquet文件中获取,而实际的驱动器内容则以压缩包形式提供,需通过huggingface_hub下载并使用tar命令解压。数据集适用于基准测试桌面代理、研究基于月度目标的长时间规划,以及训练需要理解文件组织与关联的模型。若仅需元数据进行分析,可跳过驱动器内容的下载。
背景与挑战
背景概述
随着人工智能代理在桌面操作与长期规划任务中的广泛应用,如何构建真实且可扩展的评估环境成为关键瓶颈。2026年,微软研究院的Tao Ge、Baolin Peng、Hao Cheng和Jianfeng Gao团队发布了Synthetic Computers at Scale数据集,包含98个高度拟真的合成计算机环境。每个环境围绕虚构用户构建,涵盖其个性档案、职业背景、月度目标、文件系统策略及文件关系图谱,旨在为计算机使用代理、长时域规划及基于人格的推理研究提供结构化测试床。该数据集填补了现有基准缺乏异构个性化与生产力场景真实性的空白,为代理在复杂文件系统中的自主操作与多步计划能力评估奠定了标准化基础,对智能体与人类协作的研究具有重要推动作用。
当前挑战
该数据集旨在应对两大核心挑战。一是领域问题层面:现有计算机使用代理评估多局限于简单网页导航或固定任务,缺乏对长期、多目标、基于个人风格的生产力场景的建模,导致代理在真实桌面环境中的泛化能力难以验证。二是数据集构建层面:需手动设计98套高度异质的用户画像、文件系统结构与项目网络,确保每台计算机内部逻辑自洽且跨实例风格各异,同时保持元数据与文件内容的无损存储;此外,处理异质化JSON模式、避免模式冲突,并平衡小规模样本(98个)的可复现性与扩展性,构成了工程与设计上的双重挑战。
常用场景
经典使用场景
Synthetic Computers数据集专为评估与训练计算机使用代理(computer-use agents)而设计,其核心场景聚焦于模拟真实用户在长期任务中的文件系统操作与效率优化。每个合成环境均包含详尽的人物画像(persona)、月工作目标、项目组合及文件关系图谱,使得研究者能够构建高度拟真的桌面操作场景。该数据集特别适合用于测试智能体在复杂文件层级下的导航能力、任务规划弹性及跨时段目标达成率——例如从用户画像推断其工作习惯,再据此优化代理在整理归档、跨项目资源调度中的表现。通过98个风格各异的Windows与macOS实例,研究者可系统性地评估代理在异构操作系统中的适应性,从而推动从短期指令遵循到长期自主决策的范式转变。
解决学术问题
该数据集直面当前AI代理研究中的两项核心瓶颈:其一为长时间跨度任务(long-horizon tasks)中的规划脆弱性,即模型在需依赖上下文积累与多步推理的生产力场景中常出现目标遗忘或策略漂移;其二为人物画像驱动的个性化推理缺失,现有基准多基于泛化指令而非用户特定工作模式。Synthetic Computers通过提供结构化的人物语义、协作网络及文件生命周期元数据,使学者能够首次在受控条件下量化分析代理的“情境记忆”能力——例如验证模型是否能在季末冲刺时优先处理上月被搁置的紧急文件,或是否因系统宕机而重新调整周度焦点模块。此外,其文件关系图谱支持因果推理研究:代理能否从文件名前缀推断项目归属?是否理解衍生文件与母文件的逻辑血缘?这些追问直指智能体从“工具使用者”向“协同工作者”跃迁的关键鸿沟。
实际应用
在实际部署层面,该数据集为办公自动化、个人数字助理及企业级知识管理系统的研发提供了关键验证场。开发者可基于98个合成场景训练代理完成周期性任务——如自动整理项目管理文件夹、根据月目标更新周报模板,或从协作上下文识别跨部门文件的共享权限异常。具体而言,其文件系统策略字段(filesystem_policy)编码了用户对存储路径、命名规则及备份逻辑的偏好,这使得智能体能够从“机械执行命令”进化为“主动适配习惯”,例如当检测到用户频繁在桌面创建临时文件时自动规划归档计划。此外,数据集中的月度目标模块可驱动日历联动系统:代理需在会议间隙智能推送相关文件、根据项目阶段调整提醒优先级,从而在真实工作流中降低认知负荷,提升人机协作的流畅度与信任感。
数据集最近研究
最新研究方向
该数据集聚焦于合成计算机环境在大规模长周期生产力模拟中的前沿应用,尤其针对智能体在计算机使用、长期规划与角色驱动推理领域的研究。近期热点方向包括利用合成计算机环境生成复杂、个性化的数字生态,以测试和提升AI智能体在多步任务执行、文件系统导航及协作推理中的能力。这一数据集通过构建包含用户档案、项目组合、文件关系图谱及月度目标的虚拟计算机,为模拟真实世界生产力场景提供了高保真基准。其意义在于推动从简单指令遵循向长期、上下文感知的自主操作演进,为下一代桌面自动化与智能助手系统的评估与发展奠定数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作