synthetic-computers-at-scale

Name: synthetic-computers-at-scale
Creator: Microsoft
Published: 2026-05-01 14:30:14
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/microsoft/synthetic-computers-at-scale

下载链接

链接失效反馈

官方服务：

资源简介：

Synthetic Computers 是一个包含 98 个合成计算机环境的数据集，专为计算机使用代理、长期规划和基于角色的推理研究设计。每个条目描述了一个虚构用户的计算机环境，包括用户角色、专业背景、月度目标、合作者、项目组合、文件系统策略、完整文件列表及文件关系图。数据集采用 JSON 编码字符串存储非 ID 列，以保留异构角色间的嵌套结构而不强制统一模式。数据生成流程包括角色采样、用户资料扩展、月度计划制定、项目组合和文件系统策略的具体化，以及文件列表和关系图的生成。数据集适用于桌面代理基准测试、长期规划研究和文件组织推理的合成数据训练。数据集完全合成，角色、项目和文件均为虚构，且规模较小（98 台计算机），主要用于评估和作为更大规模生成的种子。数据集采用 MIT 许可证发布。

Synthetic Computers is a dataset containing 98 synthetic computer environments, specifically designed for research on computer usage agents, long-term planning, and role-based reasoning. Each entry describes a fictional users computer environment, including user roles, professional background, monthly goals, collaborators, project portfolio, file system policies, complete file list, and file relationship diagram. The dataset uses JSON-encoded strings to store non-ID columns, preserving the nested structure between heterogeneous roles without enforcing a unified schema. The data generation process includes role sampling, user profile expansion, monthly plan formulation, project portfolio and file system policy specification, as well as file list and relationship diagram generation. The dataset is suitable for desktop agent benchmarking, long-term planning research, and synthetic data training for file organization reasoning. The dataset is entirely synthetic, with roles, projects, and files being fictional, and is relatively small (98 computers), mainly used for evaluation and as seeds for larger-scale generation. The dataset is released under the MIT license.

提供机构：

Microsoft

创建时间：

2026-04-30

原始信息汇总

数据集概述

数据集名称：Synthetic Computers at Scale
发布机构：Microsoft
数据集地址：https://huggingface.co/datasets/microsoft/synthetic-computers-at-scale
许可证：MIT
语言：英语
数据集大小：98 个样本（小于 1K）

数据集内容

该数据集包含 98 个合成的计算机环境，每个环境对应一位虚构用户的计算机，涵盖以下结构化信息：

字段	类型	描述
`computer_id`	string	计算机唯一标识符，前缀表示操作系统（如 `mac_computer_000050`、`win_computer_000007`）
`persona`	string	用户角色描述、当前时间戳、操作系统信息
`user_profile`	string	用户详细信息，包括身份、传记摘要、职业背景、工作风格、协作背景等
`collaboration_context`	string	用户合作的同事信息
`monthly_objectives`	string	模拟的月度计划，包含交付物、重复活动、每周重点
`project_index`	string	活跃项目索引
`filesystem_policy`	string	文件系统组织规则，包括卷布局、默认路径、命名规范等
`file_list`	string	计算机上文件的扁平列表，包含路径、时间戳、来源、描述等信息
`file_graph`	string	文件之间的关联图，包含节点和边

所有非 ID 字段均为 JSON 编码的字符串，需要解析后使用。

操作系统分布

操作系统	数量
macOS	48
Windows	50
总计	98

数据构建流程

采样用户角色和目标操作系统
扩展角色为详细的用户画像和协作网络
规划月度目标、重复活动和每周重点
生成项目组合及对应的文件系统策略
生成符合策略和项目的具体文件列表
推导文件关系图

配套文件

除 Parquet 元数据外，数据集中还包含：

artifacts/computers.tar.zst（约 1.4 GB）：每个计算机的完整文件内容（drives/ 目录）及 JSON 元数据
artifacts/retrospective_analysis_reports.tar.zst（约 6 MB）：回顾性分析报告

预期用途

评估计算机使用/桌面智能体在真实感、角色驱动的文件系统上的表现
研究基于月度目标和项目组合的长期规划
为智能体训练提供合成数据，使其能够推理文件组织、命名和文件间关系

局限性

完全合成，所有角色、项目和文件均为虚构
JSON 字段内模式异构，不保证所有计算机具有相同的嵌套键
仅支持英语
规模较小（98 台计算机），适用于评估和作为更大规模生成的种子

搜集汇总

数据集介绍

构建方式

该数据集通过一个精细化的合成流水线构建，首先从预设的个性档案与目标操作系统中采样，随后将个性描述扩展为详尽的用户画像与协作网络。在此基础上，系统规划月度目标、常规活动及每周重点，并据此衍生出项目组合及配套的文件系统策略，涵盖卷标布局、默认路径与命名规范。最终，依据上述策略生成具体的文件清单，并推导出文件间的关系图谱，从而完整模拟出每位用户的计算机环境。全部98台合成计算机均遵循这一流程产出，其中48台模拟macOS系统，50台模拟Windows系统。

特点

数据集每行对应一台合成计算机，所有非标识符列均以JSON字符串形式存储，巧妙规避了异构个性与项目结构带来的Schema不一致问题。核心特色在于其丰富性：每台计算机不仅包含深度个性档案、协作网络、月度目标与项目索引，还容纳了完整的文件列表与文件关系图谱，为研究基于个性驱动的长期规划和代理行为提供了高度拟真的环境。尤为独特的是，文件列表中的路径指向模拟计算机内部的逻辑位置，而实际文件内容则作为配套工件另行分发，使元数据与内容存储解耦，便于灵活性研究。

使用方法

研究人员可通过HuggingFace的`datasets`库直接加载Parquet格式的元数据，并对各JSON列执行`json.loads`解析以获取结构化对象，适用于个性建模、文件图谱推理及规划分析。若需访问实际文件内容，需通过HuggingFace Hub下载配套的Zstd压缩归档包`artifacts/computers.tar.zst`，解压后即可获得每个计算机的完整驱动目录。数据集的MIT许可协议允许自由使用，其设计初衷服务于计算机操作代理基准测试、基于月度目标的长期规划研究，以及文件组织与关联关系的合成训练数据生成。

背景与挑战

背景概述

在大规模语言模型与自动化代理研究领域，如何赋予智能体在真实办公场景中完成长期、多步任务的能力，已成为制约技术落地的核心瓶颈。为攻克这一难题，微软研究院的Tao Ge、Baolin Peng、Hao Cheng与Jianfeng Gao等研究者于2026年发布了Synthetic Computers at Scale数据集。该数据集精心构建了98个高度真实化的合成计算机环境，每个环境均包含详尽的用户画像、专业背景、月度目标、文件系统策略及文件关系图谱，旨在为长时域规划与角色驱动的推理研究提供标准化的测试平台。这一创新资源弥补了现有基准在模拟个体化、高保真办公生态方面的空白，为推动智能体从简单指令执行迈向复杂生产力模拟奠定了关键基石。

当前挑战

该数据集所应对的核心领域挑战在于，现有计算机使用代理大多受限于短时域或简单指令，难以在跨越数周或数月的办公场景中持续规划、调整并完成多项目标任务。构建过程中，团队面临三重主要困难：首先，如何生成逻辑自洽且符合现实逻辑的用户画像与文件系统，需要严谨的模拟流水线以确保各组件间的内在一致性；其次，不同用户角色与项目领域导致文件结构与元数据高度异构，如何在有限的98个样本中覆盖广泛办公模式的同时维持数据的可用性；最后，为保留文件内容的实际语义，需配套大体积压缩包，而元数据与真实文件分离的存储设计对数据加载与解析效率提出了额外要求。

常用场景

经典使用场景

在人工智能体与桌面自动化研究领域，Synthetic Computers数据集为评估和训练计算机操作智能体提供了高度仿真的模拟环境。该数据集包含98个精心构造的合成计算机环境，每个环境都涵盖了完整的用户画像、专业背景、月度目标、项目组合及文件系统结构。研究者可利用这些丰富的元数据，构建能够理解用户意图、规划长期任务并执行复杂文件操作的智能体系统。该数据集特别适合用于训练和测试那些需要在拟真桌面环境中完成多步骤生产力任务的智能体，如自动整理文件、管理项目进度或执行周期性工作流程。

解决学术问题

该数据集的提出有效解决了计算机操作智能体研究中长期存在的两大挑战：一是缺乏具备完整上下文和长期规划能力的标准化评估基准，二是真实用户数据的隐私限制导致研究难以复现。通过提供涵盖不同操作系统、职业背景和工作风格的合成环境，Synthetic Computers使得研究人员能够在控制变量条件下系统性地研究智能体的长期规划能力、用户画像理解能力和文件系统推理能力。它为量化评估智能体在复杂桌面环境中的自主决策水平提供了可靠基准，推动了从简单指令执行向上下文感知的长期生产力模拟的学术范式转变。

衍生相关工作

该数据集的发布催生了多个研究方向的相关工作。在基准测试方面，研究者基于其文件图结构和长期规划任务设计了一系列新的评估指标，用于衡量智能体对文件层次关系和项目依赖的理解深度。在模型训练领域，出现了利用该数据集进行指令微调和强化学习的前沿探索，旨在提升大规模语言模型在文件操作和桌面导航方面的能力。此外，围绕用户画像建模的研究也得以深入，推动了将人格特征与工作习惯映射为计算机交互策略的技术路线发展，为个性化智能体系统的研制提供了方法论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集