Orchard

Name: Orchard
Creator: Microsoft
Published: 2026-05-15 04:55:42
License: 暂无描述

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/microsoft/Orchard

下载链接

链接失效反馈

官方服务：

资源简介：

Orchard数据集是一个开源智能体建模轨迹数据集，伴随论文《Orchard: An Open-Source Agentic Modeling Framework》发布。它包含两个由强大教师模型蒸馏生成的并行智能体建模数据集，均在Orchard Env沙箱基础设施中产生。SWE子集（软件工程）包含107,185条涉及2,788个GitHub仓库的多轮软件工程轨迹，每条轨迹标注了代理的最终补丁是否通过问题的隐藏黄金测试套件，数据来源于两个上游的真实GitHub错误修复问题集合，并使用了两种教师模型和两种代理框架来生成轨迹，以最大化行为多样性。GUI子集（图形用户界面）包含来自网页浏览GUI代理的3,070个成功单步决策点，覆盖409个独特任务，每一行代表一个多步轨迹中的一个决策点，包含对话历史、页面截图和标量奖励，仅包含被评判为成功的决策点。该数据集旨在用于训练和评估智能体模型，特别适用于软件工程任务（如代码修复）和网页浏览GUI任务，在基准测试中展示了性能提升。数据集采用Parquet格式存储，并提供了详细的数据模式、统计信息和用法示例。

The Orchard dataset is an open-source agentic modeling trajectory dataset, released alongside the paper Orchard: An Open-Source Agentic Modeling Framework. It contains two parallel agentic modeling datasets distilled from powerful teacher models, both generated within the Orchard Env sandbox infrastructure. The SWE subset (Software Engineering) includes 107,185 multi-turn software engineering trajectories involving 2,788 GitHub repositories, with each trajectory annotated to indicate whether the agents final patch passes a hidden golden test suite for the problem. It contains both successful and failed trajectories, sourced from two upstream collections of real GitHub bug-fixing issues, and uses two teacher models and two agent frameworks to generate trajectories, maximizing behavioral diversity. The GUI subset (Graphical User Interface) contains 3,070 successful single-step decision points from web-browsing GUI agents, covering 409 unique tasks. Unlike the SWE subset where each row represents a complete trajectory, each row in the GUI subset represents a decision point within a multi-step trajectory, including conversation history up to that point, a screenshot of the current page, and a scalar reward validated by judges, with only successful decision points included. The dataset is designed for training and evaluating agent models, particularly for software engineering tasks (e.g., code repair) and web-browsing GUI tasks, demonstrating significant performance improvements in benchmarks. It is stored in Parquet format and includes detailed data schemas, statistics, and usage examples.

提供机构：

Microsoft

创建时间：

2026-05-15

原始信息汇总

数据集总览

Orchard 是一个开源的多模态智能体建模框架配套发布的轨迹数据集，由微软（Microsoft）贡献。该数据集包含两个子集，分别面向软件工程和GUI浏览任务，旨在为智能体模型的训练与评估提供高质量、可复现的轨迹数据。

数据集基本信息

属性	值
许可证	MIT
任务类别	文本生成、图像-文本到文本
语言	英文
标签	code, swe, software-engineering, tool-use, agent, gui, web, browser, multimodal, vision-language
数据大小	10万 ~ 100万条
配置	`swe`（软件工程）、`gui`（GUI浏览）
数据格式	Parquet

子集详情

1. SWE 子集（软件工程）

总轨迹数：107,185条
唯一仓库数：2,788个
文件大小：约9.72 GB
数据拆分：train 拆分，共107,185行
特征字段：
- tools：JSON字符串，OpenAI风格的工具定义列表。
- messages：OpenAI Chat Completions格式的多轮对话列表。
- metadata：JSON字符串，包含轨迹元信息。
轨迹状态分布：

状态	数量	占比
resolved（解决）	74,649	69.6%
unresolved（未解决）	32,536	30.4%

轨迹统计：

统计量	平均值	中位数	P95	最大值
对话轮次	47.5	44	87	241
预估token数	20,823	19,085	39,267	100,997
消息数	81.6	73	—	483

数据来源与模型：

任务来源	智能体框架	教师模型	来源标签	轨迹数
Scale-SWE	mini-swe-agent	MiniMax-M2.5	scaleswe-M2.5	54,118
SWE-rebench	mini-swe-agent	MiniMax-M2.5	rebench-M2.5	23,463
SWE-rebench	mini-swe-agent	Qwen3.5-397B-A17B	rebench-Qwen3.5	17,391
SWE-rebench	OpenHands	MiniMax-M2.5	oh-bench-M2.5	12,213

元数据字段（SWE）：

字段	类型	描述
`instance_id`	str	上游任务标识符
`sample_idx`	int	多次采样时的轮次索引
`source`	str	上游来源标签
`model`	str	生成轨迹的模型
`repo`	str	目标仓库（owner/name）
`verify_status`	str	状态：resolved或unresolved
`est_tokens`	int	预估总token数
`n_turns`	int	对话轮次数

使用示例（Python）： python import json from datasets import load_dataset ds = load_dataset("microsoft/Orchard", "swe", split="train") row = ds[0] tools = json.loads(row["tools"]) metadata = json.loads(row["metadata"])

2. GUI 子集（GUI浏览）

总轮次（rollouts）：3,070个
唯一任务数：409个（来自 pae-webvoyager基准）
文件大小：约1.25 GB
数据拆分：train 拆分，共3,070行
特征字段：
- messages：OpenAI风格对话历史（至当前决策点）。
- images：页面截图（Image类型，通常为1张PNG）。
- reward：奖励值（当前均为1.0）。
- status：终止状态（当前均为 completed）。
- metadata：JSON字符串，包含任务、轮次、奖励分解等信息。
奖励分布：所有轮次均为成功（reward=1.0），平均每任务约7.5个成功轮次。
轨迹统计（每个决策点）：

统计量	平均值	中位数	P95	最大值
消息数（上下文）	14.6	11	37	63
轨迹总步数	11.8	10	24	30
提示字符数	20,520	16,965	43,250	71,136
回答字符数	1,506	1,441	2,471	5,679
截图数	1	1	1	1
难度标签	4.6	4	12	16

领域分布：

领域	轮次数
Lifestyle & Leisure（生活方式与休闲）	896
Science & Research（科学与研究）	846
Misc.（杂项）	410
Entertainment（娱乐）	365
Career & Education（职业与教育）	308
Travel & Transportation（旅行与交通）	245

元数据字段（GUI）：

字段	类型	描述
`benchmark_name`	str	上游基准标识符（pae-webvoyager）
`task_id`	str	上游任务标识符

使用示例：可参考SWE子集类似方法，通过 load_dataset("microsoft/Orchard", "gui", split="train") 加载。

数据集结果（来自论文）

SWE基准（Qwen3-30B-A3B-Thinking 骨干模型）：

训练方式	SWE-bench Verified
基座模型（无Orchard训练）	22.0%
+ Orchard-SWE SFT	64.3%
+ Orchard-SWE SFT + RL	67.5%

GUI基准（Qwen3-VL-4B-Thinking 骨干模型）：

训练方式	WebVoyager	Online-Mind2Web	DeepShop	平均
基座模型（无Orchard训练）	49.0%	32.0%	33.3%	38.1%
+ Orchard-GUI SFT	60.2%	47.0%	48.7%	52.0%
+ Orchard-GUI SFT + RL	74.1%	67.0%	64.0%	68.4%

注意事项

SWE 子集包含匿名化处理的轨迹文本（标识符和路径已被清洗）。
GUI 子集包含未经修改的原始截图。
数据集目前处于临时暂停发布状态，最终版本可能略有调整。

搜集汇总

数据集介绍

构建方式

Orchard数据集源自同名开源智能体建模框架，旨在为软件工程与图形用户界面代理提供高质量的训练轨迹。其构建过程巧妙融合了两种并行路径：在软件工程子集中，依托SWE-rebench与Scale-SWE两大真实GitHub缺陷修复任务库，利用MiniMax-M2.5与Qwen3.5-397B-A17B等强教师模型，在OpenHands与mini-swe-agent两种智能体框架驱动下，于Kubernetes原生的Orchard Env沙箱中执行ReAct循环，采集了超过十万条多轮交互轨迹，并通过最终补丁是否通过隐藏测试集来标记解决状态；而在图形用户界面子集中，则基于pae-webvoyager基准的409项Web浏览任务，收集了每个决策点的截图与对话，并由评判模型验证后仅保留成功轨迹。

特点

该数据集最显著的特点在于其双重性与结构化设计。软件工程子集囊括107,185条轨迹，覆盖2,788个GitHub仓库，其中既有74,649条成功路径，亦包含32,536条失败案例，为失败模式分析与奖励建模提供了宝贵负样本。每条轨迹平均47.5轮对话，最大可达241轮，并完整保留工具定义、多轮消息与元数据，其中元数据以JSON字符串形式编码，便于灵活解析。图形用户界面子集则包含3,070个成功决策点，每个点对应一个网页截图与直至该步的对话历史，并以奖励标量量化评估结果，其领域涵盖生活休闲、科学研究等六大类别，为多模态代理训练提供了精细的监督信号。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库便捷加载。对于软件工程子集，调用load_dataset('microsoft/Orchard', 'swe', split='train')即可获取107,185条轨迹，需注意tools与metadata字段为JSON字符串，需用json.loads解析，且工具调用中的参数亦需二次解码。用户可利用元数据中的verify_status字段筛选解决案例，或基于source字段按任务来源进行子集划分。对于图形用户界面子集，则通过load_dataset('microsoft/Orchard', 'gui', split='train')加载3,070个决策点，其中图像字段以HuggingFace原生Image特征存储，支持惰性解码为PIL图像，而消息序列与元数据同样遵循JSON格式。此外，该数据集适合直接用于监督微调与强化学习，论文示例中即展示了从基础模型出发，经SFT与RL阶段显著提升基准性能的流程。

背景与挑战

背景概述

Orchard数据集由微软研究院于2026年发布，旨在应对智能体建模领域的数据稀缺与框架碎片化问题。该数据集由Peng等人主导创建，围绕开源框架Orchard构建，涵盖软件工程与图形用户界面两大领域，包含逾十万条多轮轨迹数据。在软件工程子集中，数据集囊括了来自2,788个代码仓库的107,185条轨迹，覆盖真实GitHub缺陷修复任务，并标注了最终补丁是否通过隐藏测试集的验证结果。图形用户界面子集则提供了3,070条基于WebVoyager基准的浏览器操作轨迹，每个决策点均附有屏幕截图与裁判验证的奖励值。该数据集的核心贡献在于为智能体训练提供大规模、多领域、带标注的轨迹数据，已推动小参数模型在SWE-bench等基准上达到与较大系统相媲美的性能，在开源社区与学术界产生了深远影响。

当前挑战

Orchard数据集所解决的领域挑战主要包括三个方面：其一，软件工程智能体面临复合任务决策难题，现有模型在代码调试与程序修复等任务中常因缺乏真实的轨迹监督信号而表现欠佳，尤其是处理多轮交互与隐式奖励函数时存在显著瓶颈；其二，图形用户界面智能体面临环境多模态感知与长程规划挑战，网页浏览等任务需同时解析视觉布局与文本内容，并在数十步动作序列中保持目标导向。在构建过程中，数据集面临轨迹多样性与质量控制的矛盾，研究者需平衡不同教师模型、任务源与智能体框架的行为分布，同时解决轨迹长度过长、工具调用语法异常等过滤需求。此外，如何有效利用失败轨迹进行信用分配半监督学习，以及确保障多元数据格式在统一元数据架构下的可扩展性，亦是构建过程中的关键挑战。

常用场景

经典使用场景

Orchard数据集为智能体建模领域带来了前所未有的高质量训练资源，其核心使用场景聚焦于两大领域：软件工程任务自动化与图形用户界面智能操控。在软件工程子集（SWE）中，该数据集收录了超过十万条多轮交互轨迹，覆盖近两千八百个真实GitHub仓库中的缺陷修复任务；每条轨迹详尽记录了智能体从理解问题、编写补丁到提交验证的完整认知与行动链条。图形界面子集（GUI）则提供了三千余条经过验证的成功决策轨迹，每一决策点均附有当前页面截图与智能体响应，为视觉语言模型在浏览器环境中的交互学习提供了结构化范例。这两个子集共同构成了一个弥足珍贵的多领域、多模态智能体行为数据库。

解决学术问题

该数据集的问世，为学术界长期困扰的若干关键难题提供了有力破解之道。其一，它直面了智能体训练中高质量轨迹数据匮乏的困境，通过系统化的教师模型蒸馏与验证流程，生成了规模宏大且标注可靠的训练集。其二，Orchard巧妙地将成功与失败的轨迹一并纳入，为价值估计、信用分配、奖励建模及拒绝采样等前沿研究方向提供了关键的负面样本支持。其三，数据集采用的统一沙盒架构与标准化接口，使得训练配方能够轻松迁移至不同智能体框架与任务领域，有力推动了智能体建模范式的通用化发展，不仅提升了模型在软件工程领域的补丁成功率，更在图交互任务上达到了超越教师模型等庞然大物的惊人效果，重塑了小模型能力边界的认知。

衍生相关工作

Orchard数据集的发布，催生了一系列具有深远影响的衍生研究工作。在训练方法论层面，其开创性的信用分配监督微调策略——从未解决的轨迹中提取连续的‘上升片段’作为部分进展监督信号——为智能体学习的稀疏奖励问题提供了崭新思路，启发了后续大量关于过程监督与细粒度奖励塑造的研究。在模型蒸馏与对齐领域，Orchard团队揭示的‘强化学习对监督微调初始化的敏感性’现象，推动了关于两阶段训练策略优化与初始模型选择的系统性探索。此外，该数据集所依托的Orchard Env开源框架本身已成为一个活跃的生态基石，支撑了包括多框架兼容性测试、工具调用能力扩展、长程任务推理能力提升在内的多项前沿探索，其‘环境解耦、框架中立’的设计哲学正深刻影响着智能体系统工程实践的演进方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集