D3-Gym-Trajectories

Name: D3-Gym-Trajectories
Creator: OSU NLP Group
Published: 2026-04-29 08:57:01
License: 暂无描述

Hugging Face2026-04-29 更新2026-04-30 收录

下载链接：

https://huggingface.co/datasets/osunlp/D3-Gym-Trajectories

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个JSON文件，分别对应不同规模的Qwen3模型（32B、14B、8B、4B）的轨迹数据。每个JSON文件存储了相应模型规模的轨迹信息。数据集采用MIT许可证，允许用户自由使用、修改和分发。

提供机构：

OSU NLP Group

创建时间：

2026-04-29

原始信息汇总

数据集概述

D3-Gym 是首个自动构建的、用于数据驱动发现的可验证环境数据集。该数据集包含 565 个任务，这些任务来源于 239 个真实世界多学科科学仓库。

数据集内容

本数据集包含论文中使用的所有训练轨迹，按模型拆分如下：

拆分名称	文件路径
Qwen3_32B	Qwen3_32B_trajectories.json
Qwen3_14B	Qwen3_14B_trajectories.json
Qwen3_8B	Qwen3_8B_trajectories.json
Qwen3_4B	Qwen3_4B_trajectories.json

每个拆分代表从 Qwen3 系列中某个模型采样的轨迹数据。

许可证

该数据集采用 MIT 许可证。

引用

如需引用，请使用以下 BibTeX 格式：

bibtex @article{d3gym2026, title = {D3-Gym: Constructing Verifiable Environments for Data-Driven Discovery}, author = {Hanane Nour Moussa, Yifei Li, Zhuoyang Li, Yankai Yang, Cheng Tang, Tianshu Zhang, Nesreen K. Ahmed, Ali Payani, Ziru Chen, Huan Sun}, journal = {arXiv preprint arXiv:XXXX.XXXXX}, year = {2026}, url = {https://arxiv.org/abs/XXXX.XXXXX} }

搜集汇总

数据集介绍

构建方式

D3-Gym-Trajectories数据集是D3-Gym项目的重要组成部分，专为数据驱动发现中的可验证环境构建而设计。该数据集源自239个真实世界多学科科学仓库，从中衍生出565项任务。构建过程基于Qwen3系列模型的不同版本——包括32B、14B、8B和4B参数规模——分别采样生成训练轨迹，每个模型对应的轨迹被组织为独立的数据分片，以确保覆盖不同规模语言模型在科学推理任务中的行为模式。所有轨迹数据均以JSON格式存储，便于高效处理与加载。

特点

该数据集的核心特点在于其自动构建的可验证环境，突破了传统手工设计环境的局限，为数据驱动发现提供了规模化、多学科的真实世界任务来源。565项任务广泛覆盖多个科学领域，体现了丰富的领域多样性。此外，通过Qwen3系列多种参数规模的模型采样，数据集不仅提供了异构的推理轨迹，还反映了模型规模对任务解决路径的影响，为研究模型能力与任务复杂度之间的关系提供了宝贵资源。

使用方法

使用D3-Gym-Trajectories数据集时，用户可通过HuggingFace的datasets库直接加载。数据集包含多个配置分片，分别对应Qwen3_32B、Qwen3_14B、Qwen3_8B和Qwen3_4B，每个分片对应一个独立的JSON轨迹文件。用户可根据研究需求选择特定模型规模的轨迹进行训练或评估，或跨分片组合使用以进行对比分析。数据集采用MIT开源协议，便于学术和工业界自由使用与二次开发，适用于强化学习、模仿学习和科学推理等领域的研究。

背景与挑战

背景概述

数据驱动发现（Data-Driven Discovery）旨在从海量多源科学数据中自动归纳新知，然而现有基准环境大多局限于单一领域或合成数据，难以有效评估和推动通用科学推理能力的发展。针对这一空白，D3-Gym数据集于2026年由Hanane Nour Moussa、Yifei Li等研究人员联合团队构建，核心目标是为数据驱动发现提供首个可验证的、自动构造的环境集合。该数据集包含来自239个真实世界多学科科学仓库的565项任务，覆盖广泛的科学探究场景，旨在评估智能体在跨领域数据推导、假设形成与验证中的表现。D3-Gym的提出为科学发现自动化研究设立了新的评测标杆，推动了从封闭式任务到开放式、可验证的科学推理范式的转变。

当前挑战

该数据集的核心挑战集中在两方面。在领域问题上，现有方法多依赖人工标注或封闭模拟环境，难以模拟真实科学发现中数据异构、知识跨学科关联及结论可重复性验证等复杂性，D3-Gym需通过真实仓库任务设计来弥补这一鸿沟。在构建过程中，团队面临从239个异构科学仓库中自动提取并形式化565个可执行任务的技术难题，需确保每个环境兼具开放探索性和结果可验证性；此外，由于多来源于非结构化文档，任务语义对齐与质量筛选亦构成显著障碍，最终通过多模型采样（Qwen3系列）生成训练轨迹以平衡探索多样性与稳定性。

常用场景

经典使用场景

在数据驱动发现（Data-Driven Discovery, D3）这一前沿交叉领域中，D3-Gym-Trajectories数据集专为训练和评估具备自主科学探索能力的大语言模型而设计。其经典使用场景在于，研究人员可利用该数据集中的完整轨迹，引导模型在由239个真实跨学科科学库衍生的565个可验证环境中进行推演与决策。通过Qwen3系列模型生成的轨迹样本，数据集为探索强化学习与语言模型在科学发现任务中的结合提供了标准化的训练基准。

实际应用

在实际应用层面，该数据集可赋能药物分子筛选、材料性质预测、物理参数反演等需要多步推理与试验验证的科研场景。例如，在化学合成路径规划中，模型可基于轨迹数据学习在模拟环境中逐步优化反应条件；在天文数据分析中，则可用于训练模型自主识别异常信号并设计后续观测方案。其价值在于降低手工设置实验环境的成本，使非专家用户也能借助预训练模型快速开展高保真度的仿真科学探索。

衍生相关工作

围绕D3-Gym-Trajectories已衍生出若干富有启发性的后续工作。其一，基于轨迹数据的行为克隆与逆强化学习方法被用于从专家轨迹中提取科学探索策略；其二，研究者利用该数据集构建了因果发现代理任务，探索模型在不同学科间迁移因果推理的能力；其三，轨迹的时序特性催生了针对科学序列决策的奖励建模研究。这些工作共同围绕一个核心议题——如何赋予语言模型在可验证闭环中自主产生可检验科学假设的能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集