osunlp/D3-Gym-Trajectories
收藏Hugging Face2026-05-05 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/osunlp/D3-Gym-Trajectories
下载链接
链接失效反馈官方服务:
资源简介:
D3-Gym是首个自动构建的用于数据驱动发现的真实世界可验证环境数据集。它包含来自239个多学科科学仓库的565个任务。当前数据集包含论文中使用的所有训练轨迹,每个分割代表从Qwen3系列模型中采样的轨迹。
D3-Gym is the first automatically constructed dataset of verifiable environments for Data-Driven Discovery. It contains 565 tasks derived from 239 real-world multi-disciplinary scientific repositories. The present dataset contains all training trajectories used in our paper, with each split representing the trajectories sampled from a model among the Qwen3 family.
提供机构:
osunlp
搜集汇总
数据集介绍

构建方式
D3-Gym-Trajectories数据集源自D3-Gym项目,是首个面向数据驱动发现(Data-Driven Discovery)领域构建的自动化可验证环境数据集。其构建方式基于对239个来自真实世界多学科科学存储库的素材进行系统挖掘与整合,最终提炼出565个任务。每个任务均代表一个经过精心设计的可验证环境,旨在支持科学发现过程的自动化探索。该数据集进一步收录了研究中使用的全部训练轨迹,并按模型来源进行划分,分别来自Qwen3系列中的32B、14B、8B和4B四种规模的语言模型,以JSON格式存储,便于后续分析与复现。
特点
该数据集的核心特色在于其真实性与跨学科性。所有任务均源自真实的科学存储库,而非人工合成或理论假设,确保了环境的生态效度与实用价值。任务覆盖多学科领域,体现了数据驱动发现在科学前沿中的广泛适用性。此外,数据集提供了四种不同规模模型生成的完整训练轨迹,使得研究者能够对比分析模型规模对探索行为和发现效率的影响。这种多层级、可比较的数据结构,为深入理解大型语言模型在科学发现任务中的表现提供了宝贵资源。
使用方法
使用D3-Gym-Trajectories数据集时,研究者可通过Hugging Face平台直接加载,利用datasets库按split参数指定Qwen3_32B、Qwen3_14B、Qwen3_8B或Qwen3_4B中的任意子集。每个split对应的JSON文件包含了该模型在D3-Gym环境中生成的完整训练轨迹,适用于分析模型的探索策略、错误模式及收敛路径。数据集遵循MIT开源许可,可自由用于学术研究与商业应用。建议结合D3-Gym论文中的环境定义与评估指标,进行深入的模型行为分析与科学发现能力基准测试。
背景与挑战
背景概述
在数据驱动发现(Data-Driven Discovery)这一前沿研究范式中,如何构建具备真实可验证性的环境以支撑科学推理与自主探索,长期以来是制约该领域发展的核心瓶颈。D3-Gym-Trajectories数据集由Hanane Nour Moussa、Yifei Li等研究者于2026年提出,源自涵盖239个真实世界多学科科学仓库的565项任务,是首个自动构建的可验证环境数据集。该数据集的诞生标志着从合成模拟向真实可验证场景的关键跨越,为强化学习与大规模语言模型在多学科发现任务中的协作提供了标准化的训练与评估基底,对推动科学智能(AI for Science)的实证可重复性产生了深远影响。
当前挑战
该数据集面临的首要挑战在于所解决的领域问题:真实世界科学任务往往缺乏明确的奖励信号与验证机制,数据驱动发现模型难以在开放、多源且异构的科学仓库中可靠运作。构建过程中,研究者需应对科学仓库的多样性与不完善性,包括数据格式不统一、任务定义模糊及验证逻辑碎片化等难题。此外,从239个仓库中系统化提取并标准化565个可验证任务,要求兼顾任务的科学合理性与自动化构建的可扩展性,这对任务设计的一致性与环境反事实推演的鲁棒性构成了严峻考验。
常用场景
经典使用场景
D3-Gym-Trajectories数据集的核心应用在于为数据驱动发现(Data-Driven Discovery)领域提供大规模、可验证的智能体训练轨迹。该数据集囊括了从239个现实世界多学科科学库中提炼的565项任务,涵盖物理、化学、生物等自然科学分支。研究者通常将其用作强化学习与模仿学习的训练语料,通过Qwen3系列模型(从4B到32B参数规模)生成的轨迹,构建能够自主探索科学假设、设计实验方案并验证结论的智能体系统。这一经典使用场景为从零训练具备科学推理能力的语言模型奠定了坚实基础。
实际应用
在实际应用中,D3-Gym-Trajectories展现出广泛的跨学科价值。例如,在药物发现领域,利用该数据集训练的智能体能够模拟分子筛选过程,自动设计合成路径并预测药效;在材料科学中,系统可自主优化配方比例,加速新型催化剂的研发。此外,研究者可将该数据集应用于科研辅助工具开发,构建能够理解论文、提取关键参数并复现实验结果的对话系统。这些应用有效缩短了从理论到实验验证的周期,降低了科研门槛,使非专家用户也能借助智能体开展初步科学探索。
衍生相关工作
基于D3-Gym-Trajectories,已有多个开创性工作涌现。例如,有研究将其与反思式强化学习框架结合,提出能够从失败实验中自我修正的智能体架构;另有工作利用该轨迹数据训练小规模模型的知识蒸馏技术,实现了科学推理能力的高效迁移。此外,该数据集催生了针对多学科任务的长程规划方法,如将复杂实验分解为子目标的层次化策略。这些衍生工作不仅验证了数据集的通用性,还拓展了其在科学教育、自动化实验室等前沿方向的应用边界,形成了以可验证环境为核心的研究生态。
以上内容由遇见数据集搜集并总结生成



