D3-Gym

github2026-05-05 更新2026-05-10 收录

下载链接：

https://github.com/OSU-NLP-Group/D3-Gym

下载链接

链接失效反馈

官方服务：

资源简介：

D3-Gym是第一个自动构建的可验证环境数据集，用于数据驱动发现。它包含来自239个真实世界多学科科学存储库的565个任务。每个任务包括：自然语言指令、带有预安装依赖项的可执行环境、输入数据集和工件预览、参考实现以及自动生成的评估脚本。

D3-Gym is the first automatically constructed verifiable environment dataset for data-driven discovery. It comprises 565 tasks sourced from 239 real-world, multidisciplinary scientific repositories. Each task includes: natural language instructions, an executable environment with pre-installed dependencies, input datasets and artifact previews, reference implementations, and automatically generated evaluation scripts.

创建时间：

2026-04-26

原始信息汇总

D3-Gym 数据集概述

D3-Gym 是首个为数据驱动发现（Data-Driven Discovery）自动构建的可验证环境数据集，包含 565 个任务，这些任务源自 239 个真实世界多学科科学代码仓库。

每个任务包含的组件

自然语言指令：描述任务目标。
可执行环境：包含预装依赖。
输入数据集与数据预览：提供原始数据及数据模式预览。
参考实现：标准答案。
自动评估脚本：用于验证结果的正确性。

环境获取与使用

所有任务环境以 Docker 镜像形式发布在 Docker Hub 上。

用户需提供 solution.py，该程序需：读取数据集，并将输出写入 pred_results/ 目录。
评估脚本会将输出与参考结果对比，返回通过/失败判定及简短说明。
便捷浏览：HuggingFace 上提供了任务元数据注释表。

快速开始

拉取并查看任务镜像 bash docker pull hananemoussa/d3-gym:task_1 docker run --rm hananemoussa/d3-gym:task_1 inspect
运行解决方案并评估 bash docker run --rm -v $(pwd)/solution.py:/task/solution.py:ro hananemoussa/d3-gym:task_1 run_and_eval

Docker 镜像目录结构

/task/ task_instruction.txt # 任务描述 datasets/ # 输入数据（CSV、JSON、图像等） *_preview.txt # 数据集模式预览 eval_script.py # 评估逻辑 gold_results/ # 参考输出 pred_results/ # 用户输出目录 entrypoint.sh # 命令路由

下游用途

D3-Gym 支持需要可执行环境和可验证评估信号的工作流，例如强化学习、自我改进等。实验中的训练轨迹（推理轨迹与解决方案）可在 HuggingFace 上获取。

许可信息

所用代码仓库均遵循宽松许可证，共计 239 个。
许可证分布：
- MIT：99
- GNU (GPL, AGPL, LGPL)：43
- 未提供许可证（仅供研究）：39
- BSD：29
- Apache：22
- CC：4
- ISC：1
- Custom：2

引用

bibtex @article{d3gym2026, title = {D3-Gym: Constructing Verifiable Environments for Data-Driven Discovery}, author = {Hanane Nour Moussa, Yifei Li, Zhuoyang Li, Yankai Yang, Cheng Tang, Tianshu Zhang, Nesreen K. Ahmed, Ali Payani, Ziru Chen, Huan Sun}, journal = {arXiv preprint arXiv:2604.27977}, year = {2026}, url = {https://arxiv.org/abs/2604.27977} }

搜集汇总

数据集介绍

构建方式

D3-Gym 构建过程基于对239个来自多学科领域的真实科学仓库进行系统化挖掘与转化。每个仓库被拆解为可执行的任务环境，并自动生成配套的指令、依赖、数据集、参考实现与评测脚本，最终形成包含565个任务的体系。这一过程全部通过自动化流程完成，无需人工干预，确保规模性与可复现性。

特点

该数据集最显著的特征是其环境可验证性，每个任务以Docker镜像形式封装，集成了完整的跑测闭环，包含数据预览、参考输出、自动评分与即时反馈机制。任务覆盖数据科学、生物信息、物理模拟等多元领域，兼具自然语言指令与结构化元数据，适配强化学习、自我改进等复杂工作流，提供稳定的评估信号。

使用方法

用户可以拉取Docker镜像后，通过编写 solution.py 读取任务输入、输出至 pred_results/，并执行 run_and_eval 命令自动验证结果。支持对预计算结果进行独立评测，亦可通过 shell 模式进入交互式调试环境。所有任务的元数据可通过 Hugging Face 数据集界面检索，便于选定目标任务并快速启动实验。

背景与挑战

背景概述

数据驱动发现（Data-Driven Discovery）是近年来人工智能与科学计算交叉领域的重要范式，旨在从多学科数据中自动提取知识、构建模型或生成洞见。然而，现有基准测试多聚焦于静态数据集或封闭式问答任务，缺乏对可执行、可验证的发现环境的系统性支持，限制了智能体在真实科学工作流中的能力评估与训练。为此，2026年由俄亥俄州立大学孙寰团队联合多位学者提出的D3-Gym数据集，首次构建了包含565个任务的可验证环境集合，这些任务源自239个涵盖多学科的真实科学代码仓库。每个任务不仅提供自然语言指令、输入数据和工件预览，还配备可执行环境、参考实现与自动评估脚本，为强化学习、自我改进等需要可验证反馈信号的范式提供了标准化平台。D3-Gym的发布填补了数据驱动发现领域缺乏结构化、可复现的基准的空白，推动了智能体从理解数据到自主执行发现流程的跨越。

当前挑战

D3-Gym所解决的领域挑战在于，传统数据驱动发现方法往往依赖于固定格式的输入输出或人工评估，难以模拟科学探索中动态、多步骤的决策过程。具体而言，其一，现有基准多缺乏可执行的运行环境与预装依赖，导致方法对比时因环境差异而产生不一致性；其二，自动评估信号的缺失使得智能体无法通过试错机制自主优化策略，限制了强化学习等方法的适用性。在构建过程中，D3-Gym面临的核心挑战包括：从239个异构仓库中自动化提取任务规范并确保依赖兼容性，特别是处理缺失许可证或无文档的仓库（39个无许可证仓库）；维护跨学科任务（如生物信息学、计算物理）的评估脚本的通用性与正确性；以及通过Docker镜像实现环境标准化，同时平衡镜像体积与运行效率。这些举措共同确保了D3-Gym作为可靠基准的实用性与可复现性。

常用场景

经典使用场景

D3-Gym作为首个面向数据驱动发现（Data-Driven Discovery）的可验证环境自动构建数据集，其最经典的使用场景在于为强化学习、自改进等需要可执行环境与可验证评估信号的研究范式提供标准化测试平台。该数据集包含565个任务，源自239个真实世界多学科科学仓库，每个任务均配备了自然语言指令、预置依赖的可执行环境、输入数据集与工件预览、参考实现以及自动生成的评估脚本。研究者可通过Docker镜像拉取任意任务，以solution.py形式提交解决方案，系统自动比对输出结果与参考标准，返回通过/失败判定及简短解释，从而实现高效、可复现的算法评估与迭代。

衍生相关工作

基于D3-Gym数据集的衍生工作主要沿着两大方向展开。其一是训练轨迹生成，即利用D3-Gym的可验证环境自动生成大量包含推理步骤与最终解决方案的高质量轨迹数据，这些轨迹数据已单独发布在HuggingFace上（D3-Gym-Trajectories），可用于训练语言模型在科学发现任务中的链式推理能力。其二是评估框架的扩展，多个团队基于D3-Gym的任务结构与评估协议，构建了面向特定学科（如化学合成路径规划、天体物理数据分析）的子集，并开发了针对复杂多步骤科学工作流的协同智能体系统。此外，该数据集还被用于验证代码生成模型在真实科学仓库上的零样本泛化能力，催生了一系列关于神经符号融合与新环境适应性的研究。

数据集最近研究