osunlp/D3-Gym

Name: osunlp/D3-Gym
Creator: osunlp
Published: 2026-05-05 01:43:43
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/osunlp/D3-Gym

下载链接

链接失效反馈

官方服务：

资源简介：

D3-Gym是第一个自动构建的用于数据驱动发现的验证环境数据集。它包含565个任务，这些任务来源于239个真实世界的多学科科学仓库。每个任务包括：一个自然语言指令、一个带有预安装依赖项的可执行环境、输入数据集和工件预览、一个参考实现以及一个自动生成的评估脚本。当前数据集包含每个任务的元数据。要访问实际的训练环境，请使用Docker Hub存储库。完整说明可在GitHub存储库中找到。

D3-Gym is the first automatically constructed dataset of verifiable environments for Data-Driven Discovery. It contains 565 tasks derived from 239 real-world multi-disciplinary scientific repositories. Each task includes: a natural language instruction, an executable environment with pre-installed dependencies, input datasets and artifact previews, a reference implementation, and an automatically generated evaluation script. The present dataset contains the metadata for each task. To access the actual training environments, please use our Docker Hub Repository. Full instructions can be found on our GitHub repository.

提供机构：

osunlp

搜集汇总

数据集介绍

构建方式

D3-Gym数据集的构建源于对239个真实世界多学科科学仓库的深度挖掘与自动化处理。研究团队首先从各仓库中提取可验证的科研任务，每个任务均包含自然语言指令、预装依赖的可执行环境、输入数据集与工件预览、参考实现，以及自动生成的评估脚本。这些任务经过筛选与标准化，最终形成了涵盖565个样本的高质量元数据集。构建过程严格遵循开源许可证要求，确保每个仓库的合规使用，从而为数据驱动发现领域提供了一个可复现的基础设施。

使用方法

使用D3-Gym时，用户需通过Docker Hub仓库获取实际的可执行训练环境，该环境预装了任务所需的所有依赖。随后，依据GitHub仓库提供的完整指南加载任务元数据（包括task_instruction和dataset_previews），并利用内置的eval_script对模型输出进行自动化评测。数据集以Hugging Face格式提供，支持通过标准的data_files路径加载训练分片。对于科研用途，用户可直接引用相关论文并遵循各原始仓库的许可证条款，适合用于训练和评估数据驱动发现领域的AI代理系统。

背景与挑战

背景概述

在人工智能与科学发现深度融合的浪潮中，构建能够验证和评估数据驱动发现（Data-Driven Discovery）模型的标准化基准环境，已成为推动该领域发展的关键瓶颈。D3-Gym数据集于2026年由俄亥俄州立大学NLP团队（Hanane Nour Moussa、Yifei Li、Zhuoyang Li等）联合多位工业界研究者共同创建，核心研究问题在于如何跨越学科壁垒，为智能系统提供可复现、可验证的自动评估环境。该数据集从239个真实跨学科科学代码仓库中蒸馏出565个任务，每个任务均包含自然语言指令、预安装依赖的可执行环境、输入数据预览、参考实现及自动生成评估脚本，开创性地将验证性评估框架引入数据驱动发现领域，对促进人工智能在科学研究中的可信应用具有里程碑式的影响力。

当前挑战

D3-Gym数据集所解决的领域核心挑战是现有数据驱动发现系统缺乏统一、可验证的评估范式：传统方法依赖人工构建的孤立基准，难以泛化至真实科学场景的多样性，导致模型在跨学科任务（如基因组学、气象学、材料科学等）上的表现难以可靠衡量。构建过程面临的挑战包括：从239个采用MIT、GNU、Apache等不同许可协议的开源仓库中自动提取任务时，需处理代码结构异质性、依赖环境兼容性及39个无明确许可仓库的合规性界定；同时，为每个任务自动生成可执行的评估脚本并保障其在不同运行时中的稳定性，对脚本生成的时间复杂度与鲁棒性提出了前所未有的工程要求。

常用场景

经典使用场景

D3-Gym作为首个自动构建的可验证环境数据集，为数据驱动发现领域提供了标准化的实验基准。其经典使用场景在于评估和训练机器学习模型在真实科学任务中的执行能力，研究人员可通过自然语言指令驱动模型完成数据预处理、统计分析或可视化等多元化任务，并借助自动生成的评估脚本对模型输出进行客观验证。该数据集覆盖239个跨学科科学仓库中的565项任务，为模型在复杂、真实世界场景下的推理与泛化能力测试提供了可靠平台。

解决学术问题

该数据集旨在解决数据驱动发现研究中长期存在的两大核心难题：一是缺乏包含完整依赖环境的可重复实验基准，二是模型行为验证的自动化程度不足。通过提供预配置执行环境、参考实现与自动评估脚本，D3-Gym使研究者无需手动搭建复杂环境即可复现实验结果，显著降低了验证门槛。其对239个真实科学仓库的系统整合，有效弥合了理想化测试集与真实科研任务间的鸿沟，推动了模型从理论验证到实际应用的过渡。

实际应用

在实际应用中，D3-Gym可被用于自动化学术研究辅助系统、科学数据处理代理的构建与优化，以及跨学科协作平台的开发。例如，研究人员可基于D3-Gym训练能够自主完成生物信息学数据分析或气候模型评估的智能体，其内置的Docker环境支持任务的无缝迁移与部署。此外，教育领域也可利用该数据集创建交互式编程实训场景，帮助学生通过真实数据集掌握跨学科分析方法。

数据集最近研究