five

osunlp/D3-Gym

收藏
Hugging Face2026-05-05 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/osunlp/D3-Gym
下载链接
链接失效反馈
官方服务:
资源简介:
D3-Gym是第一个自动构建的用于数据驱动发现的验证环境数据集。它包含565个任务,这些任务来源于239个真实世界的多学科科学仓库。每个任务包括:一个自然语言指令、一个带有预安装依赖项的可执行环境、输入数据集和工件预览、一个参考实现以及一个自动生成的评估脚本。当前数据集包含每个任务的元数据。要访问实际的训练环境,请使用Docker Hub存储库。完整说明可在GitHub存储库中找到。

D3-Gym is the first automatically constructed dataset of verifiable environments for Data-Driven Discovery. It contains 565 tasks derived from 239 real-world multi-disciplinary scientific repositories. Each task includes: a natural language instruction, an executable environment with pre-installed dependencies, input datasets and artifact previews, a reference implementation, and an automatically generated evaluation script. The present dataset contains the metadata for each task. To access the actual training environments, please use our Docker Hub Repository. Full instructions can be found on our GitHub repository.
提供机构:
osunlp
搜集汇总
数据集介绍
main_image_url
构建方式
D3-Gym数据集的构建源于对239个真实世界多学科科学仓库的深度挖掘与自动化处理。研究团队首先从各仓库中提取可验证的科研任务,每个任务均包含自然语言指令、预装依赖的可执行环境、输入数据集与工件预览、参考实现,以及自动生成的评估脚本。这些任务经过筛选与标准化,最终形成了涵盖565个样本的高质量元数据集。构建过程严格遵循开源许可证要求,确保每个仓库的合规使用,从而为数据驱动发现领域提供了一个可复现的基础设施。
使用方法
使用D3-Gym时,用户需通过Docker Hub仓库获取实际的可执行训练环境,该环境预装了任务所需的所有依赖。随后,依据GitHub仓库提供的完整指南加载任务元数据(包括task_instruction和dataset_previews),并利用内置的eval_script对模型输出进行自动化评测。数据集以Hugging Face格式提供,支持通过标准的data_files路径加载训练分片。对于科研用途,用户可直接引用相关论文并遵循各原始仓库的许可证条款,适合用于训练和评估数据驱动发现领域的AI代理系统。
背景与挑战
背景概述
在人工智能与科学发现深度融合的浪潮中,构建能够验证和评估数据驱动发现(Data-Driven Discovery)模型的标准化基准环境,已成为推动该领域发展的关键瓶颈。D3-Gym数据集于2026年由俄亥俄州立大学NLP团队(Hanane Nour Moussa、Yifei Li、Zhuoyang Li等)联合多位工业界研究者共同创建,核心研究问题在于如何跨越学科壁垒,为智能系统提供可复现、可验证的自动评估环境。该数据集从239个真实跨学科科学代码仓库中蒸馏出565个任务,每个任务均包含自然语言指令、预安装依赖的可执行环境、输入数据预览、参考实现及自动生成评估脚本,开创性地将验证性评估框架引入数据驱动发现领域,对促进人工智能在科学研究中的可信应用具有里程碑式的影响力。
当前挑战
D3-Gym数据集所解决的领域核心挑战是现有数据驱动发现系统缺乏统一、可验证的评估范式:传统方法依赖人工构建的孤立基准,难以泛化至真实科学场景的多样性,导致模型在跨学科任务(如基因组学、气象学、材料科学等)上的表现难以可靠衡量。构建过程面临的挑战包括:从239个采用MIT、GNU、Apache等不同许可协议的开源仓库中自动提取任务时,需处理代码结构异质性、依赖环境兼容性及39个无明确许可仓库的合规性界定;同时,为每个任务自动生成可执行的评估脚本并保障其在不同运行时中的稳定性,对脚本生成的时间复杂度与鲁棒性提出了前所未有的工程要求。
常用场景
经典使用场景
D3-Gym作为首个自动构建的可验证环境数据集,为数据驱动发现领域提供了标准化的实验基准。其经典使用场景在于评估和训练机器学习模型在真实科学任务中的执行能力,研究人员可通过自然语言指令驱动模型完成数据预处理、统计分析或可视化等多元化任务,并借助自动生成的评估脚本对模型输出进行客观验证。该数据集覆盖239个跨学科科学仓库中的565项任务,为模型在复杂、真实世界场景下的推理与泛化能力测试提供了可靠平台。
解决学术问题
该数据集旨在解决数据驱动发现研究中长期存在的两大核心难题:一是缺乏包含完整依赖环境的可重复实验基准,二是模型行为验证的自动化程度不足。通过提供预配置执行环境、参考实现与自动评估脚本,D3-Gym使研究者无需手动搭建复杂环境即可复现实验结果,显著降低了验证门槛。其对239个真实科学仓库的系统整合,有效弥合了理想化测试集与真实科研任务间的鸿沟,推动了模型从理论验证到实际应用的过渡。
实际应用
在实际应用中,D3-Gym可被用于自动化学术研究辅助系统、科学数据处理代理的构建与优化,以及跨学科协作平台的开发。例如,研究人员可基于D3-Gym训练能够自主完成生物信息学数据分析或气候模型评估的智能体,其内置的Docker环境支持任务的无缝迁移与部署。此外,教育领域也可利用该数据集创建交互式编程实训场景,帮助学生通过真实数据集掌握跨学科分析方法。
数据集最近研究
最新研究方向
D3-Gym作为首个自动构建的、面向数据驱动发现的可验证环境数据集,其前沿研究方向聚焦于构建真实世界、跨学科的科学任务评估基准。该数据集从239个真实科学仓库中提炼出565项任务,覆盖多学科领域,并集成了自然语言指令、可执行环境、输入数据及自动评估脚本,为强化学习与智能体系统的训练与验证提供了坚实闭环。这一创新极大推动了人工智能在科学发现中的落地实践,弥补了现有基准模拟环境与复杂真实科研任务之间的鸿沟。其研究意义在于,通过可重复、自动验证的环境,助力AI模型在配方设计、数据分析等复杂科研任务中的自我优化与泛化能力提升,开启了数据驱动科学自动化的新纪元。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作