D3-Gym
收藏D3-Gym 数据集概述
D3-Gym 是首个为数据驱动发现(Data-Driven Discovery)自动构建的可验证环境数据集,包含 565 个任务,这些任务源自 239 个真实世界多学科科学代码仓库。
每个任务包含的组件
- 自然语言指令:描述任务目标。
- 可执行环境:包含预装依赖。
- 输入数据集与数据预览:提供原始数据及数据模式预览。
- 参考实现:标准答案。
- 自动评估脚本:用于验证结果的正确性。
环境获取与使用
所有任务环境以 Docker 镜像形式发布在 Docker Hub 上。
- 用户需提供
solution.py,该程序需:读取数据集,并将输出写入pred_results/目录。 - 评估脚本会将输出与参考结果对比,返回通过/失败判定及简短说明。
- 便捷浏览:HuggingFace 上提供了任务元数据注释表。
快速开始
-
拉取并查看任务镜像 bash docker pull hananemoussa/d3-gym:task_1 docker run --rm hananemoussa/d3-gym:task_1 inspect
-
运行解决方案并评估 bash docker run --rm -v $(pwd)/solution.py:/task/solution.py:ro hananemoussa/d3-gym:task_1 run_and_eval
Docker 镜像目录结构
/task/ task_instruction.txt # 任务描述 datasets/ # 输入数据(CSV、JSON、图像等) *_preview.txt # 数据集模式预览 eval_script.py # 评估逻辑 gold_results/ # 参考输出 pred_results/ # 用户输出目录 entrypoint.sh # 命令路由
下游用途
D3-Gym 支持需要可执行环境和可验证评估信号的工作流,例如强化学习、自我改进等。实验中的训练轨迹(推理轨迹与解决方案)可在 HuggingFace 上获取。
许可信息
- 所用代码仓库均遵循宽松许可证,共计 239 个。
- 许可证分布:
- MIT:99
- GNU (GPL, AGPL, LGPL):43
- 未提供许可证(仅供研究):39
- BSD:29
- Apache:22
- CC:4
- ISC:1
- Custom:2
引用
bibtex @article{d3gym2026, title = {D3-Gym: Constructing Verifiable Environments for Data-Driven Discovery}, author = {Hanane Nour Moussa, Yifei Li, Zhuoyang Li, Yankai Yang, Cheng Tang, Tianshu Zhang, Nesreen K. Ahmed, Ali Payani, Ziru Chen, Huan Sun}, journal = {arXiv preprint arXiv:2604.27977}, year = {2026}, url = {https://arxiv.org/abs/2604.27977} }




