AutoSDT-5K

github2025-06-10 更新2025-06-11 收录

下载链接：

https://github.com/OSU-NLP-Group/AutoSDT

下载链接

链接失效反馈

官方服务：

资源简介：

AutoSDT-5K是一个包含5,404个科学编码任务的数据集，涵盖四个科学学科（生物信息学、计算化学、地理信息科学、心理学和认知神经科学），使用了756个独特的Python包。据我们所知，AutoSDT-5K是目前最大且唯一自动收集的开放数据集，用于数据驱动的科学发现。

AutoSDT-5K is a dataset containing 5,404 scientific coding tasks, covering four scientific disciplines including bioinformatics, computational chemistry, geographic information science, psychology, and cognitive neuroscience, and utilizing 756 distinct Python packages. To the best of our knowledge, AutoSDT-5K is currently the largest and only automatically collected open dataset for data-driven scientific discovery.

创建时间：

2025-06-02

原始信息汇总

AutoSDT数据集概述

数据集基本信息

名称: AutoSDT-5K
构建方法: 通过AutoSDT自动管道从真实世界数据驱动发现工作流中收集
规模: 5,404个科学编码任务
覆盖学科:
- 生物信息学
- 计算化学
- 地理信息科学
- 心理学与认知神经科学
使用工具: 涉及756个独特Python包

数据集特点

唯一性: 目前最大且唯一自动收集的开放数据驱动科学发现数据集
应用效果:
- 在ScienceAgentBench上使Qwen2.5-Coder-32B达到GPT-4o水平(成功率7.8%)
- 在DiscoveryBench上相对提高假设匹配分数17.4%

数据收集流程

AutoSDT-Search: 生成学科关键词并搜索相关仓库
AutoSDT-Select: 识别数据驱动发现任务并提取执行依赖文件夹
AutoSDT-Adapt: 修改程序使其独立可执行并生成任务指令

许可证信息

主要许可证类型:

许可证类型仓库数量

MIT 449

GNU 247

Apache 145

BSD 84

CC 57
自定义许可证仓库: 15个(均已确认允许学术使用)
无许可证仓库: 317个(默认允许学术用途)

相关资源

数据集地址: https://huggingface.co/datasets/osunlp/AutoSDT-5K
项目网站: https://osu-nlp-group.github.io/AutoSDT/

搜集汇总

数据集介绍

构建方式

AutoSDT-5K数据集通过创新的三阶段自动化流程构建而成。在数据驱动发现领域长期面临高质量训练数据匮乏的背景下，研究团队设计了AutoSDT-Search模块，基于学科关键词系统检索相关代码仓库；AutoSDT-Select模块则运用大语言模型的代码理解能力，精准识别具有科学发现价值的任务程序及其依赖环境；最后的AutoSDT-Adapt模块通过智能化改造确保程序独立可执行，并自动生成配套任务说明。该流程覆盖生物信息学、计算化学等四大学科领域，最终整合形成包含5,404个任务的标准化数据集。

使用方法

该数据集支持端到端的科研辅助模型开发流程。用户可通过Hugging Face平台获取标准化格式的数据，利用LLaMA-Factory框架进行监督微调实验。数据集已预转换为Alpaca训练格式，配套提供完整的模型配置文件。评估阶段支持通过vLLM引擎部署本地推理服务，兼容ScienceAgentBench和DiscoveryBench双评估体系。研究人员还可根据提供的脚本复现完整的AutoSDT构建流程，包括代码适应性改造、依赖环境配置等关键环节，实现定制化科学发现任务的扩展采集。

背景与挑战

背景概述

AutoSDT-5K数据集由俄亥俄州立大学自然语言处理团队于2024年推出，旨在解决人工智能辅助科学发现领域的数据稀缺问题。该数据集通过创新的三阶段自动化流程（搜索、筛选、适配），从真实科研工作流中收集了5,404个科学编码任务，覆盖生物信息学、计算化学、地理信息科学及心理学与认知神经科学四大领域，涉及756个独特Python包。作为目前规模最大且唯一自动化构建的开放科学发现数据集，AutoSDT-5K不仅为训练可靠AI科研助手提供了高质量数据，其衍生的AutoSDT-Coder-32B模型更在ScienceAgentBench基准测试中达到GPT-4o水平，显著推动了开放模型与专有模型的性能差距缩小。

当前挑战

构建AutoSDT-5K面临双重挑战：在领域问题层面，科学发现任务的复杂性和学科特异性导致传统数据收集方法难以捕捉真实科研场景中的生态效度；技术实现层面，自动化流程需克服代码依赖解析、跨学科术语理解、以及保持原始研究意图的指令生成等难题。数据集构建过程中，研究团队需处理756个Python包的版本兼容性问题，验证1,325个开源仓库的学术使用许可，并对317个无明确许可协议的项目进行合规性评估，这些工作极大增加了数据清洗与标准化的复杂度。

常用场景

经典使用场景

在数据驱动的科学发现领域，AutoSDT-5K数据集为研究者提供了一个跨学科的编程任务集合，涵盖了生物信息学、计算化学、地理信息科学以及心理学与认知神经科学等多个学科。通过自动化的任务收集和代码适配流程，该数据集能够支持复杂的科学计算任务，如基因组序列分析、分子动力学模拟、空间数据建模等。其独特的自动生成任务指令和代码解决方案的特性，使得研究者能够快速验证和复现科学发现流程。

解决学术问题

AutoSDT-5K数据集有效缓解了科学发现领域中高质量训练和评估数据匮乏的问题。通过自动化的任务收集和代码适配流程，该数据集不仅提供了大量真实世界的科学编程任务，还生成了相应的任务指令和代码解决方案。这一创新显著提升了开源模型在科学任务上的表现，例如基于该数据集微调的Qwen2.5-Coder-32B模型在ScienceAgentBench上的成功率达到了GPT-4o的水平，为开放权重模型与专有模型之间的性能差距提供了有力的解决方案。

实际应用

AutoSDT-5K数据集在实际应用中展现了广泛的潜力。其跨学科的特性使其能够支持多种科学计算任务，例如在生物信息学中用于基因组序列分析，在计算化学中用于分子动力学模拟，以及在地理信息科学中用于空间数据建模。此外，该数据集还为科学工作者提供了一个高效的平台，用于验证和复现数据驱动的科学发现流程，从而加速科研进程并提升研究效率。

数据集最近研究

许可证类型	仓库数量
MIT	449
GNU	247
Apache	145
BSD	84
CC	57