five

AutoSDT-5K

收藏
github2025-06-10 更新2025-06-11 收录
下载链接:
https://github.com/OSU-NLP-Group/AutoSDT
下载链接
链接失效反馈
官方服务:
资源简介:
AutoSDT-5K是一个包含5,404个科学编码任务的数据集,涵盖四个科学学科(生物信息学、计算化学、地理信息科学、心理学和认知神经科学),使用了756个独特的Python包。据我们所知,AutoSDT-5K是目前最大且唯一自动收集的开放数据集,用于数据驱动的科学发现。

AutoSDT-5K is a dataset containing 5,404 scientific coding tasks, covering four scientific disciplines including bioinformatics, computational chemistry, geographic information science, psychology, and cognitive neuroscience, and utilizing 756 distinct Python packages. To the best of our knowledge, AutoSDT-5K is currently the largest and only automatically collected open dataset for data-driven scientific discovery.
创建时间:
2025-06-02
原始信息汇总

AutoSDT数据集概述

数据集基本信息

  • 名称: AutoSDT-5K
  • 构建方法: 通过AutoSDT自动管道从真实世界数据驱动发现工作流中收集
  • 规模: 5,404个科学编码任务
  • 覆盖学科:
    • 生物信息学
    • 计算化学
    • 地理信息科学
    • 心理学与认知神经科学
  • 使用工具: 涉及756个独特Python包

数据集特点

  • 唯一性: 目前最大且唯一自动收集的开放数据驱动科学发现数据集
  • 应用效果:
    • 在ScienceAgentBench上使Qwen2.5-Coder-32B达到GPT-4o水平(成功率7.8%)
    • 在DiscoveryBench上相对提高假设匹配分数17.4%

数据收集流程

  1. AutoSDT-Search: 生成学科关键词并搜索相关仓库
  2. AutoSDT-Select: 识别数据驱动发现任务并提取执行依赖文件夹
  3. AutoSDT-Adapt: 修改程序使其独立可执行并生成任务指令

许可证信息

  • 主要许可证类型:
    许可证类型 仓库数量
    MIT 449
    GNU 247
    Apache 145
    BSD 84
    CC 57
  • 自定义许可证仓库: 15个(均已确认允许学术使用)
  • 无许可证仓库: 317个(默认允许学术用途)

相关资源

  • 数据集地址: https://huggingface.co/datasets/osunlp/AutoSDT-5K
  • 项目网站: https://osu-nlp-group.github.io/AutoSDT/
搜集汇总
数据集介绍
main_image_url
构建方式
AutoSDT-5K数据集通过创新的三阶段自动化流程构建而成。在数据驱动发现领域长期面临高质量训练数据匮乏的背景下,研究团队设计了AutoSDT-Search模块,基于学科关键词系统检索相关代码仓库;AutoSDT-Select模块则运用大语言模型的代码理解能力,精准识别具有科学发现价值的任务程序及其依赖环境;最后的AutoSDT-Adapt模块通过智能化改造确保程序独立可执行,并自动生成配套任务说明。该流程覆盖生物信息学、计算化学等四大学科领域,最终整合形成包含5,404个任务的标准化数据集。
使用方法
该数据集支持端到端的科研辅助模型开发流程。用户可通过Hugging Face平台获取标准化格式的数据,利用LLaMA-Factory框架进行监督微调实验。数据集已预转换为Alpaca训练格式,配套提供完整的模型配置文件。评估阶段支持通过vLLM引擎部署本地推理服务,兼容ScienceAgentBench和DiscoveryBench双评估体系。研究人员还可根据提供的脚本复现完整的AutoSDT构建流程,包括代码适应性改造、依赖环境配置等关键环节,实现定制化科学发现任务的扩展采集。
背景与挑战
背景概述
AutoSDT-5K数据集由俄亥俄州立大学自然语言处理团队于2024年推出,旨在解决人工智能辅助科学发现领域的数据稀缺问题。该数据集通过创新的三阶段自动化流程(搜索、筛选、适配),从真实科研工作流中收集了5,404个科学编码任务,覆盖生物信息学、计算化学、地理信息科学及心理学与认知神经科学四大领域,涉及756个独特Python包。作为目前规模最大且唯一自动化构建的开放科学发现数据集,AutoSDT-5K不仅为训练可靠AI科研助手提供了高质量数据,其衍生的AutoSDT-Coder-32B模型更在ScienceAgentBench基准测试中达到GPT-4o水平,显著推动了开放模型与专有模型的性能差距缩小。
当前挑战
构建AutoSDT-5K面临双重挑战:在领域问题层面,科学发现任务的复杂性和学科特异性导致传统数据收集方法难以捕捉真实科研场景中的生态效度;技术实现层面,自动化流程需克服代码依赖解析、跨学科术语理解、以及保持原始研究意图的指令生成等难题。数据集构建过程中,研究团队需处理756个Python包的版本兼容性问题,验证1,325个开源仓库的学术使用许可,并对317个无明确许可协议的项目进行合规性评估,这些工作极大增加了数据清洗与标准化的复杂度。
常用场景
经典使用场景
在数据驱动的科学发现领域,AutoSDT-5K数据集为研究者提供了一个跨学科的编程任务集合,涵盖了生物信息学、计算化学、地理信息科学以及心理学与认知神经科学等多个学科。通过自动化的任务收集和代码适配流程,该数据集能够支持复杂的科学计算任务,如基因组序列分析、分子动力学模拟、空间数据建模等。其独特的自动生成任务指令和代码解决方案的特性,使得研究者能够快速验证和复现科学发现流程。
解决学术问题
AutoSDT-5K数据集有效缓解了科学发现领域中高质量训练和评估数据匮乏的问题。通过自动化的任务收集和代码适配流程,该数据集不仅提供了大量真实世界的科学编程任务,还生成了相应的任务指令和代码解决方案。这一创新显著提升了开源模型在科学任务上的表现,例如基于该数据集微调的Qwen2.5-Coder-32B模型在ScienceAgentBench上的成功率达到了GPT-4o的水平,为开放权重模型与专有模型之间的性能差距提供了有力的解决方案。
实际应用
AutoSDT-5K数据集在实际应用中展现了广泛的潜力。其跨学科的特性使其能够支持多种科学计算任务,例如在生物信息学中用于基因组序列分析,在计算化学中用于分子动力学模拟,以及在地理信息科学中用于空间数据建模。此外,该数据集还为科学工作者提供了一个高效的平台,用于验证和复现数据驱动的科学发现流程,从而加速科研进程并提升研究效率。
数据集最近研究
最新研究方向
在人工智能加速科学发现的背景下,AutoSDT-5K数据集以其自动化构建流程和跨学科覆盖特性,成为数据驱动科学发现领域的重要突破。该数据集通过整合生物信息学、计算化学、地理信息科学及心理学与认知神经科学四大领域的5404项科学编程任务,为训练和评估AI协科学家提供了丰富资源。前沿研究聚焦于利用此类数据优化大语言模型的科学推理能力,例如基于Qwen2.5-Coder-32B微调的模型在ScienceAgentBench上达到GPT-4o水平,显著提升了假设匹配精度。这一进展不仅缩小了开源模型与专有模型的性能差距,更推动了可复现科研范式的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作