AutoSDT-5K
收藏Hugging Face2025-06-06 更新2025-06-07 收录
下载链接:
https://huggingface.co/datasets/osunlp/AutoSDT-5K
下载链接
链接失效反馈官方服务:
资源简介:
AutoSDT-5K是一个自动构建的数据集,包含5404个数据驱动发现编码任务,涵盖四个科学学科和756个独特的Python包。专家对256个子集任务的反馈显示,93%的任务具有生态有效性,92.2%的生成程序功能正确。据我们所知,AutoSDT-5K是迄今为止唯一自动收集的、最大的用于数据驱动科学发现的开源数据集。
提供机构:
OSU NLP Group
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
AutoSDT-5K数据集通过自动化方法从开源代码库中系统构建,涵盖四个科学领域的756个独特Python包。该构建过程基于1325个允许学术使用的开源仓库,经过严格的许可证审查与验证,确保数据来源的合法性与学术适用性。自动化流程不仅提取代码任务,还合成功能正确的程序,最终形成包含5404个数据驱动发现任务的高质量集合。
特点
该数据集作为当前最大的自动化收集科学发现数据集,其核心特点体现在广泛覆盖多学科领域与高度可靠性。专家评估显示,93%的任务具有生态效度,92.2%的合成程序功能正确,凸显其卓越的质量水准。数据集包含丰富的代码任务类型,支持复杂的数据驱动发现场景,为科研自动化提供了坚实的数据基础。
使用方法
研究人员可通过HuggingFace平台或项目GitHub仓库获取数据集,直接应用于文本生成任务的模型训练与评估。该数据集适用于构建科学发现辅助系统,支持自动化代码生成与数据驱动决策研究。使用者需遵循原始仓库的许可协议,学术用途可自由使用MIT、Apache等许可的内容,自定义许可部分需确认具体条款。
背景与挑战
背景概述
AutoSDT-5K数据集由俄亥俄州立大学自然语言处理团队于2025年构建,旨在推动数据驱动科学发现领域的研究进程。该数据集通过自动化方法从开源代码库中提取了5,404个科学计算任务,涵盖四大科学领域及756个独特Python包,体现了跨学科知识融合的前沿趋势。其构建基于1,325个学术许可的开源项目,采用严格的学术合规性审查机制,为科学计算与人工智能的交叉研究提供了大规模、高质量的基准资源,显著提升了科学发现任务的自动化水平。
当前挑战
数据集核心挑战在于解决科学发现任务中代码生成与语义理解的复杂性,需精准映射自然语言描述到可执行代码的转换。构建过程中面临多维度挑战:一是跨学科术语与代码逻辑的异构性整合,需协调756个不同领域包的使用规范;二是自动化构建的质量控制,需通过生态效度验证(93%)和功能正确性检验(92.2%)确保数据可靠性;三是知识产权合规性管理,需处理MIT、GNU等12类许可证及317个无明确许可项目的学术使用授权问题。
常用场景
经典使用场景
在数据驱动科学发现领域,AutoSDT-5K数据集通过自动构建的5404个编程任务,为跨学科研究提供了标准化基准。这些任务覆盖四个科学领域和756个Python包,广泛应用于算法验证和模型训练场景。研究者利用该数据集评估科学计算代码生成模型的性能,特别是在处理多学科交叉问题时展现出色适应性。
实际应用
实际应用中,AutoSDT-5K支撑着智能科研助手的开发,能够自动生成实验代码和数据处理流程。在生物信息学、材料科学等领域,研究人员借助该数据集训练的模型快速实现数据分析和可视化任务。工业界则将其用于构建专业领域的代码生成工具,显著提升科研工作效率和实验可重复性。
衍生相关工作
该数据集催生了多项科学计算代码生成的重要研究,包括跨领域任务迁移学习和少样本编程解决方案。基于其构建的基准测试推动了神经符号系统在科研自动化中的应用,衍生出结合大语言模型与专业知识的混合方法。相关研究还拓展到科学工作流自动生成和智能实验设计等前沿方向。
以上内容由遇见数据集搜集并总结生成



