osunlp/ScienceAgentBench
收藏Hugging Face2026-05-01 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/osunlp/ScienceAgentBench
下载链接
链接失效反馈官方服务:
资源简介:
ScienceAgentBench是一个用于评估语言代理在数据驱动科学发现中的新基准。为确保科学真实性和现实相关性,该基准从四个学科的44篇同行评审出版物中提取了102个任务,并邀请了九位领域专家进行验证。每个任务的目标输出统一为一个自包含的Python程序文件,并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮人工验证,以确保其注释质量和科学合理性。数据集包含多个特征,如唯一任务ID、科学领域、任务描述、领域知识、数据集目录结构、数据集预览、源程序位置、参考解决方案名称、输出文件位置和评估脚本名称。大多数任务采用Creative Commons Attribution 4.0 International License许可,部分任务保留了原始许可。
ScienceAgentBench is a new benchmark for evaluating language agents for data-driven scientific discovery. To ensure the scientific authenticity and real-world relevance, the benchmark extracts 102 tasks from 44 peer-reviewed publications in four disciplines and engages nine subject matter experts to validate them. The target output for every task is unified to a self-contained Python program file, and an array of evaluation metrics is employed to examine the generated programs, execution results, and costs. Each task goes through multiple rounds of manual validation by annotators and subject matter experts to ensure its annotation quality and scientific plausibility. The dataset includes features such as unique task IDs, scientific disciplines, task descriptions, domain knowledge, dataset directory structure, dataset preview, source program location, reference solution name, output file location, and evaluation script name. Most tasks are licensed under a Creative Commons Attribution 4.0 International License, with some tasks retaining their original licenses.
提供机构:
osunlp
搜集汇总
数据集介绍

构建方式
ScienceAgentBench的构建源于对大型语言模型驱动的科学智能体能力进行严谨评估的迫切需求。该基准从44篇经同行评议的四学科出版物中提取了102项具体任务,每项任务都经过九名领域专家的多轮人工验证,以确保其科学真实性与现实相关性。为了统一评估标准,所有任务的预期输出均被规范化为自包含的Python程序文件,并辅以多维度的评估指标来检验生成代码、执行结果及资源消耗。每个任务在标注者与领域专家的协同审核下不断迭代,最终形成了高质量的标注数据集。
特点
ScienceAgentBench的核心特征在于其严谨性与生态透明度。每项任务都详细记录了包括科学领域、子任务类别、原始GitHub仓库来源、任务指令及格式化输出要求在内的12个结构化字段,并提供了专家标注的领域知识、数据集目录树结构及预览样例。该基准特别注重防止数据污染,仅通过HuggingFace提供运行智能体所需的输入数据,而评估代码则托管于专用GitHub仓库,确保评估流程的独立与可复现。此外,绝大多数任务采用CC-BY-4.0许可协议,在尊重原始代码版权的同时,保障了研究社区的可获取性。
使用方法
使用ScienceAgentBench时,研究者需通过HuggingFace Datasets库加载数据,建议优先使用'verified'分割以避免评估中的假阴性问题。加载后,需根据任务描述为智能体配置所需的输入数据与领域知识,并引导其生成对应的自包含Python程序文件。评估阶段需严格遵循GitHub仓库中的最新说明,利用预先定义的评估脚本对生成的程序进行成功率、正确性及效率等多维度打分。每条记录中的domain_knowledge字段可作为提示工程的宝贵素材,而output_fname与eval_script_name则指导着结果存储与验证流程,确保评估的标准化与可比性。
背景与挑战
背景概述
ScienceAgentBench是一个由俄亥俄州立大学自然语言处理团队于2024年创建的基准数据集,旨在严谨评估基于大语言模型的智能体在数据驱动科学发现中的能力。该数据集从44篇同行评审论文中提取了横跨四个学科的102个任务,经九位领域专家多轮验证,确保其科学真实性与现实相关性。每个任务的目标输出被统一为自包含的Python程序文件,并通过多维评估指标对生成代码、执行结果及成本进行综合考察。ScienceAgentBench的发布填补了科学自动化领域缺乏标准化评估框架的空白,推动了智能体在科研流程中从单任务到端到端自动化的可信发展。
当前挑战
该数据集所解决的领域核心挑战在于,尽管大语言模型驱动的智能体在科学发现自动化中展现出潜力,但其真实能力往往被过度夸大,缺乏在科学工作流中针对单个任务的严谨评估手段。构建过程中面临的挑战包括:从大量文献中精准提取可操作的科学任务,并确保其跨学科的代表性;统一异构任务输出格式为Python程序,同时设计全面且可复现的评估指标;以及通过多轮人工与专家验证来防止数据污染,保证标注质量与科学合理性。此外,还需协调不同来源代码的许可证兼容性问题,以维护知识产权合规性。
常用场景
经典使用场景
ScienceAgentBench作为评估语言模型驱动的科学智能体在数据驱动科学发现领域能力的标杆数据集,其经典使用场景聚焦于对智能体在真实科研流程中的细粒度任务执行能力进行系统化评测。该数据集精心提炼了来自44篇同行评审论文中的102项任务,横跨四个学科领域,每个任务均要求智能体依据给定的任务指令、领域知识及数据目录,生成可独立运行的Python程序以完成数据分析、模型构建或结果可视化等子任务。研究者可利用此基准,在受控条件下比较不同语言模型及其代理架构在代码生成准确性、执行结果可靠性及计算成本等多维指标上的表现,从而判断智能体能否忠实复现专家标注的参考解决方案。
衍生相关工作
围绕ScienceAgentBench已催生多项后续研究工作,包括针对科学智能体的多轮交互式代码调试策略、融合外部工具调用能力的智能体架构优化,以及基于该基准的迁移学习评估方法。例如,部分研究基于其任务结构提出双层校验机制,让智能体先生成代码草案再通过模拟执行反馈进行自修正;另一些工作则聚焦于利用领域知识增强检索来提升智能体对专业术语和复杂数学公式的处理准确性。该数据集还常被用作对照基准,用于验证新型提示工程技术(如结构化链式推理)在科学场景下的有效性,并推动了对智能体在跨学科任务中决策过程可解释性的探讨。
数据集最近研究
最新研究方向
ScienceAgentBench为基于语言模型的智能体在数据驱动科学发现领域的性能评估树立了严谨标杆。该基准从四大学科领域的44篇同行评审论文中精炼出102项真实任务,经多位领域专家多轮验证,确保科学真实性与生态效度。其前沿价值在于精准聚焦科研工作流程中的子任务评估,避免对端到端自动化能力做出过度承诺,并通过统一输出为自包含Python程序及多维评价指标(涵盖代码质量、执行结果与计算成本),为智能体在材料科学、生物信息学等前沿交叉领域的可靠性验证提供了可复现的量化框架,有力推动了AI辅助科研从构想向可审计实践的范式跃迁。
以上内容由遇见数据集搜集并总结生成



