ScienceAgentBench

Name: ScienceAgentBench
Creator: OSU NLP Group
Published: 2024-10-28 10:44:05
License: 暂无描述

Hugging Face2024-10-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/osunlp/ScienceAgentBench

下载链接

链接失效反馈

官方服务：

资源简介：

ScienceAgentBench是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准从44篇同行评审的出版物中提取了102个任务，涵盖四个学科，并由九位领域专家进行验证。每个任务的目标输出被统一为一个自包含的Python程序文件，并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮手动验证，以确保其标注质量和科学合理性。为了防止数据污染，仅在Huggingface上提供标注表，包括运行代理所需的所有必要输入。评估代理生成的代码需要遵循GitHub仓库中的说明。

ScienceAgentBench is a novel benchmark for evaluating language agents in data-driven scientific discovery. This benchmark extracts 102 tasks from 44 peer-reviewed publications, covering four disciplines, and has been validated by nine domain experts. The target output for each task is uniformly formatted as a self-contained Python program file, and a series of evaluation metrics are used to examine the generated programs, execution results and associated costs. Each task has undergone multiple rounds of manual validation to ensure its annotation quality and scientific plausibility. To prevent data contamination, only the annotation sheet including all necessary inputs required for running the agents is provided on Hugging Face. Evaluating the code generated by the agents requires following the instructions in the GitHub repository.

提供机构：

OSU NLP Group

创建时间：

2024-10-22

原始信息汇总

ScienceAgentBench 数据集概述

数据集描述

ScienceAgentBench 是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准旨在通过严格的任务评估，确保在科学工作流程中对代理的实际能力进行准确评估。

数据集特点

任务来源：从44篇同行评审的出版物中提取了102个任务，涵盖四个科学学科。
专家验证：九位领域专家参与了任务的验证。
输出格式：每个任务的目标输出统一为一个自包含的Python程序文件。
多轮验证：每个任务经过多轮手动验证，确保标注质量和科学合理性。

数据集结构

instance_id (str): 每个任务的唯一ID。
domain (str): 任务所属的科学学科。
subtask_categories (str): 任务中涉及的子任务。
github_name (str): 任务改编自的原始GitHub仓库。
task_inst (str): 任务目标描述和输出格式指令。
domain_knowledge (str): 专家标注的任务相关信息。
dataset_folder_tree (str): 任务数据集目录结构的表示。
dataset_preview (str): 任务数据集中前几个示例或行的表示。
src_file_or_path (str): 原始GitHub仓库中改编的源程序位置。
gold_program_name (str): 每个任务的标注程序（参考解决方案）名称。
output_fname (str): 生成程序的保存位置。
eval_script_name (str): 用于检查每个任务成功标准的评估脚本名称。

许可信息

大多数任务遵循<a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International License</a>。
从rasterio/rasterio和hackingmaterials/matminer改编的任务保留其原始许可。

免责声明

该基准通过改编开源代码和数据构建，尊重原作者的知识产权。如果原作者需要修改或移除相关任务，欢迎提出请求。

引用

如果使用该数据集，请引用相关论文：

@misc{chen2024scienceagentbenchrigorousassessmentlanguage, title={ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery}, author={Ziru Chen and Shijie Chen and Yuting Ning and Qianheng Zhang and Boshi Wang and Botao Yu and Yifei Li and Zeyi Liao and Chen Wei and Zitong Lu and Vishal Dey and Mingyi Xue and Frazier N. Baker and Benjamin Burns and Daniel Adu-Ampratwum and Xuhui Huang and Xia Ning and Song Gao and Yu Su and Huan Sun}, year={2024}, eprint={2410.05080}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.05080}, }

搜集汇总

数据集介绍

构建方式

ScienceAgentBench数据集的构建旨在评估语言模型在科学发现中的自动化能力。为确保科学真实性和现实相关性，研究团队从44篇同行评审的出版物中提取了102个任务，并邀请了九位领域专家进行验证。每个任务的输出被统一为一个独立的Python程序文件，并通过多种评估指标对生成的程序、执行结果和成本进行检验。所有任务均经过多轮人工验证，以确保其标注质量和科学合理性。

使用方法

使用ScienceAgentBench数据集时，用户需首先访问HuggingFace平台获取标注表，其中包含运行代理所需的所有输入信息。为评估代理生成的结果，用户需按照GitHub仓库中的指示进行操作。数据集的使用涉及生成代码的执行和评估，用户需根据任务描述和输出格式要求生成Python程序，并通过提供的评估脚本检查其是否符合成功标准。这种使用方法确保了评估过程的透明性和一致性，有助于用户全面了解语言模型在科学发现任务中的表现。

背景与挑战

背景概述

随着语言模型（LLMs）的快速发展，基于LLM的语言代理在自动化科学发现中的应用引起了广泛关注。然而，对其实际能力的评估仍缺乏系统性。为此，ScienceAgentBench应运而生，旨在为数据驱动的科学发现提供严谨的语言代理评估基准。该数据集由俄亥俄州立大学等机构的研究团队于2024年创建，从44篇同行评审的论文中提取了102个任务，涵盖四个学科领域，并邀请九位领域专家进行验证。其核心研究问题在于评估语言代理在科学工作流中的任务执行能力，通过生成自包含的Python程序文件，并采用多种评估指标检验程序生成、执行结果及成本。ScienceAgentBench的推出为科学自动化领域提供了重要的评估工具，推动了该领域的研究进展。

当前挑战

ScienceAgentBench在构建和应用过程中面临多重挑战。首先，确保科学任务的真实性和现实相关性是其核心挑战之一。研究团队从大量文献中筛选任务，并依赖领域专家进行验证，以确保任务的科学合理性。其次，统一任务输出格式并设计全面的评估指标是另一大挑战，需兼顾程序生成质量、执行效率和成本控制。此外，数据集的构建涉及开源代码和数据的适配，需严格遵守知识产权规范，避免法律纠纷。最后，防止基准数据污染也是关键挑战，研究团队通过限制数据公开范围，仅提供必要的输入信息，以确保评估的公正性和可靠性。

常用场景

经典使用场景

ScienceAgentBench数据集主要用于评估语言模型在数据驱动科学发现中的表现。通过从44篇同行评审的出版物中提取102个任务，并结合九位领域专家的验证，该数据集为语言代理在科学工作流中的自动化能力提供了严谨的评估框架。每个任务的目标输出被统一为独立的Python程序文件，并通过多种评估指标对生成的程序、执行结果和成本进行检验。

解决学术问题

ScienceAgentBench解决了语言模型在科学发现中自动化能力的评估问题。通过提供真实世界相关的任务和严格的评估标准，该数据集帮助研究人员更准确地衡量语言代理在科学工作流中的表现，避免了盲目夸大其自动化能力的风险。这一数据集为科学发现中的语言代理研究提供了可靠的基础，推动了该领域的进一步发展。

实际应用

在实际应用中，ScienceAgentBench数据集被广泛用于开发和测试基于语言模型的科学发现工具。研究人员可以利用该数据集中的任务来训练和评估语言代理，确保其在处理复杂科学问题时的准确性和效率。此外，该数据集还为科学工作流中的自动化工具提供了参考标准，帮助开发者在实际应用中优化其性能。

数据集最近研究