five

ScienceAgentBench

收藏
Hugging Face2024-10-28 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/osunlp/ScienceAgentBench
下载链接
链接失效反馈
资源简介:
ScienceAgentBench是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准从44篇同行评审的出版物中提取了102个任务,涵盖四个学科,并由九位领域专家进行验证。每个任务的目标输出被统一为一个自包含的Python程序文件,并使用一系列评估指标来检查生成的程序、执行结果和成本。每个任务都经过多轮手动验证,以确保其标注质量和科学合理性。为了防止数据污染,仅在Huggingface上提供标注表,包括运行代理所需的所有必要输入。评估代理生成的代码需要遵循GitHub仓库中的说明。
提供机构:
OSU NLP Group
创建时间:
2024-10-22
原始信息汇总

ScienceAgentBench 数据集概述

数据集描述

ScienceAgentBench 是一个用于评估语言代理在数据驱动科学发现中的新基准。该基准旨在通过严格的任务评估,确保在科学工作流程中对代理的实际能力进行准确评估。

数据集特点

  • 任务来源:从44篇同行评审的出版物中提取了102个任务,涵盖四个科学学科。
  • 专家验证:九位领域专家参与了任务的验证。
  • 输出格式:每个任务的目标输出统一为一个自包含的Python程序文件。
  • 多轮验证:每个任务经过多轮手动验证,确保标注质量和科学合理性。

数据集结构

  • instance_id (str): 每个任务的唯一ID。
  • domain (str): 任务所属的科学学科。
  • subtask_categories (str): 任务中涉及的子任务。
  • github_name (str): 任务改编自的原始GitHub仓库。
  • task_inst (str): 任务目标描述和输出格式指令。
  • domain_knowledge (str): 专家标注的任务相关信息。
  • dataset_folder_tree (str): 任务数据集目录结构的表示。
  • dataset_preview (str): 任务数据集中前几个示例或行的表示。
  • src_file_or_path (str): 原始GitHub仓库中改编的源程序位置。
  • gold_program_name (str): 每个任务的标注程序(参考解决方案)名称。
  • output_fname (str): 生成程序的保存位置。
  • eval_script_name (str): 用于检查每个任务成功标准的评估脚本名称。

许可信息

  • 大多数任务遵循<a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International License</a>。
  • rasterio/rasteriohackingmaterials/matminer改编的任务保留其原始许可。

免责声明

该基准通过改编开源代码和数据构建,尊重原作者的知识产权。如果原作者需要修改或移除相关任务,欢迎提出请求。

引用

如果使用该数据集,请引用相关论文:

@misc{chen2024scienceagentbenchrigorousassessmentlanguage, title={ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery}, author={Ziru Chen and Shijie Chen and Yuting Ning and Qianheng Zhang and Boshi Wang and Botao Yu and Yifei Li and Zeyi Liao and Chen Wei and Zitong Lu and Vishal Dey and Mingyi Xue and Frazier N. Baker and Benjamin Burns and Daniel Adu-Ampratwum and Xuhui Huang and Xia Ning and Song Gao and Yu Su and Huan Sun}, year={2024}, eprint={2410.05080}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2410.05080}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ScienceAgentBench数据集的构建旨在评估语言模型在科学发现中的自动化能力。为确保科学真实性和现实相关性,研究团队从44篇同行评审的出版物中提取了102个任务,并邀请了九位领域专家进行验证。每个任务的输出被统一为一个独立的Python程序文件,并通过多种评估指标对生成的程序、执行结果和成本进行检验。所有任务均经过多轮人工验证,以确保其标注质量和科学合理性。
使用方法
使用ScienceAgentBench数据集时,用户需首先访问HuggingFace平台获取标注表,其中包含运行代理所需的所有输入信息。为评估代理生成的结果,用户需按照GitHub仓库中的指示进行操作。数据集的使用涉及生成代码的执行和评估,用户需根据任务描述和输出格式要求生成Python程序,并通过提供的评估脚本检查其是否符合成功标准。这种使用方法确保了评估过程的透明性和一致性,有助于用户全面了解语言模型在科学发现任务中的表现。
背景与挑战
背景概述
随着语言模型(LLMs)的快速发展,基于LLM的语言代理在自动化科学发现中的应用引起了广泛关注。然而,对其实际能力的评估仍缺乏系统性。为此,ScienceAgentBench应运而生,旨在为数据驱动的科学发现提供严谨的语言代理评估基准。该数据集由俄亥俄州立大学等机构的研究团队于2024年创建,从44篇同行评审的论文中提取了102个任务,涵盖四个学科领域,并邀请九位领域专家进行验证。其核心研究问题在于评估语言代理在科学工作流中的任务执行能力,通过生成自包含的Python程序文件,并采用多种评估指标检验程序生成、执行结果及成本。ScienceAgentBench的推出为科学自动化领域提供了重要的评估工具,推动了该领域的研究进展。
当前挑战
ScienceAgentBench在构建和应用过程中面临多重挑战。首先,确保科学任务的真实性和现实相关性是其核心挑战之一。研究团队从大量文献中筛选任务,并依赖领域专家进行验证,以确保任务的科学合理性。其次,统一任务输出格式并设计全面的评估指标是另一大挑战,需兼顾程序生成质量、执行效率和成本控制。此外,数据集的构建涉及开源代码和数据的适配,需严格遵守知识产权规范,避免法律纠纷。最后,防止基准数据污染也是关键挑战,研究团队通过限制数据公开范围,仅提供必要的输入信息,以确保评估的公正性和可靠性。
常用场景
经典使用场景
ScienceAgentBench数据集主要用于评估语言模型在数据驱动科学发现中的表现。通过从44篇同行评审的出版物中提取102个任务,并结合九位领域专家的验证,该数据集为语言代理在科学工作流中的自动化能力提供了严谨的评估框架。每个任务的目标输出被统一为独立的Python程序文件,并通过多种评估指标对生成的程序、执行结果和成本进行检验。
解决学术问题
ScienceAgentBench解决了语言模型在科学发现中自动化能力的评估问题。通过提供真实世界相关的任务和严格的评估标准,该数据集帮助研究人员更准确地衡量语言代理在科学工作流中的表现,避免了盲目夸大其自动化能力的风险。这一数据集为科学发现中的语言代理研究提供了可靠的基础,推动了该领域的进一步发展。
实际应用
在实际应用中,ScienceAgentBench数据集被广泛用于开发和测试基于语言模型的科学发现工具。研究人员可以利用该数据集中的任务来训练和评估语言代理,确保其在处理复杂科学问题时的准确性和效率。此外,该数据集还为科学工作流中的自动化工具提供了参考标准,帮助开发者在实际应用中优化其性能。
数据集最近研究
最新研究方向
随着语言模型(LLMs)的快速发展,基于LLM的语言代理在科学发现中的应用逐渐成为研究热点。ScienceAgentBench作为一个全新的基准测试,旨在评估语言代理在数据驱动科学发现中的表现。该数据集从44篇同行评审的文献中提取了102个任务,并邀请了九位领域专家进行验证,确保其科学性和现实相关性。每个任务的输出被统一为独立的Python程序文件,并通过多种评估指标对生成的程序、执行结果和成本进行检验。这一基准测试的推出,不仅为语言代理在科学工作流中的实际应用提供了严谨的评估框架,也为未来自动化科学发现的研究奠定了坚实的基础。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作