five

BixBench

收藏
arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://huggingface. co/datasets/futurehouse/BixBench
下载链接
链接失效反馈
官方服务:
资源简介:
BixBench是一个包含超过50个实际生物数据分析场景的基准数据集,由FutureHouse和ScienceMachine创建。每个场景都包括一个指导性问题与异构输入数据文件的对。该数据集旨在评估LLM型代理在探索生物数据集、执行长时间多步骤分析轨迹以及解释分析结果方面的能力。

BixBench is a benchmark dataset encompassing over 50 real-world bioinformatics data analysis scenarios, developed by FutureHouse and ScienceMachine. Each scenario comprises a pair of a guiding question and heterogeneous input data files. This dataset is designed to evaluate the capabilities of LLM-powered AI Agents in exploring biological datasets, executing long-duration multi-step analysis trajectories, and interpreting analytical results.
提供机构:
FutureHouse, San Francisco, USA; ScienceMachine, London, UK
创建时间:
2025-03-01
搜集汇总
数据集介绍
构建方式
BixBench数据集的构建方式是通过收集和分析生物学领域的真实世界数据,专家们创建了53个包含输入数据和元数据的分析“胶囊”,每个胶囊都包含一个研究假设或问题、输入数据和分析代码。这些胶囊被其他专家审核并合并成最终的数据集。为了生成评估任务,研究人员使用了大型语言模型来提出候选问题,然后由专家进行审查和编辑,最终形成了296个开放性问题。数据集的构建过程体现了专家知识的结合和对真实世界分析场景的模拟。
特点
BixBench数据集的特点在于其开放性、复杂性和真实性。数据集中的任务涉及复杂的生物信息学分析,需要多步骤的计算和解释能力。这些问题不是简单的记忆或识别任务,而是需要深入理解生物学数据和问题的细微差别。此外,数据集的评价方式包括开放性回答和多项选择题两种形式,以便更好地模拟真实的生物信息学工作流程。
使用方法
使用BixBench数据集的方法包括准备一个Jupyter笔记本环境,其中包含输入数据文件和一系列相关问题。评估者可以使用Python、R或bash命令进行分析,并根据需要安装必要的软件包。在分析过程中,评估者可以使用提供的工具(如编辑单元格、列出工作目录、提交答案)来迭代改进其分析。最后,评估者的答案将由另一个大型语言模型与真实答案进行比较,以评估其准确性。为了模拟真实世界的工作流程,评估过程允许多次迭代,并计算所有并行运行中的整体性能。
背景与挑战
背景概述
BixBench数据集,由Ludovico Mitchener等人于2025年创建,旨在为大型语言模型(LLM)及其在计算生物学领域的应用提供一个全面的基准。随着科学发现加速的需求日益增长,现有的基准测试正从纯粹的回忆和机械知识任务转向更实际的工作,如文献综述和实验计划。生物信息学是AI驱动的自主发现可能即将实现的领域,但至今还没有广泛使用的基准来衡量这一进展。BixBench数据集包含超过50个实际场景的生物数据分析,以及近300个相关的问题,旨在衡量LLM基于的代理探索生物数据集、执行长时间的多步骤分析轨迹和解释分析结果的能力。该数据集的创建为计算生物学领域提供了一个新的评估工具,有助于推动AI在生物信息学中的应用和发展。
当前挑战
BixBench数据集相关的挑战主要包括:1)解决领域问题的挑战,即如何使LLM基于的代理能够在复杂的生物信息学任务中实现自主探索和分析;2)构建过程中所遇到的挑战,包括如何收集和整理生物信息学领域的真实场景和问题,以及如何评估和验证代理的性能。此外,BixBench数据集还面临如何处理多语言、多工具和多步骤分析等复杂任务的挑战,以及如何确保代理能够准确理解和解释分析结果。
常用场景
经典使用场景
BixBench 数据集主要用于评估和引导基于大型语言模型(LLM)的代理在生物信息学领域的分析能力。该数据集包含了超过50个现实世界的生物数据分析场景,以及近300个与之相关的问题,旨在测试代理探索生物数据集、执行多步分析流程以及解释分析结果的能力。
衍生相关工作
BixBench 数据集的发布推动了相关领域的研究,例如ChemBench和LAB-Bench等基准测试套件的开发,这些套件旨在测量AI代理在化学和生物学研究任务中的能力。此外,BixBench 还催生了如BioCoder等基准测试,专注于测试大型语言模型在代码生成和函数调用方面的能力。
数据集最近研究
最新研究方向
在生物信息学和计算生物学领域,大型语言模型(LLM)和基于LLM的智能体在加速科学研究方面显示出巨大潜力。为了评估这种潜力并指导未来发展,研究人员已经从纯粹的回忆和死记硬背任务转向更实用的工作,如文献综述和实验规划。然而,在生物信息学领域,尽管完全自主的AI驱动的发现可能即将到来,但目前还没有引入广泛的标准来衡量进步。因此,研究人员提出了生物信息学基准(BixBench),这是一个包含50多个真实世界场景的实用生物数据分析数据集,以及近300个相关开放式问题,旨在衡量基于LLM的智能体探索生物数据集、执行长时间的多步分析轨迹和解释这些分析的微妙结果的能力。研究人员使用定制的智能体框架评估了两种前沿LLM(GPT-4o和Claude 3.5 Sonnet)的性能,发现即使是最新前沿模型在开放式问题回答模式下的准确率也只有17%,在多项选择题设置中并不比随机猜测更好。通过揭示前沿模型的当前局限性,研究人员希望BixBench能够推动能够进行严谨生物信息学分析并加速科学发现的智能体的发展。
相关研究论文
  • 1
    BixBench: a Comprehensive Benchmark for LLM-based Agents in Computational BiologyFutureHouse, San Francisco, USA; ScienceMachine, London, UK · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作