BixBench

Name: BixBench
Creator: FutureHouse, San Francisco, USA; ScienceMachine, London, UK
Published: 2025-03-01 02:47:57
License: 暂无描述

arXiv2025-03-01 更新2025-03-06 收录

下载链接：

https://huggingface. co/datasets/futurehouse/BixBench

下载链接

链接失效反馈

官方服务：

资源简介：

BixBench是一个包含超过50个实际生物数据分析场景的基准数据集，由FutureHouse和ScienceMachine创建。每个场景都包括一个指导性问题与异构输入数据文件的对。该数据集旨在评估LLM型代理在探索生物数据集、执行长时间多步骤分析轨迹以及解释分析结果方面的能力。

BixBench is a benchmark dataset encompassing over 50 real-world bioinformatics data analysis scenarios, developed by FutureHouse and ScienceMachine. Each scenario comprises a pair of a guiding question and heterogeneous input data files. This dataset is designed to evaluate the capabilities of LLM-powered AI Agents in exploring biological datasets, executing long-duration multi-step analysis trajectories, and interpreting analytical results.

提供机构：

FutureHouse, San Francisco, USA; ScienceMachine, London, UK

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

BixBench数据集的构建方式是通过收集和分析生物学领域的真实世界数据，专家们创建了53个包含输入数据和元数据的分析“胶囊”，每个胶囊都包含一个研究假设或问题、输入数据和分析代码。这些胶囊被其他专家审核并合并成最终的数据集。为了生成评估任务，研究人员使用了大型语言模型来提出候选问题，然后由专家进行审查和编辑，最终形成了296个开放性问题。数据集的构建过程体现了专家知识的结合和对真实世界分析场景的模拟。

特点

BixBench数据集的特点在于其开放性、复杂性和真实性。数据集中的任务涉及复杂的生物信息学分析，需要多步骤的计算和解释能力。这些问题不是简单的记忆或识别任务，而是需要深入理解生物学数据和问题的细微差别。此外，数据集的评价方式包括开放性回答和多项选择题两种形式，以便更好地模拟真实的生物信息学工作流程。

使用方法

使用BixBench数据集的方法包括准备一个Jupyter笔记本环境，其中包含输入数据文件和一系列相关问题。评估者可以使用Python、R或bash命令进行分析，并根据需要安装必要的软件包。在分析过程中，评估者可以使用提供的工具（如编辑单元格、列出工作目录、提交答案）来迭代改进其分析。最后，评估者的答案将由另一个大型语言模型与真实答案进行比较，以评估其准确性。为了模拟真实世界的工作流程，评估过程允许多次迭代，并计算所有并行运行中的整体性能。

背景与挑战

背景概述

BixBench数据集，由Ludovico Mitchener等人于2025年创建，旨在为大型语言模型（LLM）及其在计算生物学领域的应用提供一个全面的基准。随着科学发现加速的需求日益增长，现有的基准测试正从纯粹的回忆和机械知识任务转向更实际的工作，如文献综述和实验计划。生物信息学是AI驱动的自主发现可能即将实现的领域，但至今还没有广泛使用的基准来衡量这一进展。BixBench数据集包含超过50个实际场景的生物数据分析，以及近300个相关的问题，旨在衡量LLM基于的代理探索生物数据集、执行长时间的多步骤分析轨迹和解释分析结果的能力。该数据集的创建为计算生物学领域提供了一个新的评估工具，有助于推动AI在生物信息学中的应用和发展。

当前挑战

BixBench数据集相关的挑战主要包括：1)解决领域问题的挑战，即如何使LLM基于的代理能够在复杂的生物信息学任务中实现自主探索和分析；2)构建过程中所遇到的挑战，包括如何收集和整理生物信息学领域的真实场景和问题，以及如何评估和验证代理的性能。此外，BixBench数据集还面临如何处理多语言、多工具和多步骤分析等复杂任务的挑战，以及如何确保代理能够准确理解和解释分析结果。

常用场景

经典使用场景

BixBench 数据集主要用于评估和引导基于大型语言模型（LLM）的代理在生物信息学领域的分析能力。该数据集包含了超过50个现实世界的生物数据分析场景，以及近300个与之相关的问题，旨在测试代理探索生物数据集、执行多步分析流程以及解释分析结果的能力。

衍生相关工作

BixBench 数据集的发布推动了相关领域的研究，例如ChemBench和LAB-Bench等基准测试套件的开发，这些套件旨在测量AI代理在化学和生物学研究任务中的能力。此外，BixBench 还催生了如BioCoder等基准测试，专注于测试大型语言模型在代码生成和函数调用方面的能力。

数据集最近研究