BixBench

github2025-03-15 更新2025-03-06 收录

下载链接：

https://github.com/Future-House/BixBench

下载链接

链接失效反馈

官方服务：

资源简介：

BixBench是一个用于评估AI代理在真实世界生物信息学任务中表现的基准测试。该基准测试测试AI代理的能力，包括探索生物数据集、执行长时间的多步骤计算分析以及在研究问题的背景下解释细微的结果。BixBench数据集包含296个问题，这些问题源自53个真实世界已发布的Jupyter笔记本和相关数据（胶囊）。

BixBench is a benchmark designed to evaluate the performance of AI Agents on real-world bioinformatics tasks. This benchmark assesses the capabilities of AI Agents, including exploring biological datasets, conducting long-duration multi-step computational analyses, and interpreting nuanced results within the context of research questions. The BixBench dataset comprises 296 questions derived from 53 real-world published Jupyter notebooks and their associated data capsules.

创建时间：

2025-02-20

原始信息汇总

BixBench 数据集概述

数据集简介

BixBench是一个为评估AI代理在真实世界生物信息学任务上的性能而设计的基准测试。该基准测试检验AI代理的能力，包括探索生物数据集、执行长步骤的计算分析以及在与研究问题的背景下解释细微的结果。

数据集特点

包含296个问题，源自53个真实世界的已发表Jupyter笔记本及相关数据（capsules）。
问题形式包括开放性问题或多项选择题，要求AI代理导航数据集、执行代码（Python、R、Bash）、生成科学假设并验证它们。

数据集获取

-可在Hugging Face上找到BixBench数据集。

读取相关论文详情这里。

使用说明

该存储库支持三种独立功能：对LLM的代理评估、零样本评估以及复制BixBench论文结果。
安装依赖：需要克隆存储库并安装相关依赖。
运行环境：代理执行数据分析代码需要在容器化环境中运行，需要拉取相应的Docker镜像。

评估方法

代理评估分为生成轨迹和通过后处理评估轨迹两个步骤。
生成的轨迹保存在bixbench_results/目录下。
可以使用自定义代理，通过编辑generate_trajectories.py脚本来生成轨迹，并使用postprocessing.py脚本评估性能。

零样本评估

使用run_zeroshot_evals.py脚本进行零样本评估，然后使用grade_outputs.py脚本自动评分。

复制论文结果

可以下载原始轨迹数据和后处理评估数据表，使用bixbench/run_configuration/bixbench_paper_results.yaml配置文件运行后处理脚本，生成评估数据表和分析图表。

认可

BixBench是由FutureHouse和ScienceMachine的合作成果。

性能比较

多数投票准确性

搜集汇总

数据集介绍

构建方式

BixBench数据集的构建，是基于真实世界的生物信息学任务，整合了53个已发表的Jupyter笔记本及相关数据，形成了296个问题。这些问题涵盖了开放性问题与多项选择题，旨在评估AI代理在探索生物数据集、执行长时间的多步骤计算分析以及解释复杂结果方面的能力。

特点

BixBench数据集的特点在于其综合性与实用性，它不仅包含了生物信息学领域的实际问题，还要求AI代理能够生成科学假设并进行验证。数据集通过提供开放性问题，模拟了科研过程中的不确定性，要求代理具备高度的自主性与创造性。

使用方法

使用BixBench数据集，首先需要通过GitHub页面进行安装，并配置相关依赖环境。数据集支持代理评估、零样本评估以及复现论文结果的三大功能。用户可以通过配置YAML文件，利用脚本生成和评估轨迹，从而对LLM代理在生物信息学任务上的性能进行评估。

背景与挑战

背景概述

BixBench数据集，是一项旨在评估人工智能代理在真实世界生物信息学任务中的表现基准。该数据集由FutureHouse机构研发，并于近年来推出。它通过296个源自53个真实世界、已发表Jupyter笔记本及其相关数据的问题，测试AI代理探索生物数据集、执行长时间的多步骤计算分析以及根据研究问题解释细微结果的能力。BixBench的创建，为评估大型语言模型（LLM）在生物信息学领域的应用提供了重要工具，对促进该领域的研究具有重要的推动作用。

当前挑战

BixBench数据集面临的挑战主要包括两个方面：一是所解决的领域问题，即如何在生物信息学这一复杂领域中，通过AI代理进行有效的数据探索、分析和结果解释；二是构建过程中的挑战，例如如何保证数据集的多样性、准确性以及评价标准的公正性。此外，对于AI代理在生成复杂Jupyter笔记本方面的评估，需要精确地量化代理的性能，并在不同的模型和配置之间进行比较，这些都是当前研究需要解决的问题。

常用场景

经典使用场景

BixBench作为一个综合性的基准测试，旨在评估AI代理在真实生物信息学任务中的表现。其经典使用场景包括让AI代理探索生物数据集，执行长时间的多步骤计算分析，并在研究问题的背景下解释细微的结果。该数据集通过开放性问题或多项选择题的形式，要求代理导航数据集，执行代码（Python、R、Bash），生成科学假设并验证它们。

解决学术问题

BixBench解决了学术研究中如何准确评估大型语言模型（LLM）在生物信息学领域的问题。它为研究提供了一个标准化的平台，使研究者能够比较不同LLM的性能，特别是在处理复杂、多步骤的计算任务时，这对于生物信息学领域的研究尤为重要。

衍生相关工作

基于BixBench，研究人员可以进一步开展相关工作，如开发新的评估指标、设计更高效的代理算法，以及探索LLM在生物信息学中的更多应用。这些衍生工作有望推动AI技术在生物医学领域的广泛应用和进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集