BioFlowBench

github2026-02-06 更新2026-02-09 收录

下载链接：

https://github.com/YufeiHouAnne/BioFlowBench

下载链接

链接失效反馈

官方服务：

资源简介：

BioFlowBench是第一个多层基准，旨在严格评估大型语言模型（LLMs）和代理框架的生物信息学工具使用能力。通过利用大规模生物信息学知识图谱和自动化数据生成，BioFlowBench弥合了静态知识与实际科学执行之间的差距。它包括5,071个样本，涵盖基因组学、转录组学和蛋白质组学，并基于BioKG知识图谱构建，包含1,143个工具实体、3,274个版本节点和173个工作流。

BioFlowBench is the first multi-layer benchmark designed to rigorously evaluate the bioinformatics tool usage capabilities of large language models (LLMs) and AI agent frameworks. By leveraging large-scale bioinformatics knowledge graphs and automated data generation, BioFlowBench bridges the gap between static domain knowledge and actual scientific execution. It comprises 5,071 samples covering genomics, transcriptomics, and proteomics. Constructed based on the BioKG knowledge graph, it includes 1,143 tool entities, 3,274 version nodes, and 173 workflows.

创建时间：

2026-02-06

原始信息汇总

BioFlowBench 数据集概述

数据集简介

BioFlowBench 是首个用于严格评估大型语言模型（LLMs）和智能体框架在生物信息学领域工具使用能力的多层次基准测试。它通过利用大规模生物信息学知识图谱和自动化数据生成，弥合了静态知识与实际科学执行之间的差距。

核心特性

知识图谱驱动：基于 BioKG 构建，该知识图谱包含 1,143 个工具实体、3,274 个版本节点和 173 个工作流。
覆盖广泛的生物领域：包含 5,071 个样本，涵盖基因组学、转录组学和蛋白质组学。
BioGen 框架：一个智能体驱动的自动化引擎，可生成紧凑、低开销的合成生物数据，用于可扩展且经济高效的测试。
多维评估：超越简单的准确性评估，可衡量结构完整性、功能有效性和效率指标。

多维评估框架

BioFlowBench 从四个关键维度评估模型：

I. 静态知识

准确性：在单项选择语法问题上的表现。
精确匹配：回忆特定参数或工具名称的精确度。

II. 结构完整性指标

工作流完成率：正确调用工具与所需工具的比例。
工作流冗余率：衡量“幻觉”或不必要的中间步骤。

III. 功能有效性指标

执行通过率：无系统错误执行的工作流百分比。
生物有效性率：“黄金标准”——通过验证工具链验证输出是否科学准确。
调试成功率：量化通过智能体迭代自调试过程成功恢复的初始失败任务的比例。

IV. 效率指标

生物计算效率得分：平衡生物准确性与令牌成本。

数据集结构

模块	文件	格式	描述
模块 1	`Dataset/Syntax_Understanding.json`	单项选择	测试工具定义、参数和版本敏感性。
模块 2	`Dataset/Contextual_Application.json`	填空	测试在特定生物背景下应用工具的能力。
模块 3	`BioGen`	工作流	可执行的 shell 命令和验证脚本。

BioGen 管道依赖于位于 BioGen 目录中的结构化数据存储库。这种组织方式确保智能体能够基于 BioKG（生物信息学知识图谱）自主检索种子、调用工具和构建工作流。

目录结构详解

BioGen/bio_seeds/：包含“种子文件”（例如 chrM.fa、uniprot_sprot.fasta）。这些是高质量的、轻量级的生物片段，用作数据合成的起点。
BioGen/tools/：存放“合成工具”的实现（例如 wgsim、art、pyopenms）。这些是 BioGen 调用的 Python 封装和命令行实用程序，用于将种子转换为特定任务的输入。
BioGen/biokg_data/：基准测试任务的核心。包含从 BioKG 中提取的、按复杂度分类的精选工作流数据：
- 简单：2 步工具链（例如 FastQC -> MultiQC）。
- 中等：3-5 步序列（例如 BWA -> Samtools -> Bcftools）。
- 困难：复杂的、多步骤的真实世界流程（6 个以上工具）。

快速开始指南

1. 模块 1：语法理解评估

此模块使用单项选择题格式评估模型的基本理解能力。 python python Eval_SU.py

2. 模块 2：上下文应用评估

此模块使用完形填空格式测试在现实场景中的推理能力。 python python Eval_CA.py

3. BioGen：自动化数据合成（模块 3）

工作原理：

WorkflowPlan：智能体使用“种子文件”和“合成工具”设计合成计划，为目标工作流中的第一个工具生成特定的输入。
BenchmarkOutput：生成三个关键组件：
- user_query：描述科学目标的自然语言请求。
- ground_truth_script：黄金标准的 bash 命令序列。
- validation_command：用于“验证工具”的命令，以验证最终输出的生物完整性。

执行示例：

python

使用您的 LLM 配置初始化智能体

agent = BioDataForgeAgent()

从 BioGen/biokg_data/ 加载目标工具序列

workflow_tools = [...]

创建并执行计划以生成真实测试数据

plan = agent.create_plan(workflow_tools) executed_plan = agent.execute_plan(plan)

生成最终的基准测试案例

benchmark = agent.generate_final_benchmark(executed_plan, workflow_tools)

实验评估

研究团队使用 BioFlowBench 套件评估了 8 个 LLM 和 4 个智能体框架。

搜集汇总

数据集介绍

构建方式

在生物信息学领域，数据集的构建往往依赖于对现有知识的系统化整合与自动化生成。BioFlowBench的构建过程体现了这一前沿理念，其核心基于一个庞大的生物信息学知识图谱BioKG，该图谱整合了来自多源的1143个工具实体、3274个版本节点以及173个工作流。通过BioGen这一自动化数据合成框架，数据集能够以种子文件为起点，利用合成工具动态生成符合特定生物任务需求的测试数据，从而实现了从静态知识到可执行科学工作流的无缝衔接。这种知识图谱驱动与自动化合成相结合的方法，确保了数据集的规模性、多样性与现实相关性。

特点

BioFlowBench作为首个多层次评估基准，其显著特点在于超越了传统静态知识测试，构建了一个涵盖静态知识、结构完整性、功能有效性与计算效率的四维评估体系。数据集包含5071个样本，覆盖基因组学、转录组学与蛋白质组学等多个关键生物领域，提供了从简单工具链到复杂真实管道的多难度工作流。尤为突出的是，其通过内置的验证工具链能够对输出结果的生物有效性进行黄金标准验证，并引入生物计算效率分数来权衡准确性与计算成本，为全面评估大语言模型与智能体在真实科研场景中的工具使用能力提供了精细化的度量标准。

使用方法

使用BioFlowBench进行评估遵循模块化的设计思路，主要分为三个核心模块。语法理解模块通过单项选择问卷评估模型对工具定义、参数及版本的基础认知，可通过运行`Eval_SU.py`脚本启动。上下文应用模块采用填空形式测试模型在具体生物场景下的推理与应用能力，通过`Eval_CA.py`脚本进行精确匹配评估。最为核心的BioGen模块则用于自动化数据合成与工作流验证，用户需初始化智能体并加载来自`biokg_data`目录的目标工具序列，智能体将自动制定合成计划、生成自然语言查询、标准脚本及验证命令，从而构建出可直接执行的端到端评测案例，实现了对模型工具调用与问题解决能力的动态、可执行测试。

背景与挑战

背景概述

随着人工智能在生物信息学领域的深度融合，大型语言模型与智能体框架的工具调用能力成为推动自动化科学研究的关键。BioFlowBench作为首个多层次基准测试，由研究团队于近期创立，旨在系统评估模型在真实生物信息学工作流中的执行效能。该数据集依托于一个包含千余种工具实体的生物信息学知识图谱，通过自动化数据生成引擎BioGen，构建了覆盖基因组学、转录组学与蛋白质组学的五千余个测试样本，有效弥合了静态知识与动态科学实践之间的鸿沟，为智能体在复杂生物计算任务中的可靠性提供了标准化度量体系。

当前挑战

BioFlowBench致力于解决生物信息学领域智能体工具调用能力的评估难题，其核心挑战在于如何精准量化模型从语法理解到工作流执行的综合性能。构建过程中，研究团队需克服多维度数据合成的复杂性，包括从海量知识图谱中提取可执行工作流、设计轻量化生物种子文件以生成合成数据，并确保工作流在结构完整性与生物学有效性之间的平衡。此外，建立涵盖静态知识、结构完整性、功能有效性及计算效率的四维评估框架，亦要求对生物计算任务的本质与自动化验证流程进行深度抽象与整合。

常用场景

经典使用场景

在生物信息学领域，随着大型语言模型与智能体技术的快速发展，评估其在复杂科学任务中的实际工具调用能力成为一项关键挑战。BioFlowBench作为首个多层级的基准测试，其经典使用场景在于为研究人员提供一个标准化的评估平台，用以系统性地测试模型在基因组学、转录组学和蛋白质组学等多领域工作流中的表现。通过结合知识图谱驱动的任务生成与自动化数据合成，该数据集能够模拟真实生物信息学分析流程，从语法理解到上下文应用，再到完整的可执行工作流构建，全面衡量智能体在静态知识掌握、结构完整性维护、功能有效性验证及计算效率平衡等多维度的综合能力。

实际应用

在实际应用层面，BioFlowBench为生物信息学工具开发与自动化流程构建提供了强有力的验证环境。生物信息学研究人员可利用该基准测试来筛选和优化能够可靠调用BWA、Samtools等专业工具的智能体系统，从而辅助或替代部分重复性高的数据分析工作。制药公司与生物技术企业能够借此评估AI代理在药物靶点发现或组学数据分析流程中的整合潜力，提升研发效率。此外，该数据集支持的自动化数据合成框架BioGen，使得在可控且低成本的条件下生成特定任务所需的合成生物数据成为可能，极大地降低了大规模测试与迭代的门槛，为构建下一代智能生物信息学分析平台奠定了实践基础。

衍生相关工作

围绕BioFlowBench所建立的多维评估范式，已衍生出一系列关注于提升AI在科学领域工具使用能力的经典研究工作。其知识图谱驱动的任务构建方法，启发了后续研究如何将领域结构化知识更有效地融入智能体规划模块。基于其工作流完整性、冗余度等结构性指标，后续工作进一步探索了用于工作流生成的强化学习与课程学习策略。同时，该基准测试强调的生物有效性验证链条，推动了专门用于科学输出验证的模块化工具链的开发。这些衍生工作共同深化了我们对科学智能体在复杂、多步骤、需验证的真实世界任务中行为模式的理解，并持续推动着面向生命科学的可信赖AI系统的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集