BioProBench

Name: BioProBench
Creator: 北京大学
Published: 2025-05-11 17:42:24
License: 暂无描述

arXiv2025-05-11 更新2025-05-15 收录

下载链接：

https://github.com/YuyangSunshine/bioprotocolbench, https://huggingface.co/datasets/GreatCaptainNemo/BioProBench

下载链接

链接失效反馈

官方服务：

资源简介：

BioProBench是一个针对生物实验协议理解和推理的大型综合性数据集，包含了从27,000个原始协议中提取的近556,000个高质量结构化实例。数据集涵盖了五个核心任务：协议问答、步骤排序、错误纠正、协议生成和协议推理，旨在对语言模型在生物文本处理方面的能力进行全面的评估。数据集来源于6个权威在线资源，覆盖了16个生物学子领域，具有广泛的领域覆盖性和代表性。数据集的构建经历了数据收集、处理、任务实例生成和多层质量控制等多个阶段，确保了数据的准确性和可靠性。

BioProBench is a large-scale comprehensive dataset focused on biological experimental protocol understanding and reasoning, comprising nearly 556,000 high-quality structured instances extracted from 27,000 original protocols. It covers five core tasks: protocol question answering, step ordering, error correction, protocol generation and protocol reasoning, aiming to comprehensively evaluate the capabilities of language models in biological text processing. The dataset is sourced from six authoritative online resources, spans 16 subfields of biology, and features extensive domain coverage and representativeness. The construction of the dataset has gone through multiple stages including data collection, preprocessing, task instance generation and multi-tiered quality control, ensuring the accuracy and reliability of the dataset.

提供机构：

北京大学

创建时间：

2025-05-11

搜集汇总

数据集介绍

构建方式

BioProBench数据集通过整合来自六个权威在线资源的26,933份完整生物学实验协议构建而成，涵盖16个生物学子领域。数据经过去重和清洗后，采用基于缩进和符号级别的解析规则提取关键元素并恢复父-子关系，确保复杂嵌套结构的准确性。随后通过LLM辅助的数据增强和任务生成流程，创建了包含五个核心任务的556,171个结构化实例，并经过自动化检查和专家评审的多阶段质量控制。

使用方法

BioProBench支持多阶段模型开发流程：原始协议库可用于预训练或检索增强生成；下游训练集支持模型在特定任务上的微调；保留的测试集则用于标准化基准评估。使用时应根据任务类型选择相应评估指标，如协议问答任务采用准确率和Brier分数，协议生成任务则结合BLEU和关键词F1等指标。该数据集特别适合评估模型在生物学实验协议这种高度专业化、准确性关键且具有固有程序性文本上的理解和推理能力。

背景与挑战

背景概述

BioProBench是由北京大学电子与计算机工程学院和化学生物学与生物技术学院的研究团队于2025年提出的首个面向生物实验协议理解与推理的大规模多任务基准数据集。该数据集基于27,000份真实生物实验协议构建，涵盖16个生物学子领域，包含55.6万个高质量结构化实例。针对生物实验协议中存在的步骤依赖性强、专业术语密集、安全风险高等特点，设计了协议问答、步骤排序、错误修正、协议生成和协议推理五大核心任务。作为生物信息处理领域的重要基础设施，BioProBench填补了现有生物医学文本处理基准在实验协议这一关键场景的系统性评估空白，为衡量语言模型在复杂科学流程理解方面的能力提供了标准化框架。

当前挑战

BioProBench面临的核心挑战主要体现在两个方面：领域问题层面，生物实验协议具有严格的时序逻辑、复杂的因果依赖关系和专业术语体系，当前语言模型在深层推理（如步骤排序任务准确率仅51.8%）和结构化生成（协议生成BLEU值低于15%）方面表现显著不足；构建过程层面，协议文本存在嵌套结构复杂（需处理主步骤与子步骤的层级关系）、专业术语歧义（如浓度单位不一致）、安全风险标注（需识别实验操作中的潜在危险）等难题，研究团队通过结合正则表达式与NLP技术进行结构化提取，并采用多阶段质量控制（包括自动化过滤和5名生物学博士的专家评审）确保数据质量。

常用场景

经典使用场景

BioProBench作为首个专注于生物实验协议理解与推理的大规模多任务基准，其核心应用场景在于系统性评估大型语言模型（LLM）处理复杂生物学程序文本的能力。该数据集通过协议问答、步骤排序、错误修正、协议生成和协议推理五大任务，模拟了实验设计、执行和优化中的关键环节。例如，在步骤排序任务中，模型需重构实验流程的时序逻辑，这对自动化实验平台开发具有直接参考价值。

解决学术问题

BioProBench解决了生物医学文本处理领域长期存在的三大挑战：一是缺乏针对程序性文本（如嵌套步骤、因果依赖）的评估标准；二是填补了现有生物医学基准（如BioASQ、PubMedQA）在实验协议深度推理任务上的空白；三是通过引入关键词内容指标和嵌入结构指标等域特异性评估体系，为衡量模型对试剂剂量、参数值等专业知识的捕捉能力提供了量化工具。其556K结构化实例为模型在生物协议领域的适应性微调提供了资源基础。

实际应用

在实验室自动化场景中，BioProBench可直接指导AI系统的开发。例如，其错误修正任务（ERR）能训练模型识别试剂浓度错误等高风险偏差，降低实验事故率；协议生成任务（GEN）可辅助科研人员快速生成标准化操作流程，尤其适用于合成生物学等高通量实验领域。数据集覆盖细胞培养、基因组学等16个子领域的特点，使其在跨学科实验设计、生物教育工具开发等方面展现出广泛适用性。

数据集最近研究