BioProBench

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/GreatCaptainNemo/BioProBench

下载链接

链接失效反馈

官方服务：

资源简介：

BioProBench是一个全面用于生物协议理解和推理的大规模多任务数据集，专为大型语言模型设计。它包含27K个原始生物协议，覆盖16个生物学子领域，形成了556K个高质量的结构化实例。该数据集提供了五个核心任务，包括协议问答、步骤排序、错误校正、协议生成和协议推理，以挑战LLM在不同方面的程序性理解能力。

创建时间：

2025-05-10

原始信息汇总

BioProBench 数据集概述

基本信息

语言: 英文 (en)
规模: 100K<n<1M
标签: 生物学 (biology)
任务类别: 其他 (other)

数据集简介

BioProBench 是首个大规模、多任务集成的生物协议理解与推理基准测试，专为大型语言模型 (LLMs) 设计。该数据集超越了简单的问答任务，涵盖了一系列对程序性文本理解至关重要的任务。

主要特点

大规模数据: 基于 27K 原始生物协议，生成近 556K 高质量结构化实例。
全面任务: 包含 五个核心任务，挑战 LLMs 在不同方面的程序性理解和生成能力：
- 协议问答 (PQA)
- 步骤排序 (ORD)
- 错误纠正 (ERR)
- 协议生成 (GEN)
- 协议推理 (REA)
广泛领域覆盖: 数据来自 6 个主要存储库，涵盖 16 个生物子领域。
标准化评估: 结合标准 NLP 指标和新的领域特定度量，用于准确量化性能。

数据集结构

原始语料库: 27K 协议，用于预训练或 RAG 应用。
训练集: 超过 550K 结构化实例，涵盖五个细粒度任务。
测试集: 每个任务 1,000 个示例，用于标准化基准测试。

评估指标

每个任务对应一个评估脚本，使用以下指标：

任务	脚本	指标
协议生成 (GEN)	`GEN.py`	BLEU, 基于关键词, 基于嵌入等
协议问答 (PQA)	`PQA.py`	准确率, Brier 分数等
错误纠正 (ERR)	`ERR.py`	准确率, 精确率, 召回率, F1 等
步骤排序 (ORD)	`ORD.py`	精确匹配, Kendalls tau 等
实验推理 (REA)	`REA-ERR.py`	准确率, 精确率, 召回率, F1, 一致性等

关键发现

表面理解 vs 深度理解: 顶级模型在表面理解任务（如协议问答）上表现良好，但在需要深度程序性理解和结构化生成的任务上表现较差。
推理和生成的挑战: 在步骤排序和协议生成任务上性能显著下降。
模型差异: 不同模型表现差异显著，某些开源模型在某些任务上接近闭源模型性能。

引用

bibtex @misc{bioprotocolbench2025, title={BioProBench: Comprehensive Dataset and Benchmark in Biological Protocol Understanding and Reasoning}, author={Yuyang Liu⋆, Liuzhenghao Lv⋆ Xiancheng Zhang, Li Yuan1, Yonghong Tian.}, year={2025}, url={https://arxiv.org/pdf/2505.07889} }

联系方式

邮箱: sunshineliuyuyang@gmail.com

搜集汇总

数据集介绍

构建方式

BioProBench数据集作为生物协议理解与推理领域的重要资源，其构建过程体现了严谨的科学方法论。研究团队从6个主要生物协议库中系统性地收集了27,000份原始生物实验协议，通过多阶段标注流程转化为556,000个结构化实例。数据构建采用分层设计策略，既保留了原始协议文本的完整性以支持检索增强生成等应用，又通过精细标注形成了涵盖五大核心任务的训练集。每个任务实例都经过领域专家的严格验证，确保标注质量满足生物医学文本特有的精确性要求。

特点

该数据集最显著的特征在于其多维度的任务覆盖与专业的领域适配性。不同于常规生物文本数据集，BioProBench创新性地整合了协议问答、步骤排序、错误修正、协议生成和实验推理五大任务模块，全面检验语言模型对生物实验流程的理解深度。数据涵盖16个生物子领域，从分子生物学到细胞培养技术，呈现丰富的专业术语和复杂实验流程。评价体系尤为突出，不仅包含标准NLP指标，更开发了针对生物协议特性的定制化评估维度，如步骤召回率和冗余惩罚机制等。

使用方法

使用该数据集需遵循其分层评估框架。研究人员可首先利用原始协议库进行预训练或检索系统开发，随后在结构化任务数据上进行微调。评估阶段需调用专用评测脚本，如GEN.py用于协议生成任务的BLEU值计算，ERR.py则执行错误修正任务的精确率/召回率分析。使用前需将模型输出转换为指定JSON格式并修改脚本中的文件路径参数。值得注意的是，不同任务需要采用差异化的预处理策略，例如步骤排序任务需保留实验步骤的时序标记，而推理任务则需维持原始协议中的条件逻辑关系。

背景与挑战

背景概述

BioProBench数据集由Yuyang Liu等研究人员于2025年创建，是首个专注于生物实验协议理解与推理的大规模多任务基准测试集。该数据集源于对生命科学研究中实验协议这一核心载体的深度需求，旨在解决大型语言模型在专业生物医学文本处理中的系统性评估缺失问题。数据集整合了来自6大知名生物数据库的27,000份原始实验协议，通过结构化处理构建了涵盖问答、步骤排序、错误修正等5项核心任务的556,000个高质量实例，覆盖16个生物学子领域。其创新性地将自然语言处理技术与生物实验流程的时序性、条件性特征相结合，为AI辅助实验自动化研究提供了重要基础设施。

当前挑战

BioProBench面临双重技术挑战：在领域问题层面，生物实验协议具有严格的时序逻辑和专业术语体系，要求模型同时具备表面语义理解和深层流程推理能力，现有模型在步骤排序任务中的准确率不足50%；在构建过程中，需解决原始协议非结构化（如PDF/图像格式）的语义解析难题，以及跨子领域术语标准化问题。数据集通过设计基于关键词嵌入和肯德尔相关系数的混合评估指标，显著提升了生物流程特异性评估的精确度，但模型在生成连贯实验步骤（BLEU值<15%）和错误修正（F1值约64%）方面仍存在显著提升空间。

常用场景

经典使用场景

在生物信息学领域，BioProBench数据集为大型语言模型（LLMs）提供了全面的生物协议理解和推理评估框架。该数据集通过五个核心任务（协议问答、步骤排序、错误纠正、协议生成和协议推理），系统地测试模型在复杂生物实验流程中的表现。研究人员可利用该数据集评估模型对生物协议中时间依赖性和条件逻辑的掌握程度，为模型优化提供明确方向。

解决学术问题

BioProBench解决了生物医学文本处理领域的关键挑战，包括LLMs在程序性文本理解方面的系统性评估缺失问题。通过构建包含27K原始协议的大规模数据集，该资源填补了生物实验流程这类高专业性、高精确度要求的文本评估空白。其多任务设计使研究者能够量化模型在协议生成、错误检测等核心能力上的表现，推动了生物医学自然语言处理的发展。

衍生相关工作

BioProBench的发布催生了多个重要研究方向。基于该数据集，研究者开发了生物协议专用预训练模型BioBERT-Protocol，在步骤排序任务上取得显著提升。微软研究院提出的Procedural-GPT通过引入时序注意力机制，将协议生成的BLEU分数提高了18%。此外，该数据集还支持了《自然-机器智能》期刊报道的跨模态协议理解系统开发，实现了文本协议与实验视频的关联分析。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集