BIOME-Bench

github2025-12-30 更新2026-01-06 收录

下载链接：

https://github.com/DYJG-research/BIOME-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

BIOME-Bench是一个基于文献的评估框架，用于评估大型语言模型在两个核心能力上的表现：生物分子相互作用推理（BII）和端到端多组学通路机制阐明（MPME）。它通过严格的文献检索和验证过程构建，旨在解决通路富集分析中的瓶颈问题，如知识库更新滞后、功能冗余和上下文不敏感等。

BIOME-Bench is a literature-based evaluation framework for assessing the performance of large language models (LLMs) across two core capabilities: Biomolecular Interaction Inference (BII) and end-to-end multi-omics pathway mechanism elucidation (MPME). It is constructed through a rigorous literature retrieval and validation process, and is designed to address bottlenecks in pathway enrichment analysis, such as lagging knowledge base updates, functional redundancy, and context insensitivity.

创建时间：

2025-12-29

原始信息汇总

BIOME-Bench 数据集概述

一、数据集简介

BIOME-Bench 是一个基于文献的评估框架，用于评估大型语言模型在以下两个核心能力上的表现：

生物分子相互作用推断
端到端多组学通路机制阐明

该数据集旨在解决当前通路富集分析在解释多组学数据时面临的瓶颈，如知识库更新延迟、功能冗余和上下文不敏感等问题，并填补了评估模型从多组学扰动观察中直接推断连贯、因果机制链能力的标准化基准空白。

二、数据构建流程

数据构建通过四个严谨的阶段，将通路信息和文献证据转化为结构化的、经过验证的知识表示。

阶段 I：文献检索与相关性过滤

检索基础：针对预定义的KEGG通路集合，使用医学主题词表在PubMed数据库中进行结构化文献检索。
相关性评分：使用基于LLM的语义评估器，从主题聚焦、物种匹配、分子实体提及和通路调控描述四个维度对文献进行评分。仅保留评分高于严格阈值（α = 8）的文献，确保文献以目标通路为核心并包含明确的分子和调控证据。

阶段 II：信息提取与实体标准化

信息提取：使用LLM处理相关文献摘要，提取原始生物实体集和描述分子相互作用及调控机制的自然语言解释文本。
实体标准化：将原始实体映射到规范标识符（化学实体映射至PubChem CID，基因/蛋白质映射至NCBI Gene或UniProt编号）。仅保留所有实体均能成功标准化的文献。

阶段 III：知识结构化与验证

核心结构提取：从机制描述文本中提取核心相互作用四元组（源实体、关系、目标实体、生物条件）。
生物状态标注：进一步标注实体特异性生物状态，形成状态感知的六元组表示，以区分细微的机制差异。
专家验证：由分子生物学和系统生物学领域的专家对构建的知识图谱条目进行人工抽样验证，确保其准确性和文献依据。

阶段 IV：BIOME-Bench任务制定

基于构建和验证的知识表示，定义了两个互补的评估任务：

任务A：生物分子相互作用推断：评估LLM在通路上下文中推断精确分子关系的能力。模型需根据给定的通路、源实体（及状态）、目标实体（及状态）和生物条件，从受控词汇表中预测正确的相互作用关系。
任务B：多组学通路机制阐明：模拟真实的组学驱动的通路分析场景。模型需根据给定的通路上下文和一组差异观察到的实体，生成一个连贯的机制解释，阐明这些实体在给定通路上下文中的生物相互作用、调控关系和分子过程。

三、基准统计信息

BIOME-Bench是一个多物种基准，涵盖人类、小鼠和大鼠三种常用模式生物。

物种	通路数量	实体数量	过程与表型术语数量	任务A实例数	任务B实例数
`hsa` (人类)	80	1,349	1,781	4,032	490
`mmu` (小鼠)	80	1,356	1,860	4,162	496
`rno` (大鼠)	80	1,141	1,265	3,384	361
总计	240	3,846	4,906	11,578	1,347

四、评估协议与指标

任务A：生物分子相互作用推断

使用准确率和宏平均F1分数进行评估。

任务B：多组学通路机制阐明

采用多维评估策略：

LLM即评委：使用Qwen3-32B作为评委模型，从表型覆盖度、因果推理、事实性和幻觉控制四个维度（1-5分）对生成的解释进行评分。
结构化知识评估：基于文献衍生的知识图谱，采用闭集协议。使用Qwen3-32B作为提取模型，仅允许从标准化知识图谱中选择的元组来支持生成的解释。通过覆盖率衡量事实完整性。
语义嵌入相似度：计算生成解释与参考机制文本的向量嵌入之间的余弦相似度。

五、实验模型与结果摘要

数据集评估了多款大型语言模型的性能，关键结果摘要如下：

任务A（生物分子相互作用推断）：表现最佳的模型在准确率上达到55.42%（Doubao-Seed-1.8），在宏平均F1分数上达到50.70%（GPT-5.2）。
任务B（多组学通路机制阐明）：Intern-S1-235B模型在综合平均得分上表现最佳，达到73.24。
总体趋势：结果表明，模型倾向于将细粒度的生物机制坍缩为粗略的因果或调控关系，并且在区分直接调控与通路水平因果关系方面存在困难。对未明确关系的过度解释以及有限的细粒度辨别能力反映了当前模型在处理复杂生物逻辑方面的局限性。

六、数据访问与使用

数据集详情页面地址：https://github.com/DYJG-research/BIOME-Bench 用户可通过克隆代码仓库、安装依赖、配置模型端点后，运行演示脚本或完整评估流程来使用该基准。

搜集汇总

数据集介绍

构建方式

在生物信息学领域，多组学数据整合与通路机制解析正面临知识库更新滞后与上下文敏感性不足的挑战。BIOME-Bench的构建采用四阶段结构化流程：首先通过MeSH术语引导的文献检索与LLM语义评分，从PubMed获取高相关性的通路机制文献；随后利用大语言模型提取分子实体与机制描述，并通过PubChem与MyGene.info进行实体标准化映射；进而将信息转化为包含生物状态注释的知识图谱四元组表示，并经过领域专家人工验证以确保数据可靠性；最终基于验证后的知识表示，设计生物分子交互推断与多组学通路机制阐释两项核心评测任务。

使用方法

研究人员可通过配置化的流程便捷使用该数据集进行模型能力评估。使用前需配置评估模型、评判模型与嵌入模型的API端点参数，通过运行演示脚本快速验证流程完整性。正式评估支持两种模式：针对生物分子交互推断任务，模型需在给定通路上下文与实体状态下预测标准化关系类型；针对多组学通路机制阐释任务，模型需根据差异表达实体集合生成连贯的机制解释。评估系统提供自动化流水线，支持单命令全数据集评测与分阶段手动执行，并输出包含准确率、宏F1值、语义相似度与知识覆盖度等指标的综合性性能报告。

背景与挑战

背景概述

在系统生物学与计算生物学的交叉领域，多组学数据整合分析已成为解析复杂生命系统与疾病机制的核心范式。传统的通路富集分析方法虽广泛应用，却长期面临知识库更新滞后、功能冗余度高以及上下文信息缺失等瓶颈，难以捕捉动态、因果关联的分子调控网络。为应对这一挑战，BIOME-Bench应运而生，作为一个基于文献构建的评估框架，旨在系统评测大语言模型在生物分子相互作用推断与多组学通路机制阐明两大核心任务上的能力。该数据集通过严谨的文献检索、信息抽取与知识结构化流程，构建了涵盖人类、小鼠和大鼠三大物种共240条通路的标准化知识图谱，为推进人工智能在生物医学机制发现中的应用提供了关键基准。

当前挑战

BIOME-Bench所针对的核心挑战在于提升多组学数据解释的准确性与机制连贯性。传统通路分析工具常受限于静态知识库，无法及时整合新发现的分子互作或特定情境下的调控关系，导致分析结果冗余且缺乏因果逻辑。在数据集构建过程中，挑战同样显著：首先，从海量生物医学文献中精准筛选出与特定通路机制高度相关的证据需要结合MeSH术语检索与大语言模型语义评分，以确保数据的生物学有效性；其次，生物实体命名多样性与异构数据源的整合要求严格的标准化与本体映射，任何标识符解析失败都会导致数据丢弃；最后，将非结构化的自然语言描述转化为状态感知的分子交互六元组表示，并经过领域专家人工验证，这一过程对知识的粒度与一致性提出了极高要求。

常用场景

经典使用场景

在系统生物学与计算生物信息学领域，BIOME-Bench数据集为评估大型语言模型在生物分子交互推理与多组学通路机制阐释方面的能力提供了标准化基准。其经典使用场景聚焦于模拟真实的多组学数据分析流程，研究人员通过输入观测到的扰动实体与特定通路背景，要求模型生成连贯且具有因果逻辑的机制性解释，从而评估模型能否超越传统的富集分析方法，直接推断分子间的状态感知交互关系。

解决学术问题

该数据集有效应对了传统通路富集分析面临的三大瓶颈：知识库更新滞后、功能冗余性以及上下文不敏感性。通过构建基于文献的结构化知识图谱，BIOME-Bench使得研究者能够量化评估模型在捕捉精细分子状态、干预方向性及多跳因果结构方面的性能，从而推动生物机制解释从静态关联向动态因果推理的范式转变，为计算生物学中可解释人工智能的发展奠定了实证基础。

实际应用

在实际应用中，BIOME-Bench可直接服务于药物靶点发现、疾病机制解析及精准医疗研究。例如，在肿瘤多组学数据分析中，研究人员可利用该基准测试模型从差异表达的基因、蛋白质和代谢物中推断出驱动肿瘤发展的关键调控通路及其分子相互作用网络，辅助生成假设并指导后续实验验证，显著提升生物医学研究的效率与可靠性。

数据集最近研究