BIOME-Bench

Name: BIOME-Bench
Creator: 北京文格科技有限公司; 中国中医科学院实验研究中心; 中国科学院·自动化研究所; 天津大学·智能与计算学部; 齐鲁工业大学（山东省科学院）; 天津大学·新媒体与传播学院; 中国科学院大学·人工智能学院
Published: 2025-12-31 17:01:27
License: 暂无描述

arXiv2025-12-31 更新2026-01-05 收录

下载链接：

https://github.com/DYJG-research/BIOME-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

BIOME-Bench是一个专注于生物分子相互作用推断和多组学通路机制阐释的文献基准数据集，由北京文格科技有限公司、中国中医科学院等机构联合构建。该数据集通过四阶段严谨工作流程构建，涵盖代谢组学、蛋白质组学等多元分子数据，并基于KEGG通路和PubMed文献证据生成结构化知识表示。其核心内容包括标准化生物实体（化学物质、基因等）、分子状态注释及通路级表型关联，旨在支持大语言模型在无外部检索条件下生成状态感知的机制解释。数据集主要应用于生物医学多组学分析领域，解决通路富集方法存在的冗余性、语境不敏感等局限性，为端到端通路机制推理提供标准化评估框架。

提供机构：

北京文格科技有限公司; 中国中医科学院实验研究中心; 中国科学院·自动化研究所; 天津大学·智能与计算学部; 齐鲁工业大学（山东省科学院）; 天津大学·新媒体与传播学院; 中国科学院大学·人工智能学院

创建时间：

2025-12-31

搜集汇总

数据集介绍

构建方式

在生物信息学领域，构建高质量基准数据集对于评估大语言模型在复杂生物机制推理中的能力至关重要。BIOME-Bench的构建遵循一个严谨的四阶段工作流程：首先基于KEGG通路信息，通过MeSH术语引导的PubMed文献检索获取候选文献；随后利用大语言模型进行语义与机制相关性评分，筛选出与目标通路高度相关且包含明确分子证据的文献；接着通过大语言模型从文献摘要中提取标准化实体集与机制描述文本，并借助PubChem、UniProt等公共数据库进行实体规范化映射；最终，通过交互四元组提取与生物状态标注，将文本信息转化为结构化的、状态感知的知识图谱表示，并辅以人类专家抽样验证以确保数据的准确性与可靠性。

使用方法

在应用层面，BIOME-Bench为评估大语言模型在生物医学领域的推理能力提供了标准化框架。对于生物分子交互推断任务，模型在给定通路上下文、源实体与目标实体及其状态的条件下，需要从预定义的关系词汇表中预测正确的交互关系，评估指标包括准确率与宏F1分数。对于端到端多组学通路机制阐释任务，模型接收一组源自多组学测量的扰动实体以及相关的通路背景描述，必须生成连贯的、状态一致的机制解释，而无需依赖外部检索或图谱遍历。该任务的评估采用多维度策略，包括基于大语言模型的评判员从表型覆盖、因果推理、事实性与幻觉控制四个维度进行评分，以及结构化的知识图谱覆盖度计算和语义嵌入相似性度量，从而全面衡量生成解释的机制正确性与完整性。

背景与挑战

背景概述

随着多组学技术在复杂生物系统与疾病机制研究中的核心地位日益凸显，将异质性分子信号转化为连贯且具有因果基础的生物学解释成为关键瓶颈。传统的通路富集分析方法受限于知识库的更新延迟、功能冗余以及对分子状态与干预方向的不敏感性。在此背景下，由北京文格科技有限公司、中国中医科学院实验研究中心、中国科学院自动化研究所等机构的研究团队于2025年共同提出了BIOME-Bench基准数据集。该数据集旨在评估大型语言模型在多组学分析中的两大核心能力：生物分子相互作用推理与端到端多组学通路机制阐释。其构建基于严谨的四阶段工作流程，从KEGG通路与生物医学文献中提取并验证结构化知识，为相关领域提供了首个标准化的、基于文献证据的评估框架，推动了从观测数据到机制假说的可重复性研究进展。

当前挑战

BIOME-Bench所应对的核心领域挑战在于如何从多组学观测数据中实现端到端的通路机制阐释。这要求模型不仅需要区分细粒度的生物分子关系类型，还需在仅给定一组受扰动实体和通路背景的条件下，生成忠实、连贯且包含分子状态与因果结构的机制解释，而非简单的叙事拼接。在数据集构建过程中，研究者面临多重挑战：首先，需要从海量文献中精准检索并筛选出与特定通路高度相关且包含明确机制证据的论文，这涉及复杂的语义与机制相关性评估；其次，从非结构化的文献摘要中准确提取实体、关系、分子状态及条件信息，并将其标准化为可互操作的知识表示，对信息抽取的精度提出了极高要求；最后，为确保基准的高置信度，需通过人工专家抽样验证来建立可靠的黄金标准，整个过程需平衡自动化流程的效率与人工验证的准确性。

常用场景

经典使用场景

在生物信息学领域，多组学数据分析常面临从异质分子变化中推导连贯机制解释的挑战。BIOME-Bench作为专门构建的基准数据集，其经典使用场景在于评估大型语言模型在生物分子相互作用推理和端到端多组学通路机制阐明任务上的核心能力。该数据集通过严谨的四阶段工作流程构建，将通路信息与生物医学文献证据转化为结构化知识表示，为模型提供了在给定通路背景和扰动实体条件下生成状态感知、因果一致的机制解释的标准测试平台。

解决学术问题

BIOME-Bench主要解决了多组学研究中通路富集分析方法的固有局限，如知识库更新滞后、功能冗余以及对分子状态和干预方向性不敏感等问题。该数据集通过提供文献接地的实例级监督，使得研究者能够系统评估模型在无需外部检索或图遍历的情况下，直接根据扰动实体和通路背景生成忠实、鲁棒的通路级机制解释的能力。这填补了现有生物医学基准在端到端多组学机制阐明任务评估上的空白，推动了该领域可重复研究的进展。

实际应用

在实际应用中，BIOME-Bench能够支持药物发现和疾病机制研究等关键生物医学领域。例如，在药物靶点识别和验证过程中，研究人员可利用该基准评估的模型能力，从复杂的多组学观测数据（如蛋白质组学、代谢组学）中自动推断出候选药物如何通过影响特定信号通路（如NF-κB或PI3K-Akt通路）来产生治疗效应或副作用。这有助于加速从高通量实验数据到可验证生物学假设的转化，提升精准医疗中的机制解读效率和可靠性。

数据集最近研究