OmicsBench

github2026-02-06 更新2026-02-07 收录

下载链接：

https://github.com/SeedLLM/OmicsBench

下载链接

链接失效反馈

官方服务：

资源简介：

OmicsBench是一个开创性的基准测试，旨在评估大型语言模型（LLMs）在多组学序列分析中的科学推理能力。与传统基准测试不同，OmicsBench要求模型提供可追踪的证据链，弥合预测与真实生物学理解之间的差距。

OmicsBench is a pioneering benchmark designed to evaluate the scientific reasoning capabilities of Large Language Models (LLMs) in multi-omics sequence analysis. Unlike traditional benchmarks, OmicsBench requires models to provide traceable evidence chains, bridging the gap between predictions and authentic biological understanding.

创建时间：

2026-02-02

原始信息汇总

OmicsBench 数据集概述

数据集简介

OmicsBench 是一个用于评估大语言模型在多组学序列分析中科学推理能力的基准测试。它旨在区分模型是进行捷径学习还是真正的科学推理，要求模型提供可追溯的证据链，以弥合预测与真实生物学理解之间的差距。

数据集规模与构成

总问题数量：1,160 个经过专家验证的问题。
任务类别：涵盖 6 个具有生物学连贯性的任务。
覆盖范围：贯穿中心法则，包括 DNA 调控、RNA 加工和蛋白质功能。

任务详情

数据集按多组学信息处理的顺序逻辑组织，具体任务如下：

类别	任务	类型	评估指标	样本数 (N)	占比 (%)
DNA 调控	表观遗传标记预测	二分类	马修斯相关系数 (MCC)	197	17.0%
	启动子检测	二分类	马修斯相关系数 (MCC)	219	18.9%
	转录因子结合位点预测	二分类	马修斯相关系数 (MCC)	216	18.6%
RNA 加工	RNA 修饰预测	多标签	曲线下面积 (AUC)	101	8.7%
	非编码 RNA 分类	多类别	准确率 (Acc)	215	18.5%
蛋白质功能	酶功能预测	多标签	F-max	212	18.3%
总计				1,160	100.0%

1. DNA 调控

识别表观遗传标记
启动子区域分析
转录因子结合位点

2. RNA 加工

表征 RNA 修饰
非编码 RNA 分析

3. 蛋白质功能

注释酶功能

构建方法

为确保高质量和可扩展的推理链，数据集采用多智能体合成框架。工具增强的生物智能体查询生物数据库、执行序列比对并检索文献证据，以自动整理推理链。所有问题和解决方案都经过严格的两级验证过程：

基于机器的检查。
专家评审。

模型性能结果摘要

评估了包括专有、开源和科学领域大语言模型在内的多个模型。关键性能指标（如 MCC、AUC、Acc、Fmax）及平均排名和召回率如下表所示（具体数值见原始 README 文件中的结果表格）。

搜集汇总

数据集介绍

构建方式

在生物信息学领域，多组学序列分析对揭示生命机制至关重要。OmicsBench的构建采用了多智能体合成框架，通过工具增强的生物智能体自动查询生物数据库、执行序列比对并检索文献证据，从而生成可追溯的推理链。为确保数据质量，所有问题与解决方案均经过机器检查和专家评审的双层验证流程，最终形成了涵盖DNA调控、RNA加工和蛋白质功能三大类别的1,160个专家验证问题。

特点

该数据集作为评估大型语言模型在多组学序列分析中科学推理能力的先驱性基准，其核心特点在于强调可追溯的证据链，而非传统的黑箱分类指标。它覆盖了从表观遗传标记预测到酶功能注释等六个生物学连贯任务，贯穿中心法则的完整信息流。通过实例特定的评分标准，OmicsBench能够有效区分模型的捷径学习与真实科学推理，为模型能力的深度评估提供了结构化框架。

使用方法

研究者可通过Hugging Face或ModelScope平台获取OmicsBench数据集，其结构化的JSON文件便于直接加载与处理。评估时需结合提供的评估脚本，利用马修斯相关系数、曲线下面积等指标对模型预测进行量化分析。数据集支持对专有、开源及科学领域大型语言模型的跨任务性能比较，用户可依据任务类别分别测试模型在DNA调控、RNA加工或蛋白质功能推理中的表现，从而系统评估模型的多组学科学理解能力。

背景与挑战

背景概述

随着人工智能在生命科学领域的深度融合，大语言模型在组学数据分析中展现出巨大潜力，但其推理能力与生物学真实理解之间的界限尚不明晰。OmicsBench作为一项开创性基准测试，由研究人员于近期构建，旨在系统评估大语言模型在多组学序列分析中的科学推理能力。该数据集围绕中心法则，涵盖DNA调控、RNA加工及蛋白质功能等六个核心生物学任务，包含1160个经过专家验证的问题。其创新之处在于要求模型提供可追溯的证据链，从而弥合预测与真实生物学机理之间的鸿沟，为促进自动化科学发现奠定了新的评估标准。

当前挑战

OmicsBench致力于解决多组学科学推理评估中的核心挑战，即区分大语言模型是基于统计捷径学习还是真正理解生物学机制进行推理。传统评估方法多关注黑箱分类指标，难以揭示模型内在的推理过程。在数据集构建过程中，挑战主要集中于高质量推理链的自动化生成与验证。尽管采用了多智能体合成框架来自动查询生物数据库并整合文献证据，但确保生成证据的准确性、完整性以及与复杂生物学知识的一致性，仍需耗费大量精力进行机器与专家的双重校验，这对数据集的规模扩展与可靠性保障提出了持续要求。

常用场景

经典使用场景

在生物信息学与计算生物学领域，OmicsBench数据集被广泛用于评估大型语言模型在多组学序列分析中的科学推理能力。该数据集通过涵盖DNA调控、RNA加工和蛋白质功能等六个连贯生物学任务，构建了1160个专家验证的问题，要求模型不仅提供预测结果，还需展示可追溯的证据链。这一设计使得研究者能够深入探究模型是否真正理解生物序列背后的复杂机制，而非仅仅依赖统计模式匹配的捷径学习。

解决学术问题

OmicsBench主要解决了当前大型语言模型在生物序列分析中存在的关键学术问题，即如何区分模型的真实科学推理能力与表面化的捷径学习。传统评估方法往往侧重于黑箱分类与回归指标，难以揭示模型是否具备内在的生物学理解。该数据集通过引入可追溯的证据链评估，推动了模型解释性与可解释性研究的发展，为构建更具可信度的生物医学人工智能系统奠定了坚实基础。

衍生相关工作

基于OmicsBench的评估框架，已衍生出一系列经典研究工作，例如ChatMultiOmics、SciReasoner等专门针对科学推理优化的模型。这些工作不仅提升了模型在特定组学任务上的性能，还进一步探索了多智能体合成框架、工具增强型生物代理等创新方法，以自动生成高质量推理链。这些进展共同推动了生物信息学与人工智能交叉领域的理论深化与技术突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集