MetaBench

Name: MetaBench
Creator: 乔治亚理工学院
Published: 2025-10-17 01:55:14
License: 暂无描述

arXiv2025-10-17 更新2025-10-18 收录

下载链接：

https://www.arxiv.org/abs/2510.14944

下载链接

链接失效反馈

官方服务：

资源简介：

MetaBench是一个全面的基准测试，旨在系统地评估LLMs在代谢组学领域的各项能力。该数据集由来自权威公共资源的数据组成，评估了五个对代谢组学研究至关重要的能力：知识、理解、基础、推理和研究。MetaBench的数据集由来自HMDB、KEGG、PathBank、MetaKG和MetaboLights等权威资源的数据组成，共包含约8,000个测试用例。

MetaBench is a comprehensive benchmark designed to systematically evaluate the capabilities of Large Language Models (LLMs) in the field of metabolomics. This benchmark is constructed using data from authoritative public resources, and evaluates five core capabilities critical to metabolomics research: Knowledge, Comprehension, Fundamentals, Reasoning, and Research. The dataset of MetaBench is compiled from authoritative resources including HMDB, KEGG, PathBank, MetaKG, and MetaboLights, and contains approximately 8,000 test cases in total.

提供机构：

乔治亚理工学院

创建时间：

2025-10-17

原始信息汇总

MetaBench: A Multi-task Benchmark for Assessing LLMs in Metabolomics

基本信息

标题: MetaBench: A Multi-task Benchmark for Assessing LLMs in Metabolomics
arXiv ID: arXiv:2510.14944
提交日期: 2025年10月16日
学科分类: Computer Science - Computation and Language (cs.CL)
相关学科: Artificial Intelligence (cs.AI), Computational Engineering, Finance, and Science (cs.CE)
DOI: https://doi.org/10.48550/arXiv.2510.14944

作者信息

作者: Yuxing Lu, Xukai Zhao, J. Ben Tamo, Micky C. Nnamdi, Rui Peng, Shuang Zeng, Xingyu Hu, Jinzhuo Wang, May D. Wang
作者数量: 9人

论文规格

页数: 22页
图表: 6张图，4张表

研究概述

研究背景

大型语言模型（LLMs）在通用文本处理方面表现出卓越能力，但在需要深入、互连知识的专业科学领域中的熟练程度仍未充分表征。代谢组学因其复杂的生化途径、异构标识符系统和碎片化数据库而面临独特挑战。

基准介绍

MetaBench是首个用于代谢组学评估的基准，从权威公共资源中精心策划，评估代谢组学研究的五个基本能力：

知识
理解
基础
推理
研究

评估结果

对25个开源和闭源LLMs的评估揭示了代谢组学任务中的不同性能模式：

模型在文本生成任务上表现良好
跨数据库标识符基础即使使用检索增强仍然具有挑战性
模型在稀疏注释的长尾代谢物上性能下降

研究意义

MetaBench为开发和评估代谢组学AI系统提供了必要的基础设施，为实现可靠的代谢组学研究计算工具的系统性进展奠定了基础。

资源链接

PDF文档: https://www.arxiv.org/pdf/2510.14944
HTML文档: https://www.arxiv.org/html/2510.14944
TeX源码: https://www.arxiv.org/format/2510.14944
BibTeX引用: https://www.arxiv.org/bibtex/2510.14944

搜集汇总

数据集介绍

构建方式

MetaBench作为首个代谢组学领域的大语言模型评估基准，其构建过程体现了严谨的科学方法论。该数据集从六大权威代谢组学资源中系统整合数据，包括人类代谢组数据库（HMDB）、京都基因与基因组百科全书（KEGG）、PathBank通路数据库、MetabolitesID映射资源、MetaKG知识图谱以及MetaboLights数据仓库。通过精心设计的任务框架，构建团队从这些资源中提取了约8,100个测试样本，涵盖知识检索、描述生成、标识符映射、知识推理和科学研究五大核心能力维度。每个任务都采用标准化的构建流程，例如在知识型多选题构建中，从26个代谢物属性中生成2,500道四选项题目，确保领域相关性和评估准确性。

特点

MetaBench数据集展现出多维度特征优势，其任务设计深度契合代谢组学研究需求。该基准通过分层评估框架系统考察模型能力，从基础的事实性知识回忆到复杂的科研文本生成，形成了完整的能力评估阶梯。数据集特别突出了代谢组学特有的挑战，如跨数据库标识符映射的精确性要求，以及长尾代谢物知识稀疏性问题。在统计特征上，样本分布均衡且覆盖全面，知识任务和科研任务分别包含2,500和2,125个样本，而理解和研究任务因涉及段落级输出，平均标记长度分别达到166和223个标记。这种设计确保了评估的广度和深度，能够全面反映模型在代谢组学领域的实际应用潜力。

使用方法

MetaBench的使用遵循标准化的评估协议，针对不同任务类型采用相应的度量指标。对于分类任务包括知识多选题、标识符映射和三元组提取，采用精确匹配准确率进行评估；生成任务如通路描述生成和研究描述生成，则使用基于RoBERTa的BERTScore衡量语义相似度。评估过程中，闭源模型通过官方API进行推理，开源模型则在H200 GPU集群上使用vLLM框架进行本地部署。所有模型采用统一的推理设置：温度参数设为0.1以确保输出确定性，最大生成长度限制为4,096个标记，并禁用思考模式以保证公平比较。每个任务都配备专门设计的系统提示，明确指定输出格式和评估标准，确保模型响应与度量指标的一致性。

背景与挑战

背景概述

MetaBench于2025年由佐治亚理工学院、北京大学及清华大学等机构的研究团队联合推出，作为首个专注于代谢组学领域的大语言模型评估基准。该数据集旨在系统评估大语言模型在复杂生物化学知识体系中的核心能力，填补了代谢组学领域缺乏标准化评估工具的空白。通过整合人类代谢组数据库、KEGG通路数据库等权威资源，MetaBench构建了涵盖知识检索、跨数据库标识符映射等五类能力的评估框架，为代谢组学人工智能系统的开发提供了关键基础设施。

当前挑战

该数据集主要面临两大挑战：在领域问题层面，需解决代谢组学特有的异构标识符系统整合难题，例如同一代谢物在KEGG、HMDB等数据库中采用不同命名体系导致的语义对齐困难；在构建过程中，需要克服生物化学知识碎片化带来的数据融合挑战，包括从非结构化文献中提取标准化知识三元组，以及平衡早期发现的核心代谢物与长尾代谢物的标注密度差异问题。

常用场景

经典使用场景

在代谢组学这一高度专业化的生物医学领域中，MetaBench作为首个系统性评估基准，其经典应用场景主要聚焦于全面衡量大语言模型在代谢物知识理解、通路描述生成、跨数据库标识符映射等核心任务上的表现。该数据集通过整合人类代谢组数据库、京都基因与基因组百科全书等权威资源，构建了涵盖知识、理解、接地、推理和研究五个能力维度的评估框架，为研究社区提供了标准化测试平台。

实际应用

在实际应用层面，MetaBench为代谢组学研究提供了关键的基础设施支持。生物医学研究人员可借助该基准筛选适合特定任务的大语言模型，临床诊断系统开发者能据此评估模型在代谢物识别和通路分析中的可靠性，制药企业则可利用其指导药物代谢相关的人工智能工具开发。该数据集还促进了跨学科合作，为计算生物学与实验科学的深度融合搭建了桥梁。

衍生相关工作

基于MetaBench评估框架，研究社区已衍生出多项重要工作。其中包括开发专门针对代谢组学领域的领域自适应预训练方法，构建结合检索增强技术的标识符解析系统，以及设计面向长尾代谢物的主动学习策略。这些衍生工作不仅扩展了原始数据集的应用边界，还推动了代谢组学人工智能从通用模型向专业化工具的演进，为构建下一代智能代谢分析平台奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集