Adjuvant Benchmark

github2026-02-26 更新2026-02-28 收录

下载链接：

https://github.com/banjiuyufen/Adjuvant-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

辅助剂在调节免疫反应中起着关键作用，是疫苗和免疫疗法开发的核心。然而，该领域的进展受到数据稀缺和对作用机制理解不完整的限制，这限制了从基于经验的设计到AI驱动方法的转变。为了解决这些挑战，我们提出了第一个专门用于辅助剂的基准，以开放式问答形式构建并由领域专家注释。该基准包含1,294个问答对和1,364个正式描述，为评估通用多模态大型语言模型（MLLMs）和开发领域特定系统提供了资源。

Adjuvants play a critical role in modulating immune responses and are central to the development of vaccines and immunotherapies. However, progress in this field is limited by data scarcity and incomplete understanding of their mechanisms of action, which hinders the transition from empirical design to AI-driven approaches. To address these challenges, we present the first benchmark specifically dedicated to adjuvants, which is constructed in the form of open-ended question-answer pairs and annotated by domain experts. This benchmark contains 1,294 question-answer pairs and 1,364 formal descriptions, providing a resource for evaluating general-purpose multimodal large language models (MLLMs) and developing domain-specific systems.

创建时间：

2026-02-26

原始信息汇总

Adjuvant-Benchmark 数据集概述

数据集基本信息

数据集名称：Adjuvant-Benchmark
发布状态：官方基准数据集和完整评估代码库正在进行最终完善，将在ICLR 2026会议结束后于本仓库完全开源发布。
相关论文：已被ICLR 2026接受。

数据集目的与意义

旨在解决佐剂研究领域数据稀缺和作用机制理解不完整的问题，推动从经验设计向AI驱动方法的转变。
是首个专门针对佐剂研究的基准，以开放式问答格式构建，并由领域专家标注。
为评估通用多模态大语言模型（MLLMs）和开发领域专用系统提供资源。
通过引入形式化描述框架，将佐剂设计原则和免疫机制表示为结构化抽象，为未来领域专用MLLMs提供构建模块。

数据集构成与规模

总体构成

开放式问答对：1,294对
形式化描述：1,364条
幻觉数据：69条（用于评估MLLMs识别和拒绝幻觉的能力）

详细分布

基准数据分布

类别	开放式问答	幻觉数据	佐剂形式化数据
数量	1294	69	1364

生成问答数据的MLLMs分布

模型	DeepSeek-R1	GPT-4o	Claude3.5-Sonnet	Ernie4.0-Turbo
数量	559	471	143	121

开放式问答数据分布

数据类型	基础知识	高级知识	生物学原理	设计与安全
数量	221	1073	846	227

幻觉数据分布

数据类型	问题	答案	重叠	总计
数量	27	54	12	69

佐剂形式化数据分布

总数：1,364条
佐剂设计：682条
佐剂激活与免疫过程：682条

评估框架与实验结果

评估模型

系统评估了11个闭源和18个开源MLLMs。
评估维度包括领域特定问答、幻觉拒绝、数据生成和指令遵循。

主要评估结果

在闭源模型中，OpenAI-o1表现最强（STS = 0.7495， LLM Score = 7.7）。
在开源模型中，DeepSeek-R1表现最强（STS = 0.7415， LLM Score = 7.7）。

评估指标

语义文本相似度（STS）
BERT Score
LLM Score（由GPT-4o和DeepSeek-R1生成，包含相似性评分、科学合理性评分和包容性评分）
幻觉拒绝率（HRR）

数据生成与构建流程

通过整理高质量学术资源并利用多个先进的MLLMs构建领域特定的评估套件。
生成流程可适应其他科学领域的数据生成任务（通过修改提示词）。

相关资源链接

数据集仓库地址：https://github.com/banjiuyufen/Adjuvant-Benchmark
图1：MLLMs在佐剂基准上的综合评估：https://github.com/banjiuyufen/Adjuvant_benchmark/blob/main/img/Comprehensive%20Evaluation%20of%20MLLMs%20on%20the%20Adjuvant%20Benchmark.png
图2：概述（构建流程）：https://github.com/banjiuyufen/Adjuvant_benchmark/blob/main/img/pipeline.png
图3：佐剂基准分布：https://github.com/banjiuyufen/Adjuvant_benchmark/blob/main/img/Distribution%20of%20the%20Adjuvant%20Benchmark.png
图4：生成任务中MLLMs的主观评估：https://github.com/banjiuyufen/Adjuvant_benchmark/blob/main/img/generation2.png

搜集汇总

数据集介绍

构建方式

在免疫学与佐剂研究领域，数据稀缺与机制理解不完整长期制约着人工智能驱动的设计范式转型。为应对这一挑战，Adjuvant Benchmark采用开放式问答格式构建，其数据生成过程融合了领域专家的深度参与。研究团队首先从权威教科书与同行评议文献中精选高质量学术资源，涵盖基础与高级知识主题，随后利用多种前沿多模态大语言模型生成初始问答对。生成的数据经过专家严格审查与标注，确保科学准确性，并特别保留了经判定为错误的幻觉数据，形成专门用于评估模型拒斥幻觉能力的子集。此外，团队还设计了形式化描述框架，将复杂的佐剂设计原则与免疫机制转化为结构化变量与函数，通过模板化提示词引导模型生成形式化条目，最终构建出包含1294个问答对与1364个形式化描述的综合数据集。

特点

该数据集在佐剂研究领域展现出鲜明的特色，其核心在于首次构建了专用于评估多模态大语言模型的开放式基准。数据集内容结构多元，不仅包含评估模型知识掌握程度的开放式问答，还创新性地引入了用于检验模型幻觉识别能力的专门子集，以及将生物过程抽象为可计算形式的形式化描述数据。这种多维度的设计使得评估能够覆盖知识问答、幻觉拒斥、数据生成与指令遵循等多个关键维度。数据来源兼具权威性与前沿性，基础部分根植于经典教材，高级部分则聚焦于生物原理与设计安全等前沿议题。尤为重要的是，数据集附带了详尽的评估结果，对29个闭源与开源模型进行了系统比较，为领域研究者提供了清晰的性能参照。

使用方法

该数据集旨在为佐剂研究与多模态大语言模型的交叉领域提供系统的评估工具与开发基础。研究人员可利用其开放式问答部分，全面测试模型在佐剂相关知识与推理任务上的表现，通过对比参考答案与模型输出，量化模型在语义相似性、科学合理性与内容完整性等方面的能力。幻觉数据子集则为分析与提升模型的事实核查与错误拒斥能力提供了专用测试环境。形式化描述数据及其框架，可作为构建领域专用模型的基石，通过结构化变量与关系促进模型的可解释性与推理能力。此外，数据集提供的完整评估流程与指标，包括语义文本相似度、BERT分数与大语言模型评分，可供后续研究直接复现或作为新模型评估的基准方法。其构建流程亦具备可迁移性，通过修改提示词可适配其他科学领域的数据生成任务。

背景与挑战

背景概述

在免疫学与疫苗研发领域，佐剂作为调控免疫应答的关键成分，其设计长期依赖于经验性探索，缺乏系统化的数据资源与计算框架支持。为应对这一挑战，研究团队于2026年ICLR会议前夕推出了Adjuvant Benchmark，这是首个专注于佐剂研究的开放式基准数据集。该数据集由领域专家精心标注，包含1,294个问答对与1,364条形式化描述，旨在评估多模态大语言模型在佐剂相关知识获取、推理与生成任务中的性能。通过构建结构化的形式化框架，该工作为佐剂设计原理与免疫机制提供了可计算抽象，推动了人工智能驱动的研究范式转型，为疫苗与免疫疗法开发奠定了数据与理论基础。

当前挑战

佐剂研究长期面临数据稀缺与机制理解不完整的双重挑战，这限制了从传统经验设计向数据驱动方法的过渡。Adjuvant Benchmark的构建旨在系统评估多模态大语言模型在佐剂领域的知识掌握与推理能力，其核心挑战在于如何准确捕捉复杂的免疫学机制并将其转化为可计算的形式化表示。在数据集构建过程中，研究团队需克服领域专业知识的高度专业化带来的标注困难，确保问答数据与形式化描述的科学严谨性。同时，模型评估需应对幻觉识别、跨模态理解以及指令遵循等多维度任务，这对基准的全面性与可靠性提出了严格要求。

常用场景

经典使用场景

在免疫学与疫苗研发领域，佐剂研究长期面临数据稀缺与机制理解不完整的挑战。Adjuvant Benchmark作为首个专门针对佐剂领域的开放式问答基准，其经典使用场景在于系统评估多模态大语言模型在佐剂相关知识获取与推理任务中的表现。该数据集通过涵盖基础知识、生物学原理、设计安全等维度的1294个专家标注问答对，为模型提供了结构化的能力测试平台，尤其适用于检验模型在复杂免疫机制解释与佐剂设计逻辑方面的深度理解。

衍生相关工作

基于该数据集的形式化框架与评估体系，衍生出多个方向的前沿研究工作。在模型架构方面，出现了专门针对免疫学领域知识注入的领域自适应预训练方法；在应用拓展上，研究者利用其结构化变量构建了佐剂-抗原协同作用预测系统。该基准还催生了跨学科合作，如将形式化描述与生物通路数据库对接，开发出可解释的佐剂作用机理推演引擎，为精准免疫治疗提供了新的方法论支撑。

数据集最近研究