Adjuvant Benchmark

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/banjiuyufen/Adjuvant_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

辅助剂在调节免疫反应中起着关键作用，是疫苗和免疫疗法开发的核心。然而，该领域的进展受到数据稀缺和对作用机制理解不完整的限制，这限制了从经验设计到AI驱动方法的转变。为了解决这些挑战，我们提出了第一个专门用于辅助剂的基准，以开放式Q&A格式构建并由领域专家注释。该基准包括1,294个Q&A对和1,364个正式描述，为评估通用多模态大型语言模型（MLLMs）和开发领域特定系统提供了资源。

Adjuvants play a critical role in modulating immune responses and are central to the development of vaccines and immunotherapies. However, progress in this field is constrained by data scarcity and incomplete understanding of their mechanisms of action, which hinders the transition from empirical design to AI-driven approaches. To address these challenges, we present the first benchmark specifically tailored for adjuvants, constructed in an open-ended Q&A format and annotated by domain experts. This benchmark comprises 1,294 Q&A pairs and 1,364 formal descriptions, providing a valuable resource for evaluating general-purpose multimodal large language models (MLLMs) and developing domain-specific systems.

创建时间：

2026-02-26

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Adjuvant Benchmark
发布状态：即将发布（计划在ICLR 2026会议结束后开源）
数据集地址：https://github.com/banjiuyufen/Adjuvant_benchmark
相关论文：已获ICLR 2026接收

数据集目的与意义

本数据集是首个专门用于佐剂研究的基准测试，旨在解决该领域数据稀缺和对作用机制理解不完整的问题，以推动从经验性设计向AI驱动方法的转变。它通过提供一个专门的基准、对现有模型的比较评估以及未来发展的形式化基础，为系统地将多模态大语言模型（MLLMs）整合到佐剂研究中迈出了第一步。

数据集内容与规模

数据集总包含 2,727 个数据项，具体构成如下：

1. 开放式问答数据

数量：1,294 个问答对
目的：评估MLLMs对佐剂相关知识的掌握程度。
子类分布：
- 基础知识：221 项
- 高级知识：1,073 项
  - 生物学原理：846 项
  - 设计与安全：227 项

2. 幻觉数据

数量：69 项
目的：评估MLLMs在佐剂和免疫学任务中识别和拒绝幻觉的能力。
子类分布：
- 问题幻觉：27 项
- 答案幻觉：54 项
- 重叠项：12 项

3. 佐剂形式化数据

数量：1,364 项形式化描述
目的：将复杂的佐剂相关生物过程转化为结构化变量和功能转换，以提高MLLMs在该领域的推理能力和可解释性。
子类分布：
- 佐剂设计：682 项
- 佐剂激活与免疫过程：682 项

数据生成与来源

生成方法：利用最先进的多模态大语言模型（MLLMs），基于领域专家设计的提示和模板生成。
主要生成模型：GPT-4o 和 DeepSeek-R1（根据生成评估结果，它们表现出最优性能）。
质量保证：所有数据均由领域专家进行标注和审查。

评估框架与实验结果

数据集用于系统评估多模态大语言模型在佐剂领域的性能。

评估模型

共评估了 29 个模型，包括：

闭源模型（11个）：如GPT-4o、OpenAI-o1、Claude3.5、Gemini系列、Ernie系列等。
开源模型（18个）：如DeepSeek-R1、DeepSeek-V3、Qwen系列、LLaVA系列、InternVL系列等。

评估维度

领域特定问答
幻觉拒绝
数据生成
指令遵循

评估指标

语义文本相似度（STS）
BERT Score
LLM Score（由GPT-4o和DeepSeek-R1评分，包含相似性、科学合理性和包容性三个子项）
幻觉拒绝率（HRR）

关键实验结果

闭源模型最佳：OpenAI-o1（STS = 0.7495， LLM Score = 7.7）
开源模型最佳：DeepSeek-R1（STS = 0.7415， LLM Score = 7.7）
在数据生成任务的主观评估中，GPT-4o和DeepSeek-R1在多项能力（如提问能力、回答能力、推理能力等）上均表现最优。

形式化描述框架

数据集引入了一个形式化描述框架，用于将佐剂设计原理和免疫机制表示为结构化抽象（如变量 Form(Struc, Ag) 和函数 Load(A, B, Surface)），作为未来领域专用MLLMs的构建模块。

搜集汇总

数据集介绍

构建方式

在免疫学与佐剂研究领域，数据稀缺与机制理解不足长期制约着人工智能方法的深入应用。为填补这一空白，Adjuvant Benchmark通过系统化流程构建而成。研究团队首先精选高质量的教科书与同行评议文献作为知识源，涵盖基础概念与高级主题，如佐剂作用的生物学原理及设计安全策略。随后，借助GPT-4o、DeepSeek-R1等前沿多模态大语言模型生成开放式问答对，并由领域专家进行严格标注与校验，确保内容的科学性与准确性。此外，针对幻觉识别需求，专家团队特意标注了错误问题与答案，形成专用评估子集。最终，数据集整合了1294组问答对与1364项形式化描述，构建出一个结构严谨、覆盖全面的领域专用评估资源。

特点

该数据集在佐剂与免疫学研究领域展现出鲜明的专业特色。其核心构成包含开放式问答、幻觉数据及形式化描述三大模块，全面评估模型的知识掌握、错误识别与结构化推理能力。开放式问答部分深度融合基础理论与高级议题，如佐剂激活的免疫过程与安全设计原则，体现了对领域知识的多层次覆盖。幻觉数据子集则专门用于检验模型对错误信息的辨识与拒绝能力，为可靠性评估提供关键基准。尤为突出的是，形式化描述模块将复杂的生物机制转化为结构化变量与函数，例如Form(Struc, Ag)与Load(A, B, Surface)等关系，为构建可计算、可解释的领域专用模型奠定了形式化基础。

使用方法

该数据集旨在系统评估多模态大语言模型在佐剂研究中的性能，并为领域专用系统的开发提供支撑。使用者可基于开放式问答模块，测试模型对佐剂相关知识的理解深度与回答准确性，涉及生物学原理、设计策略等主题。幻觉数据子集可用于分析模型在免疫学语境下的错误识别能力，通过计算幻觉拒绝率等指标量化其可靠性。形式化描述部分则为模型的结构化推理与机制解释提供训练与评估素材，支持将自然语言描述转化为可计算的抽象表示。评估时可采用语义文本相似度、BERT分数及大语言模型评分等多维指标，结合专家主观评分，全面衡量模型在生成、问答与推理等方面的综合表现。

背景与挑战

背景概述

在免疫学与疫苗研发领域，佐剂作为调控免疫应答的关键成分，其设计长期依赖于经验性探索，缺乏系统化的数据资源与计算框架支持。为应对这一挑战，研究团队于2026年ICLR会议前夕推出了Adjuvant Benchmark，这是首个专注于佐剂研究的开放式基准数据集。该数据集由领域专家精心标注，包含1,294个问答对与1,364条形式化描述，旨在评估多模态大语言模型在佐剂相关知识获取、推理与生成任务中的表现。通过构建涵盖生物学原理、设计安全及幻觉识别等多维度的评估体系，该工作为人工智能驱动佐剂研发奠定了数据基础，并推动了领域内从传统实验范式向智能化方法的转型。

当前挑战

佐剂研究长期面临数据稀缺与机制理解不完整的双重困境，这限制了人工智能模型在疫苗设计中的有效应用。Adjuvant Benchmark致力于解决佐剂领域知识建模的挑战，包括对复杂免疫机制的形式化表征、模型在专业问答中的幻觉抑制，以及跨模态信息的准确融合。在数据集构建过程中，研究团队需克服高质量标注数据的获取难题，协调领域专家对千余条问答进行精确校验，并将抽象的生物学过程转化为结构化变量。同时，确保生成数据的科学严谨性与多样性，平衡基础知识与前沿议题的覆盖范围，亦是构建过程中需要精细处理的关键环节。

常用场景

经典使用场景

在免疫学与疫苗研发领域，佐剂作为增强免疫应答的关键组分，其研究长期受限于数据匮乏与机制认知的不完整性。Adjuvant Benchmark通过构建包含1294个开放式问答对与1364个形式化描述的专家标注数据集，为多模态大语言模型在佐剂知识理解与推理能力评估提供了标准化测试平台。该数据集最经典的使用场景在于系统评估模型对佐剂生物学原理、设计策略及安全性等高级知识的掌握程度，同时借助幻觉数据检测模型在专业领域的错误识别与拒答能力，从而推动AI驱动的研究范式从经验设计向数据与机制融合的智能设计转型。

衍生相关工作

该数据集的发布催生了多领域衍生研究，例如基于其形式化框架扩展的免疫机制建模工具、面向佐剂设计的专业微调模型，以及跨学科知识图谱构建工作。相关经典工作包括将形式化变量应用于免疫应答动态模拟的系统，以及利用幻觉检测数据训练领域适配的鲁棒性增强模型。这些进展不仅深化了佐剂研究的计算范式，也为其他生物医学子领域（如抗体工程、细胞疗法）的MLLMs评估与开发提供了可迁移的方法学参考。

数据集最近研究