NbBench

Name: NbBench
Creator: 东京大学计算生物学与医学科学系
Published: 2025-05-04 16:18:10
License: 暂无描述

arXiv2025-05-04 更新2025-05-07 收录

下载链接：

https://github.com/ZHymLumine/NbBench

下载链接

链接失效反馈

官方服务：

资源简介：

NbBench是一个针对纳米抗体表示学习的全面基准套件，包括结构注释、结合预测和开发性评估。该数据集涵盖了9个经过精心策划的数据集，旨在解决纳米抗体建模的挑战，并为评估和推进纳米抗体建模提供可重复的基础。

NbBench is a comprehensive benchmark suite for nanobody representation learning, covering structural annotation, binding prediction, and developability evaluation. It includes nine carefully curated datasets, which are designed to address the challenges in nanobody modeling and provide a reproducible foundation for evaluating and advancing nanobody modeling research.

提供机构：

东京大学计算生物学与医学科学系

创建时间：

2025-05-04

原始信息汇总

NanobodyBenchmark 数据集概述

数据集简介

NanobodyBenchmark 是一个用于评估和比较单域抗体预训练语言模型在下游任务表现的基准平台。

关键特性

支持的预训练模型

ESM2-150M
ESM2-650M
ProtBERT
AblangL
AblangH
AnTiberty
AntiBERTa2
AntiBERTa2-cssp
IgBERT
NanoBERT
VHHBert

下游任务

单域抗体类型分类（VHH、VNAR等）
可变区分类
CDR区填充
抗原结合位点预测
亲和力预测
热稳定性预测
多反应性预测
抗原-抗体相互作用预测

数据集结构

主要目录

checkpoint/opensource/: 存放预训练模型权重
data_utils/: 数据处理工具和聚类结果
downstream/: 下游任务训练脚本
model/: 模型实现
tokenizer/: 分词器
scripts/: 运行脚本

可用数据集

Hugging Face 数据集集合

https://huggingface.co/collections/ZYMScott/nbbench-68141e3051f8723e48cd585d

具体数据集

结合预测:
- SARS-COV-2
- hIL6
- 抗原结合位点预测
可变区分类
CDR填充
热稳定性:
- thermo-seq
- thermo-tm
亲和力:
- affinity-seq
- affinity-score
多反应性
单域抗体类型

使用方法

安装

bash git clone https://github.com/ZHymLumine/NbBench.git cd NbBench conda create -n nbbench python=3.8 -y pip install -r requirements.txt

模型评估

bash bash ./scripts/opensource/{model_name}/all_tasks.sh

引用

@misc{zhang2025nbbenchbenchmarkinglanguagemodels, title={NbBench: Benchmarking Language Models for Comprehensive Nanobody Tasks}, author={Yiming Zhang and Koji Tsuda}, year={2025}, eprint={2505.02022}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2505.02022}, }

许可证

Apache License 2.0

搜集汇总

数据集介绍

构建方式

NbBench数据集的构建基于对纳米抗体建模领域的系统性需求分析，通过整合九种经过严格筛选的数据集，覆盖了结构注释、结合预测和可开发性评估等八个生物学任务。数据集的构建过程包括从公开数据库（如INDI、SAbDab和PLAbDab-nano）中提取纳米抗体序列，并进行去重和聚类处理，以确保数据的多样性和低冗余性。此外，采用了基于序列相似性的数据分割策略，确保训练集和测试集之间的序列相似性控制在合理范围内，以模拟真实场景下的模型泛化能力。

特点

NbBench数据集的特点在于其全面性和标准化。它涵盖了纳米抗体建模的多个关键任务，包括可变区分类、CDR填充、抗原结合预测和热稳定性预测等。数据集中的每个任务都配备了明确的评估指标和数据分割策略，确保了实验的可重复性和公平性。此外，NbBench还提供了对多种预训练模型（如蛋白质语言模型、抗体特异性模型和纳米抗体特异性模型）的系统性评估，揭示了不同模型在不同任务上的性能差异和局限性。

使用方法

NbBench数据集的使用方法包括两个主要方面：序列级和令牌级预测。对于序列级任务，模型通过提取纳米抗体序列的全局嵌入（如[CLS]令牌）并结合抗原嵌入（使用ESM-2生成）来进行分类或回归预测。对于令牌级任务，模型生成每个氨基酸的令牌级嵌入，并通过多层感知机进行逐令牌预测（如CDR分类或填充）。用户可以通过公开的代码库和数据集链接（GitHub和HuggingFace）访问数据，并按照提供的标准化协议进行模型训练和评估。

背景与挑战

背景概述

NbBench是由东京大学计算生物学与医学科学系的Yiming Zhang和Koji Tsuda于2025年提出的首个综合性纳米抗体表示学习基准套件。该数据集针对纳米抗体——源自骆驼科动物重链抗体的单域抗体片段，在治疗和诊断中展现出独特优势，如体积小、稳定性高和结合亲和力强。NbBench填补了纳米抗体建模领域缺乏统一评估标准的空白，涵盖了结构注释、结合预测和可开发性评估等8个生物学任务，基于9个精选数据集系统评估了11种代表性模型，包括通用蛋白质语言模型、抗体特异性语言模型和纳米抗体特异性语言模型。

当前挑战

NbBench面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，纳米抗体的独特结构特征（如缺乏配对的轻链、更长的CDR3环和较小的结构数据库）使得传统抗体建模技术难以直接应用，且现有模型在热稳定性和亲和力等回归任务上表现普遍欠佳。在构建过程中，纳米抗体特异性资源相对有限，且现有模型通常针对狭窄任务开发，使用不一致的数据集和评估指标，导致公平比较困难。此外，大多数先前工作未评估模型对未见纳米抗体类型或功能的泛化能力。

常用场景

经典使用场景

NbBench作为首个专注于纳米抗体建模的综合基准套件，其经典使用场景集中在评估蛋白质语言模型、抗体特异性语言模型及纳米抗体专用模型在结构注释、结合预测和可开发性评估等八大生物相关任务上的性能。通过标准化的数据集划分和评估协议，NbBench为研究人员提供了一个可重复的平台，用于比较不同模型在纳米抗体特异性任务上的表现，特别是在处理纳米抗体特有的长CDR3环和缺乏配对的轻链等挑战时的效果。

实际应用

在实际应用方面，NbBench的支持技术可加速纳米抗体药物的发现和优化过程。其抗原结合预测任务能筛选高亲和力候选分子，热稳定性评估有助于提高治疗性纳米抗体的可开发性。此外，多反应性预测功能可早期识别可能引起脱靶效应的纳米抗体，降低临床开发风险。这些应用显著缩短了从纳米抗体设计到临床前研究的周期，为生物医药领域提供了高效的计算工具。

衍生相关工作

NbBench的推出催生了一系列相关研究工作，包括改进的纳米抗体特异性语言模型如NanoBERT-ASP和VHHBERT的后续优化。该基准还启发了针对纳米抗体-抗原复合物结构预测的新方法，以及结合AlphaFold2等工具的混合建模框架。在应用层面，基于NbBench的任务定义衍生出了多个纳米抗体设计平台，实现了从序列生成到功能验证的端到端流程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集