AVIDa-hIL6

Name: AVIDa-hIL6
Creator: COGNANO Inc.
Published: 2023-10-11 08:42:26
License: 暂无描述

arXiv2023-10-11 更新2024-06-21 收录

下载链接：

https://avida-hil6.cognanous.com

下载链接

链接失效反馈

官方服务：

资源简介：

AVIDa-hIL6是由COGNANO Inc.开发的用于预测抗原-抗体相互作用的大型数据集，包含573,891对抗原-VHH（重链抗体的变量域）的氨基酸序列。该数据集来源于一只被人类白细胞介素-6（IL-6）蛋白免疫的羊驼。通过利用VHH的简单结构，数据集中的每对抗原-VHH都有通过新型标记方法生成的可靠的结合或非结合标签。此外，通过引入人工突变，AVIDa-hIL6还包含了30种不同的突变体，除了野生型IL-6蛋白。这一特性为开发预测抗体结合变化的机器学习模型提供了机会。数据集的应用领域包括加速治疗性抗体的发现，特别是在预测未知突变体对有效抗体的影响方面。

AVIDa-hIL6 is a large-scale dataset developed by COGNANO Inc. for antigen-antibody interaction prediction, encompassing 573,891 pairs of antigen-VHH (variable domain of heavy-chain antibodies) amino acid sequences. It is derived from an alpaca immunized with human interleukin-6 (IL-6) protein. Leveraging the simple structure of VHH, each antigen-VHH pair in the dataset carries reliable binding or non-binding labels generated via a novel labeling approach. Furthermore, through the introduction of artificial mutations, AVIDa-hIL6 includes 30 distinct mutants in addition to the wild-type IL-6 protein. This characteristic offers opportunities for developing machine learning models that predict alterations in antibody binding. The application scope of this dataset covers accelerating the discovery of therapeutic antibodies, especially in predicting the effects of unknown mutants on effective antibodies.

提供机构：

COGNANO Inc.

创建时间：

2023-06-06

搜集汇总

数据集介绍

构建方式

在抗体药物发现领域，高质量数据集的匮乏长期制约着机器学习模型的进展。AVIDa-hIL6的构建采用了创新的实验与计算相结合的方法：首先，通过免疫羊驼获得针对人白细胞介素-6（IL-6）蛋白及其30种人工点突变体的多样化重链抗体可变区（VHH）序列；随后，利用噬菌体展示技术进行亲和筛选，并通过下一代测序技术精确获取全长氨基酸序列；最后，开发了一种基于统计检验的新型标记方法，通过比较筛选前后VHH在文库中的比例变化，并结合负对照样本的噪声降低算法，为57万余个抗原-VHH对赋予了可靠结合或非结合标签。

特点

该数据集的核心特点在于其规模与设计的精巧性。作为目前最大的抗原-抗体相互作用预测数据集，它包含了573,891个样本，其中结合对约20,980个，非结合对约55万余个，有效解决了现有数据规模小、缺乏非结合样本及精确序列信息的问题。尤为突出的是，数据集不仅包含野生型IL-6，还囊括了30种通过丙氨酸扫描技术构建的人工突变体，提供了大量因单个氨基酸替换而增强或抑制抗体结合的敏感案例，为研究抗原突变对结合的影响提供了独特视角。此外，所有数据均以氨基酸序列形式呈现，确保了信息的精确性与可计算性。

使用方法

该数据集主要服务于机器学习驱动的抗原-抗体相互作用预测研究。使用者可将其用于训练和评估分类模型，以预测给定VHH序列与IL-6蛋白（包括突变体）之间的结合可能性。数据集已划分为训练集与测试集，便于进行基准测试。研究可聚焦于模型泛化能力，特别是利用已知抗原的结合信息预测未知突变体的抗体结合情况。此外，数据集中包含的突变敏感样本，也为探索抗原表位和抗体互补位预测等基础生物学问题提供了宝贵资源。数据集以CC BY-NC 4.0许可公开，可通过指定网站获取。

背景与挑战

背景概述

在生物医药领域，抗体作为治疗人类疾病的重要药物类别，其发现过程常受限于传统实验方法的高成本与耗时特性。为加速治疗性抗体的研发，基于机器学习的计算方法逐渐成为预测抗原-抗体相互作用的关键工具。然而，现有公开数据集普遍存在规模有限、缺乏非结合样本及精确氨基酸序列信息等不足。针对这些挑战，COGNANO Inc.与Google LLC的研究团队于2023年联合发布了AVIDa-hIL6数据集。该数据集通过免疫羊驼获取人类白细胞介素-6（IL-6）蛋白的抗原，并利用重链抗体的可变域（VHH）结构简单性，结合高通量测序技术，构建了包含573,891个抗原-VHH配对的大规模样本库。每个配对均提供氨基酸序列及可靠的结合或非结合标签，同时涵盖野生型IL-6蛋白及其30种人工点突变体，为研究抗原突变对抗体结合的影响提供了独特资源。AVIDa-hIL6的推出显著提升了抗原-抗体相互作用预测的数据基础，推动了计算抗体发现领域的发展。

当前挑战

AVIDa-hIL6数据集旨在解决抗原-抗体相互作用预测中的核心挑战，即如何从氨基酸序列中准确识别结合特异性，尤其是在抗原发生突变时。该领域的关键难题在于模型需捕捉点突变对结合亲和力的细微影响，而现有机器学习方法在泛化至未知突变体时表现仍不理想，例如基准测试显示模型对测试集中突变体的结合抗体预测召回率仅约85%。在数据构建过程中，研究团队面临多重挑战：首先，传统抗体测序需单细胞克隆，流程繁琐且通量低，而VHH结构虽简化了测序，但需开发新型统计标记方法以区分结合与非结合样本；其次，实验噪声如非特异性结合可能干扰标签可靠性，需设计降噪算法排除假阳性；此外，数据潜在偏差源于免疫羊驼的个体差异、采样时间与部位，可能影响序列多样性。这些挑战凸显了构建高质量生物数据集的复杂性，也为后续模型优化与数据扩展指明了方向。

常用场景

经典使用场景

在计算生物学与免疫信息学领域，AVIDa-hIL6数据集为抗原-抗体相互作用预测提供了关键资源。其经典应用场景在于训练和评估机器学习模型，特别是针对单域抗体（VHH）与人类白细胞介素-6（IL-6）蛋白及其突变体之间的结合特异性进行预测。通过整合大规模序列数据和可靠结合标签，该数据集支持构建深度学习架构，如卷积神经网络和残差循环神经网络，以模拟生物体内免疫应答的分子识别机制。

解决学术问题

AVIDa-hIL6解决了抗原-抗体相互作用研究中数据稀缺与质量不足的学术难题。传统数据集如SAbDab或CoV-AbDab存在样本量小、缺乏非结合样本及精确氨基酸序列信息等局限。该数据集通过免疫羊驼实验生成573,891对抗原-VHH样本，包含20,980个结合对与552,911个非结合对，并引入30种人工突变体，为研究点突变对抗体结合的影响提供了系统数据。其创新标注方法确保了标签可靠性，推动了机器学习在抗体发现中的泛化能力研究。

衍生相关工作

基于AVIDa-hIL6的经典衍生工作包括抗体语言模型的优化与抗原结合位点预测方法的创新。例如，研究团队利用该数据集训练了AbAgIntPre等深度学习模型，提升了序列级相互作用预测的准确性。同时，数据集促进了对抗原表位（epitope）和抗体互补位（paratope）的机器学习预测研究，如结合图神经网络与残差网络的架构探索。这些工作扩展了抗体工程的计算范式，并为构建更全面的抗原-抗体互作数据库奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集