five

SARS-CoV-2

收藏
Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/ZYMScott/SARS-CoV-2
下载链接
链接失效反馈
官方服务:
资源简介:
SARS-CoV-2纳米抗体相互作用数据集(AVIDa-SARS-CoV-2)包含了两只接种SARS-CoV-2刺突蛋白的羊驼产生的重链抗体可变域(VHH)的相互作用数据。该数据集包括二进制标签,指示不同的VHH序列与12个SARS-CoV-2突变株(包括Delta和Omicron等变种)的结合或非结合情况。该数据集旨在评估计算模型预测不同病毒变种纳米抗体结合的能力,这对于理解抗体交叉反应性和开发针对新变种的治疗方法至关重要。
创建时间:
2025-04-24
原始信息汇总

SARS-CoV-2 Nanobody Interaction Dataset (AVIDa-SARS-CoV-2) 概述

数据集概览

  • 包含从两只接种SARS-CoV-2刺突蛋白的羊驼中获得的抗原-重链抗体可变区(VHH)相互作用数据
  • 提供二元标签,指示不同VHH序列与12种SARS-CoV-2突变体的结合或非结合状态,包括Delta和Omicron等变体
  • 旨在评估计算模型预测不同病毒变体纳米抗体结合能力

数据收集

  • 数据来自两只接种SARS-CoV-2刺突蛋白的羊驼实验
  • 通过结合测定确定特定VHH序列与不同SARS-CoV-2变体的结合情况

数据集结构

数据划分

  • 训练集:覆盖野生型(WT)、轻度突变(D614G)、保守区域(S2-domain)和免疫逃逸变体(PMS)
  • 验证集:包含模型从未见过的Kappa和Lambda变体,用于超参数调整
  • 测试集:包括Alpha、Beta、Delta和Omicron变体,用于最终现实世界泛化评估

文件格式

主数据集文件 (train.csv/val.csv/test.csv)

列名 描述
VHH_sequence VHH的氨基酸序列
Ag_label 抗原类型
label 二元标签(1表示结合对,0表示非结合对)
subject_species VHH来源对象的物种
subject_name VHH来源对象的名称
subject_sex VHH来源对象的性别

抗原序列嵌入 (antigen_embeddings.pt)

  • 通过ESM-2(650M)预计算的抗原序列嵌入

用途与限制

用途

  • 开发预测纳米抗体与SARS-CoV-2变体结合的模型
  • 识别对多种变体具有广泛交叉反应性的纳米抗体
  • 理解病毒突变对抗体识别的影响
  • 设计具有抗病毒逃逸能力的治疗性纳米抗体

评估指标

  • 准确率
  • F1分数
  • 精确率
  • 召回率
  • AUROC(接收者操作特征曲线下面积)
  • AUPRC(精确召回曲线下面积)

许可信息

  • 许可证类型:CC-BY-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在SARS-CoV-2纳米抗体相互作用数据集的构建过程中,研究人员采用免疫学实验方法,对两只接种SARS-CoV-2刺突蛋白的羊驼进行抗原-重链抗体可变区(VHH)互作分析。通过结合实验测定,系统性地收集了多样化VHH序列与12种SARS-CoV-2突变株(包括Delta和Omicron等变异株)的二元结合标签数据。数据采集严格遵循实验生物学规范,相关细节已发表在《抗体语言模型的SARS-CoV-2相互作用数据集及VHH序列库》学术论文中。
使用方法
研究者可利用该数据集开展多维度研究,包括开发预测纳米抗体与病毒变异株结合的计算模型、识别具有广谱交叉反应性的纳米抗体、解析病毒突变对抗体识别的影响机制等。使用时应遵循标准机器学习流程,首先加载预处理后的CSV格式序列数据和PT格式的抗原嵌入特征,继而采用准确率、F1值、AUROC等指标评估模型性能。数据集特别适用于测试模型在未见变异株上的泛化能力,验证集和测试集的变异株分布设计为模型调参和最终评估提供了理想框架。
背景与挑战
背景概述
SARS-CoV-2纳米抗体相互作用数据集(AVIDa-SARS-CoV-2)诞生于全球抗击COVID-19疫情的关键时期,由国际研究团队通过免疫羊驼实验构建而成。该数据集聚焦于重链抗体可变区(VHH)与12种SARS-CoV-2突变株(包括Delta和Omicron等关切变异株)的结合特性,其核心科学价值在于揭示纳米抗体跨变异株交叉反应机制。作为首个系统评估计算模型预测抗体-抗原互作能力的大规模实验数据集,它为理解病毒免疫逃逸机制和设计广谱中和抗体提供了关键基准,相关成果发表于《抗体语言模型的SARS-CoV-2相互作用数据集与VHH序列库》研究论文。
当前挑战
该数据集面临双重科学挑战:在领域问题层面,病毒刺突蛋白的快速突变导致表位漂移,要求模型必须从有限野生型数据中学习识别高度变异抗原的保守结合模式;同时,非平衡数据分布(结合/非结合样本比例悬殊)对模型灵敏度提出苛刻要求。在构建过程中,实验团队需攻克羊驼免疫反应个体差异带来的数据异质性难题,并通过冷冻电镜验证确保结合标签的可靠性。更复杂的是,如何设计包含野生型、保守区与免疫逃逸变异株的分层数据集结构,以严格测试模型在未知变异场景下的泛化能力,成为方法论上的重大挑战。
常用场景
经典使用场景
在新冠病毒研究领域,AVIDa-SARS-CoV-2数据集为探索纳米抗体与病毒变种的相互作用提供了重要平台。该数据集通过系统采集免疫羊驼的VHH序列与12种SARS-CoV-2突变株的结合数据,成为训练和评估计算生物学模型的黄金标准。研究者可基于该数据构建预测模型,分析抗体与不同变异株的交叉反应性,为理解病毒逃逸机制提供分子层面的证据。
解决学术问题
该数据集有效解决了抗体工程领域的核心科学问题。通过涵盖Delta、Omicron等关键变异株的结合数据,填补了传统实验方法难以系统评估抗体广谱性的空白。其精心设计的训练-验证-测试集划分策略,使研究者能够定量分析突变对抗体识别的影响,为开发抗病毒逃逸的纳米抗体提供理论依据。数据集的建立显著推进了计算免疫学在预测蛋白质相互作用方面的研究深度。
实际应用
在生物医药应用层面,该数据集直接服务于新冠治疗药物的研发工作。制药企业可利用其训练AI模型,快速筛选具有广谱中和活性的候选纳米抗体。疾控机构则能基于数据集分析病毒进化趋势,预测未来可能出现的免疫逃逸突变。数据集中包含的抗原预计算嵌入特征,大幅降低了生物信息学分析的门槛,使更多研究团队能参与抗病毒药物设计。
数据集最近研究
最新研究方向
随着新冠病毒变异株的不断涌现,SARS-CoV-2纳米抗体相互作用数据集(AVIDa-SARS-CoV-2)为研究抗体交叉反应性和开发广谱抗病毒疗法提供了重要资源。近期研究聚焦于利用深度学习模型预测纳米抗体与不同变异株的结合能力,特别是在Delta和Omicron等免疫逃逸变异株上的表现。该数据集通过包含野生型、保守区域及免疫逃逸变异株的多样化样本,为模型泛化能力评估提供了坚实基础。研究者们正探索基于ESM-2预训练嵌入的抗原序列表示方法,以提升对抗体-抗原相互作用的理解,并为设计具有广谱中和能力的纳米抗体提供理论支持。这一方向不仅对应对当前疫情具有现实意义,也为未来新发传染病抗体研发奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作