five

VRClassification

收藏
Hugging Face2025-05-01 更新2025-05-02 收录
下载链接:
https://huggingface.co/datasets/ZYMScott/VRClassification
下载链接
链接失效反馈
官方服务:
资源简介:
纳米抗体可变区分类数据集,用于帮助分类纳米抗体序列中的互补决定区(CDRs)。该数据集基于具有实验确定结构的纳米抗体,从蛋白质数据银行和经过筛选的抗体数据库中收集,并使用标准抗体编号方案和结构分析对CDR区域进行注释。数据集包含多种具有明确定义CDR注释的纳米抗体序列,适用于训练模型自动识别抗体序列中的CDR区域,支持抗体结构预测和工程,以及标准化不同抗体数据库中的CDR注释。
创建时间:
2025-04-24
原始信息汇总

Nanobody Variable Region Classification Dataset

数据集概述

  • 用途:用于分类纳米抗体序列中的互补决定区(CDRs)
  • 重要性:CDRs是抗体中高度可变的区域,形成抗原结合位点,正确识别和分类CDRs对于理解抗体功能和结构至关重要
  • 目标:帮助研究人员开发模型,自动识别纳米抗体序列中的CDR区域并按类型分类(CDR1、CDR2或CDR3)

数据收集

  • 来源:基于具有实验确定结构的纳米抗体,收集自蛋白质数据库(PDB)和 curated antibody databases
  • 注释方法:使用标准抗体编号方案和结构分析进行CDR区域注释
  • 特点:包含具有明确定义的CDR注释的多样化纳米抗体序列

数据集结构

  • 分割:训练集、验证集和测试集
  • 文件格式:CSV文件
    • 列:
      • seq:纳米抗体序列
      • label:纳米抗体类别;0: Frame Region, 1: CDR1, 2: CDR2, 3: CDR3

用途与限制

用途

  • 开发自动识别抗体序列中CDR区域的模型
  • 支持抗体结构预测和工程
  • 帮助标准化不同抗体数据库中的CDR注释
  • 辅助表位映射和互补位分析

限制

  • 可能未包含非标准CDR定义
  • 非典型或工程化纳米抗体可能具有非典型CDR模式
  • 分类基于序列特征,可能无法捕捉结构上的细微差别

评估指标

  • 准确率
  • F1分数
  • 精确率
  • 召回率

许可信息

  • 许可证:cc-by-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在抗体工程领域,VRClassification数据集的构建采用了结构生物学与生物信息学相结合的严谨方法。研究团队从蛋白质数据库(PDB)和权威抗体数据库中筛选具有实验确定结构的纳米抗体序列,通过标准抗体编号方案进行系统注释。每个互补决定区(CDR)的划分均经过严格的结构分析验证,确保了标注的准确性。数据集构建过程中特别注重序列多样性,涵盖了不同类型的CDR区域变异模式,为机器学习模型提供了全面的训练素材。
特点
该数据集最显著的特征在于其专业化的纳米抗体CDR区域分类体系。不同于普通抗体数据集,它专门针对纳米抗体这一特殊类型,将序列精确标注为框架区、CDR1、CDR2和CDR3四种类别。数据样本经过结构验证的严格筛选,具有高度的生物学可信度。数据集采用标准化的CSV格式存储,包含序列和标签两个核心字段,便于研究者直接用于机器学习模型的训练和验证。
使用方法
使用该数据集时,研究者可通过加载CSV文件快速获取纳米抗体序列及其对应的CDR分类标签。典型的应用场景包括构建深度学习模型来预测CDR区域,或开发抗体结构预测算法。为获得最佳效果,建议采用交叉验证策略,充分利用数据集提供的训练集、验证集和测试集划分。评估模型性能时,应综合考虑准确率、F1值、精确率和召回率等指标,以全面衡量分类效果。
背景与挑战
背景概述
纳米抗体可变区分类数据集(VRClassification)由结构生物学与免疫信息学领域的研究团队于近年构建,旨在解决抗体工程中互补决定区(CDR)的精准识别与分类问题。作为抗体与抗原结合的关键区域,CDR的序列特征与空间构象直接影响抗体的特异性和亲和力。该数据集基于蛋白质数据库(PDB)及权威抗体数据库中的实验验证结构,采用标准化编号方案对CDR1、CDR2、CDR3及框架区进行系统标注,为抗体结构预测、表位作图等研究提供了重要基准。其多序列覆盖性和严谨的注释体系显著推动了计算抗体设计领域的发展。
当前挑战
该数据集面临的核心挑战体现在两个维度:在科学问题层面,CDR区域的序列高度可变性导致传统基于规则的方法难以准确区分边界模糊的变异体,且非标准CDR定义或工程化纳米抗体的非典型模式可能超出当前分类体系。在数据构建层面,实验结构数据的稀缺性限制了数据规模扩展,而依赖结构分析的手动注释流程存在主观偏差风险。此外,仅依赖序列特征而缺乏明确的结构上下文信息,可能影响模型对构象依赖型CDR的判别能力。
常用场景
经典使用场景
在抗体工程和结构生物学领域,VRClassification数据集被广泛用于训练深度学习模型以准确识别纳米抗体序列中的互补决定区(CDR)。这些模型通过分析序列特征,能够自动标注CDR1、CDR2和CDR3区域,为抗体功能研究和结构预测提供关键支持。数据集的高质量标注使其成为开发序列分类算法的黄金标准。
衍生相关工作
围绕该数据集已产生多项重要研究成果。包括基于Transformer的CDR预测框架CDR-H3Net,以及将图神经网络应用于抗体结构预测的DeepAb系统。这些工作不仅扩展了数据集的利用维度,更推动了计算免疫学与AI的交叉融合,形成了一系列标准化的评估基准。
数据集最近研究
最新研究方向
随着人工智能技术在生物医药领域的深度应用,VRClassification数据集为纳米抗体可变区(CDR)的智能识别与分类研究提供了重要支撑。近期研究聚焦于开发基于深度学习的多模态融合模型,通过整合序列特征与结构预测信息,提升CDR区域分类的准确性和泛化能力。在抗体工程领域,该数据集正被用于探索CDR区域与抗原结合亲和力的关联规律,为理性化抗体设计提供数据基础。同时,研究人员尝试结合图神经网络和注意力机制,从纳米抗体序列中挖掘CDR区域的拓扑特征,以解决非标准CDR模式的识别难题。这些研究不仅推动了计算免疫学的发展,也为新型纳米抗体的开发开辟了智能化路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作