CDRInfilling

Hugging Face2025-05-01 更新2025-05-02 收录

下载链接：

https://huggingface.co/datasets/ZYMScott/CDRInfilling

下载链接

链接失效反馈

官方服务：

资源简介：

Nanobody CDR填充数据集，用于预测或生成纳米抗体序列中缺失的互补决定区（CDR）序列。CDR是抗体中与抗原直接接触的高度可变区域，对抗体的特异性和亲和力至关重要。该数据集基于已知结构和序列的纳米抗体，从蛋白质数据库（PDB）、抗体数据库和已发表文献中收集。数据集分为训练集、验证集和测试集，以CSV文件格式存储，包含被掩码的纳米抗体序列、掩码位置索引、原始CDR序列和CDR类型。该数据集可用于开发能够完成CDR序列的模型、设计新的纳米抗体序列、理解CDR序列与结构之间的关系以及支持抗体工程和优化。

创建时间：

2025-04-24

原始信息汇总

Nanobody CDR Infilling Dataset 概述

数据集简介

用途：用于完成纳米抗体序列中缺失的互补决定区（CDRs）。
重要性：CDRs是抗体中高度可变的区域，直接接触抗原，对抗体特异性和亲和力至关重要。

数据收集

来源：基于已知结构和序列的纳米抗体，收集自蛋白质数据库（PDB）、抗体数据库和已发表文献。
处理：数据经过处理，适用于序列完成任务，包括正确标记和分割CDR区域。

数据集结构

划分：分为训练集、验证集和测试集。
文件格式：CSV文件，包含以下列：
- seq_masked：带有掩码（隐藏）CDR区域的纳米抗体序列。
- mask_indices：显示掩码位置的索引。
- true_cdr：被掩码的原始CDR序列。
- cdr_type：指示被掩码的CDR类型（CDR1、CDR2或CDR3）。

用途与限制

用途

开发能够完成CDR序列的模型。
设计新的纳米抗体序列。
理解CDR序列与结构之间的关系。
支持抗体工程和优化。

限制

高度可变的CDR3区域可能有多个有效完成方式。
序列完成不保证功能性。
不考虑3D结构信息可能会限制预测准确性。

评估指标

残基准确率（精确匹配）：正确预测的氨基酸残基百分比。
BLOSUM62分数（BLOSUM恢复）：使用替换矩阵评估预测序列与实际序列之间的相似性。

许可信息

许可类型：CC-BY-4.0。

搜集汇总

数据集介绍

构建方式

在抗体工程领域，CDRInfilling数据集的构建过程体现了严谨的生物信息学方法。研究团队从蛋白质数据库(PDB)、专业抗体数据库及已发表文献中系统收集了具有明确结构和序列信息的纳米抗体数据。通过专业生物信息学工具对这些原始数据进行处理，精确标注了互补决定区(CDR)的边界位置，并采用掩码技术构建了序列补全任务所需的训练样本。数据集按照标准机器学习范式划分为训练集、验证集和测试集，确保模型开发过程的科学性。

特点

该数据集最显著的特征在于其专注于纳米抗体CDR区的序列补全任务。数据集提供了完整的序列上下文信息，包括框架区(FR)和其他未掩码的CDR区，为模型学习CDR序列与结构背景的复杂关系创造了条件。数据标注体系科学严谨，不仅包含掩码序列和真实CDR序列，还详细标注了掩码位置索引和CDR类型信息。这种精细的标注方式为开发高精度序列补全模型提供了必要的数据支持。

使用方法

使用该数据集时，研究人员可通过加载CSV格式的文件获取结构化数据。模型训练需要同时利用seq_masked列的掩码序列和mask_indices列的定位信息，以准确识别需要预测的区域。评估阶段应将模型输出的预测序列与true_cdr列的真实序列进行比对，可采用残基准确率和BLOSUM62相似度评分等专业指标。值得注意的是，由于CDR3区的高度变异性，建议结合多种评估指标综合判断模型性能。

背景与挑战

背景概述

纳米抗体互补决定区（CDR）填充数据集（CDRInfilling）由生物信息学和计算生物学领域的研究团队构建，旨在解决抗体工程中的关键问题。CDR作为抗体可变区的重要组成部分，直接决定了抗体的抗原识别能力和特异性。该数据集的创建基于蛋白质数据库（PDB）和已发表的文献数据，通过整合已知结构和序列的纳米抗体信息，为CDR序列预测任务提供了标准化资源。其核心研究问题聚焦于如何通过框架区（FRs）和其他CDR区域的信息，准确预测缺失的CDR序列，从而推动抗体设计、优化及抗原识别机制的研究。

当前挑战

CDRInfilling数据集面临的挑战主要体现在两个方面：其一，CDR3区域的高度变异性导致其序列预测存在多重解问题，单一序列可能对应多种功能合理的填充方案；其二，数据构建过程中需克服序列标注的复杂性，包括CDR区域的精确划分和掩码位置的确定，同时需平衡序列数据的代表性与多样性。此外，仅依赖序列信息而忽略三维结构数据可能限制模型的预测精度，使得生成的CDR序列未必具备预期的生物活性。

常用场景

经典使用场景

在抗体工程领域，CDRInfilling数据集被广泛应用于纳米抗体互补决定区（CDR）的序列补全任务。研究人员利用该数据集训练深度学习模型，通过框架区域（FRs）和其他已知CDR区域的上下文信息，预测被掩码的CDR序列。这种基于序列的补全方法为抗体设计和优化提供了高效的计算工具，显著降低了实验筛选的成本。

实际应用

在生物制药领域，CDRInfilling数据集支持了新型纳米抗体的理性设计。基于该数据集开发的预测模型已成功应用于肿瘤治疗抗体、病毒中和抗体等生物制剂的开发流程。通过计算预测与实验验证相结合的方法，显著缩短了抗体药物的研发周期，提高了候选分子的成功率。

衍生相关工作

该数据集催生了多个抗体设计领域的创新研究，包括基于Transformer的CDR生成模型、多任务学习的抗体优化框架等经典工作。部分衍生研究进一步整合了结构生物学数据，开发出能够同时预测CDR序列和三维构象的混合模型，推动了计算抗体设计方法学的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集