COGNANO/VHHCorpus-2M

Name: COGNANO/VHHCorpus-2M
Creator: COGNANO
Published: 2024-10-17 06:36:43
License: 暂无描述

Hugging Face2024-10-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/COGNANO/VHHCorpus-2M

下载链接

链接失效反馈

官方服务：

资源简介：

VHHCorpus-2M是一个包含超过两百万个全长氨基酸序列的数据集，这些序列来自重链抗体的重链可变域（VHH）。该数据集用于预训练VHHBERT，一个特定的VHH语言模型，已在Hugging Face Hub上发布。数据集的详细信息可以在论文《A SARS-CoV-2 Interaction Dataset and VHH Sequence Corpus for Antibody Language Models》中找到。数据集包含的列有VHH_sequence（VHH的氨基酸序列）、subject_species（收集VHH的物种）、subject_name（收集VHH的个体名称）和subject_sex（收集VHH的个体性别）。

提供机构：

COGNANO

原始信息汇总

VHHCorpus-2M 数据集概述

数据集描述

VHHCorpus-2M 是一个包含超过两百万条全长度氨基酸序列的数据集，这些序列属于重链抗体（VHH）的变量域重链。该数据集用于训练了 VHH-specific 语言模型 VHHBERT。

数据集内容

列信息

列名	描述
VHH_sequence	VHH 的氨基酸序列
subject_species	VHH 来源的物种
subject_name	VHH 来源的个体名称
subject_sex	VHH 来源的个体性别

引用信息

若在研究中使用 VHHCorpus-2M，请引用以下文献：

bibtex @article{tsuruta2024sars, title={A {SARS}-{C}o{V}-2 Interaction Dataset and {VHH} Sequence Corpus for Antibody Language Models}, author={Hirofumi Tsuruta and Hiroyuki Yamazaki and Ryota Maeda and Ryotaro Tamura and Akihiro Imura}, journal={arXiv preprint arXiv:2405.18749}, year={2024} }

搜集汇总

数据集介绍

构建方式

在抗体工程学领域，VHHCorpus-2M数据集的构建体现了对驼源重链抗体可变区（VHH）序列的系统性收集。该数据集通过整合公开的生物信息学资源与实验数据，筛选并清洗了超过两百万条完整的VHH氨基酸序列。每条序列均关联了来源物种、个体名称及性别等元数据，确保了数据的可追溯性与生物学背景的完整性。构建过程严格遵循生物序列数据处理规范，旨在为抗体语言模型提供高质量、大规模的预训练语料。

特点

VHHCorpus-2M的核心特点在于其规模性与特异性，囊括了海量的VHH全长氨基酸序列，为抗体工程研究提供了前所未有的数据基础。数据集不仅覆盖广泛的物种来源，还标注了详细的生物学属性，使得序列分析与模型训练能够结合具体的生物学上下文。其结构清晰，以标准化列格式呈现，便于直接应用于机器学习流程，同时通过关联预训练模型VHHBERT，推动了抗体特异性语言模型的发展。

使用方法

该数据集主要应用于抗体语言模型的预训练与微调，用户可通过Hugging Face平台直接访问序列数据，结合提供的VHHBERT模型进行下游任务，如抗体亲和力预测或设计。研究人员可依据物种、性别等元数据筛选子集，进行特定生物学场景的分析。数据集支持以FASTA或CSV格式加载，并兼容主流生物信息学工具，便于集成到现有计算管道中，促进抗体发现与蛋白质工程领域的创新。

背景与挑战

背景概述

在计算生物学与人工智能交叉领域，抗体工程正经历着深刻的范式转变。由COGNANO团队于2024年构建的VHHCorpus-2M数据集，收录了超过两百万条完整的重链抗体可变区（VHH）氨基酸序列。该数据集的核心研究目标在于为抗体特异性语言模型提供大规模、高质量的预训练语料，以应对传统抗体发现方法在效率与通用性上的局限。通过支撑VHHBERT等模型的训练，该资源显著推动了基于深度学习的抗体表征与设计研究，为新型疗法开发提供了关键的数据基础。

当前挑战

该数据集致力于解决抗体工程中VHH序列分析与设计的核心挑战，其难点在于如何从海量、高维的氨基酸序列中有效捕捉决定其结构与功能的复杂模式。在构建过程中，研究团队面临多重挑战：首先，需要从分散的生物学实验数据中系统性地收集、清洗并标准化超过两百万条VHH序列，确保数据的完整性与一致性；其次，必须为每条序列精确标注其来源物种、个体及性别等元数据，这对数据溯源与后续的生物学解释至关重要；最后，构建一个适用于预训练大规模语言模型的专用语料库，需在数据规模、质量与多样性之间取得精妙平衡。

常用场景

经典使用场景

在计算生物学与免疫学领域，VHHCorpus-2M数据集以其超过两百万条完整重链抗体可变区（VHH）氨基酸序列的规模，为抗体语言模型的预训练提供了核心资源。该数据集常被用于构建和优化针对VHH序列的深度学习模型，如VHHBERT，通过大规模序列学习捕捉抗体结构的潜在语义与进化模式，从而推动抗体工程与设计的自动化进程。

解决学术问题

该数据集有效应对了抗体研究中数据稀缺与序列多样性表征不足的挑战。通过提供海量VHH序列，它支持研究人员探索抗体序列与功能之间的复杂关联，促进了抗体亲和力预测、人源化设计及表位识别等关键问题的解决，为免疫信息学与结构生物学提供了坚实的数据基础，加速了新型治疗性抗体的发现与优化。

衍生相关工作

围绕VHHCorpus-2M，已衍生出一系列经典研究工作，其中最具代表性的是VHHBERT预训练模型的发布。该模型利用数据集进行掩码语言建模训练，成功提升了抗体序列下游任务的性能。此外，相关研究还拓展至抗体-抗原相互作用预测、多特异性抗体设计等方向，进一步丰富了抗体计算设计的学术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集