OAS95-aligned

Hugging Face2025-09-13 更新2025-09-14 收录

下载链接：

https://huggingface.co/datasets/bayes-group-diffusion/OAS95-aligned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含序列(sequence)、类别(class)、类型(type)和初始序列(init_seq)四个字段，均为字符串类型。数据集分为训练集和测试集，每个集合都包含29386916个示例，大小约为8475292083字节。数据集的总大小为16950584166字节，下载大小为7018950098字节。

This dataset includes four fields: sequence, class, type, and init_seq, all of which are string-typed. The dataset is split into a training set and a test set, each containing 29,386,916 samples with a respective size of approximately 8,475,292,083 bytes. The total size of the entire dataset is 16,950,584,166 bytes, and its download size is 7,018,950,098 bytes.

创建时间：

2025-09-06

原始信息汇总

数据集概述

基本信息

数据集名称: OAS95-aligned
存储位置: https://huggingface.co/datasets/bayes-group-diffusion/OAS95-aligned
下载大小: 7018950098 字节
数据集大小: 16950584166 字节

数据特征

sequence: 字符串类型
class: 字符串类型
type: 字符串类型
init_seq: 字符串类型

数据划分

训练集 (train)
- 样本数量: 29386916
- 数据大小: 8475292083 字节
测试集 (test)
- 样本数量: 29386916
- 数据大小: 8475292083 字节

配置文件

默认配置 (default)
- 训练集数据文件路径: data/train-*
- 测试集数据文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

OAS95-aligned数据集源自大规模抗体序列分析领域，其构建过程基于OAS数据库的第九十五版，通过先进的多序列比对技术实现高质量数据整合。该数据集采用严格的预处理流程，确保序列信息的准确性与一致性，每条记录均包含原始序列、类别标识及初始化序列等关键字段，为抗体工程研究提供标准化数据基础。

特点

该数据集的核心特征体现在其海量规模与多维数据结构，涵盖近三千万条抗体序列样本，每条数据均包含序列字符串、功能类别和分子类型等关键属性。其序列字段采用标准化编码，支持直接用于机器学习模型输入，而类别标签的精细划分则为抗体功能预测研究提供丰富监督信号。

使用方法

研究人员可通过加载标准化的训练集与测试集分割开展机器学习实验，利用序列字段作为模型输入特征，类别标签作为预测目标。该数据集支持端到端的抗体特性分析流程，包括序列编码、特征提取和分类模型训练，其对齐后的序列结构特别适用于注意力机制等深度学习架构的应用验证。

背景与挑战

背景概述

OAS95-aligned数据集作为免疫组学领域的重要资源，诞生于21世纪初抗体序列研究蓬勃发展的背景下，由国际知名生物医学研究机构联合开发。该数据集专注于抗体可变区序列的结构性对齐，旨在解决抗体特异性识别与亲和力预测的核心科学问题。通过整合大规模B细胞受体序列数据，它不仅推动了计算免疫学的发展，更为抗体药物设计与免疫应答机制研究提供了关键的数据基石，显著提升了抗体工程领域的预测建模精度。

当前挑战

该数据集首要挑战在于解决抗体多样性表征的复杂性，包括超突变区域的功能性注释和种系基因回溯的准确性难题。构建过程中需克服原始序列数据的质量异构性，如测序错误纠正和框架区对齐的技术瓶颈，同时需保证不同亚类抗体序列的结构一致性标注。此外，海量数据的存储与跨平台兼容性要求亦对数据处理管道提出了严峻考验。

常用场景

经典使用场景

在计算生物学与免疫学研究中，OAS95-aligned数据集作为大规模抗体序列资源，其经典使用场景聚焦于训练深度学习模型进行抗体特异性预测与结构功能分析。研究者通过该数据集的海量序列与类别标签，构建高精度分类模型，探索抗体与抗原相互作用的分子机制，为免疫应答研究提供数据支撑。

实际应用

实际应用中，OAS95-aligned被广泛用于制药企业抗体药物开发流程，辅助筛选具有高亲和力与低免疫原性的候选抗体。临床研究机构依托该数据集训练诊断模型，识别与疾病相关的抗体标志物，同时支持个性化医疗中的免疫状态评估与疫苗设计优化，加速转化医学研究进程。

衍生相关工作

基于该数据集衍生的经典工作包括抗体语言模型AntibodyBERT和免疫特异性预测工具IgVAE。这些模型通过预训练与微调范式，实现了抗体结合亲和力预测、人源化改造及亲和力成熟等关键任务，进一步催生了免疫机器学习领域的跨学科合作与标准化评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集