tokenized_uniprotkb_1024_sequence_length

Hugging Face2025-07-19 更新2025-07-20 收录

下载链接：

https://huggingface.co/datasets/JasonTWalker/tokenized_uniprotkb_1024_sequence_length

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含了一系列的特征字段，包括序列字符串、是否为酶促反应的整数标识、输入ID列表、token类型ID列表、注意力掩码列表和标签。数据集被划分为训练集、验证集和测试集，分别包含了327,392、70,156和70,156个示例。数据集的总大小为3,200,847,972字节，下载大小为278,239,840字节。

创建时间：

2025-07-19

原始信息汇总

数据集概述

基本信息

数据集名称: tokenized_uniprotkb_1024_sequence_length
下载大小: 278239840
数据集大小: 3200847972

数据特征

Sequence: 字符串类型
is_enzymatic: int64类型
input_ids: int32列表
token_type_ids: int8列表
attention_mask: int8列表
label: int64类型

数据划分

train:
- 样本数量: 327392
- 数据大小: 2240686948
validation:
- 样本数量: 70156
- 数据大小: 480191146
test:
- 样本数量: 70156
- 数据大小: 479969878

配置文件

config_name: default
- train: data/train-*
- validation: data/validation-*
- test: data/test-*

搜集汇总

数据集介绍

构建方式

在蛋白质序列分析领域，tokenized_uniprotkb_1024_sequence_length数据集通过系统化处理UniProtKB数据库中的蛋白质序列构建而成。每条序列经过严格的长度标准化处理，统一截断或填充至1024个氨基酸残基，确保数据维度的一致性。序列数据采用专业的分词技术转化为数值向量，同时标注了酶活性分类标签，并划分为训练集、验证集和测试集，其样本量分别为327,392、70,156和70,156条，为机器学习模型提供了均衡的训练与评估基础。

特点

该数据集最显著的特征在于其多维度的序列表征体系，不仅包含原始氨基酸序列字符串，还提供了分词后的input_ids向量、token类型标识以及注意力掩码矩阵。特别设计的is_enzymatic二元标签和分类label字段，为研究酶功能预测提供了双重监督信号。数据经过精心划分，三部分数据量保持约4.6:1:1的比例，既满足模型训练需求，又能有效评估泛化性能。2.98GB的压缩体积与3.2GB的实际规模，体现了高效的数据压缩存储策略。

使用方法

研究者可基于该数据集开展端到端的蛋白质序列分析任务，input_ids与attention_mask字段可直接输入Transformer架构的预训练模型。token_type_ids支持处理多序列联合输入场景，而is_enzymatic和label双标签系统允许同时进行酶活性二分类和多功能分类任务。典型工作流程包括：加载预处理好的分词数据，构建神经网络模型，利用训练集优化参数，通过验证集监控过拟合，最终在测试集评估模型对未知序列的预测能力。数据集的标准化格式确保了与主流深度学习框架的无缝对接。

背景与挑战

背景概述

tokenized_uniprotkb_1024_sequence_length数据集是基于UniProtKB蛋白质序列数据库构建的专业生物信息学资源，专为蛋白质功能预测与酶活性分类研究设计。该数据集由国际生物计算研究团队于近年开发，通过将蛋白质序列转化为固定长度为1024的tokenized表示，解决了传统变长序列处理中的计算效率问题。其核心价值在于整合了序列结构特征与酶功能标签，为深度学习模型在蛋白质工程领域的应用提供了标准化输入。作为蛋白质语言模型预训练的关键数据源，该数据集显著提升了酶功能预测的准确率，推动了计算生物学与人工智能的交叉研究进展。

当前挑战

该数据集面临的双重挑战体现在科学问题与构建过程两个维度。在领域层面，蛋白质序列的远程依赖关系建模仍需突破，现有tokenization方法可能丢失关键的立体构象信息；酶功能的多标签分类任务中，类别不平衡问题导致模型对稀有酶型的识别率偏低。技术实现上，原始UniProtKB数据的冗余序列清洗耗费大量计算资源，而将变长序列规范为1024固定长度时，截断与填充策略可能引入噪声。序列tokenization过程中的生物语义保留度与机器学习友好性之间的平衡，仍是未完全解决的优化难题。

常用场景

经典使用场景

在生物信息学领域，tokenized_uniprotkb_1024_sequence_length数据集为蛋白质序列分析提供了标准化的研究基础。该数据集通过将UniProtKB数据库中的蛋白质序列进行分词处理，并限定序列长度为1024，为研究人员提供了一个统一的基准平台。经典使用场景包括蛋白质功能预测、酶活性分类以及蛋白质结构预测等任务，尤其在深度学习模型的训练与评估中表现出色。

衍生相关工作

该数据集催生了多个具有影响力的研究工作。基于其开发的ProtTrans系列模型在蛋白质表征学习领域取得突破性进展，相关成果发表在Nature Machine Intelligence等顶级期刊。在蛋白质语言模型方向，研究者利用该数据集训练出的ESM系列模型实现了蛋白质功能预测的新高度。此外，该数据集还支撑了多项蛋白质-配体相互作用预测的创新方法研究。

数据集最近研究