UniProtKB
收藏Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/LiteFold/UniProtKB
下载链接
链接失效反馈官方服务:
资源简介:
UniProtKB Processed是一个经过处理的蛋白质序列数据集,源自LiteFold/UniProtKB的FASTA分片,基于UniProtKB数据库。该数据集为蛋白质特征提取任务提供结构化的、已分割好的数据,处理流程包括解析FASTA头信息、计算序列SHA-256哈希值、分配确定性的训练/验证/测试分割,并输出为可查询的表格文件。数据集规模庞大,包含1亿至10亿个样本,每个样本代表一个UniProtKB FASTA记录,包含记录标识符、蛋白质名称、生物体名称、分类学ID、基因名称、序列长度、序列哈希值、来源数据库和数据分割信息等字段。数据分割基于序列哈希值确定性分配,默认比例为80%训练集、10%验证集和10%测试集,确保相同序列总在同一子集。数据集以JSONL压缩格式存储,附有元数据和统计摘要文件,适用于蛋白质序列分析和机器学习任务,采用CC BY 4.0许可证。
UniProtKB Processed is a processed protein sequence dataset derived from LiteFold/UniProtKB FASTA shards, which are built upon the UniProtKB database. This dataset provides structured, pre-split data for protein-related feature extraction tasks. The processing pipeline includes parsing UniProt FASTA headers, computing exact SHA-256 hashes for amino acid sequences, assigning deterministic train/validation/test splits, and finally outputting queryable tabular files. The dataset is large-scale, containing 100 million to 1 billion samples. Each data row represents a UniProtKB FASTA record with rich fields such as record identifier (record_id, accession), protein name, organism name, taxon ID, gene name, sequence length, sequence SHA-256 hash, source database, and split information (split, split_group). Data splits are deterministically assigned based on sequence hash, with a default ratio of 80% training, 10% validation, and 10% test sets, ensuring identical protein sequences are always placed in the same subset. The dataset is stored in JSONL compressed format with accompanying processing metadata and statistical summary files. It is suitable for bioinformatics tasks like protein sequence analysis and machine learning model training/evaluation, and is licensed under CC BY 4.0.
创建时间:
2026-05-10
搜集汇总
数据集介绍

构建方式
UniProtKB Processed数据集源自LiteFold/UniProtKB,通过对UniProtKB FASTA文件的头部信息进行解析与标准化,将原始序列元数据转化为结构化的表格记录。数据被组织为三个配置子集:Swiss-Prot已审阅的典范蛋白(sprot)、Swiss-Prot可变剪接异构体(sprot_varsplic)以及TrEMBL未审阅蛋白(trembl)。每个子集均预先划分了确定性的训练集、验证集和测试集,划分依据为氨基酸序列的SHA-256哈希值,确保相同序列始终位于同一划分中。为避免冗余存储,数据集中不包含完整的氨基酸序列,而是以序列哈希值标识序列身份。
特点
该数据集以约2.03亿条记录成为大规模蛋白质元数据资源,其中TrEMBL子集贡献了超过2亿条未审阅条目,而Swiss-Prot子集则提供了约57万条高置信度的经审阅蛋白信息。所有记录包含16个预解析的元数据字段,涵盖登录号、蛋白名称、生物体名称、基因名称、序列长度等重要生物学属性。缺失值采用统一的编码策略处理:整型缺失以-1填充,字符串缺失以空字符串代替,保证了数据加载的稳定性。数据集不支持单一混合配置,用户需明确选择sprot、sprot_varsplic或trembl之一进行加载,以适应不同规模的应用需求。
使用方法
用户可通过Hugging Face的datasets库便捷加载数据,例如使用load_dataset("LiteFold/UniProtKB", "sprot")获取Swiss-Prot子集。对于海量TrEMBL数据,推荐开启流式加载模式(streaming=True)以降低内存消耗。数据集的filter方法支持基于字段值的条件筛选,如按物种分类ID过滤人类蛋白(taxon_id == 9606),或按蛋白名称关键词检索激酶序列。由于划分基于精确序列而非同源簇,对于需要严格同源性控制的模型评估,建议结合UniRef或MMseqs聚类标识重新划分。每个子集的训练、验证和测试分割比例固定,可直接用于监督学习任务的训练流程。
背景与挑战
背景概述
UniProtKB(Universal Protein Knowledgebase)是全球最权威的蛋白质序列与功能注释数据库,由UniProt联盟(包括欧洲生物信息学研究所、瑞士生物信息学研究所及蛋白质信息资源)共同维护,自2002年创立以来持续更新,已成为蛋白质组学与生物信息学研究的基石。该数据集聚焦于蛋白质序列的结构化表征,核心研究问题在于如何高效整合并利用已审核(Swiss-Prot)与未审核(TrEMBL)的蛋白质条目,以支持机器学习驱动的蛋白质属性预测、序列比对与功能注释等下游任务。其影响力深远,不仅为AlphaFold等蛋白质结构预测模型提供了训练数据基础,更推动了从分子生物学到药物发现领域的知识挖掘,堪称生命科学数据工程与计算生物学交叉领域的标杆性资源。
当前挑战
该数据集面临的核心领域挑战在于如何有效处理蛋白质序列间复杂的同源性与功能多样性,以确保模型评估的严格性——当前基于精确序列的划分方式无法避免同源序列泄露,亟需通过UniRef或MMseqs聚类实现更严谨的同源感知分割。构建过程中,数据规模高达2.03亿条记录,其中TrEMBL未审核条目占比超99%,带来了显著的噪声控制难题,包括序列冗余、注释缺失及格式异构等。此外,为兼顾Hugging Face Dataset Viewer的兼容性与表格化浏览的实用性,需将FASTA头文件解析为18个规范化字段,并针对缺失值采用-1或空字符串的默认编码,这一过程涉及大规模数据清洗、分片管理及确定性哈希拆分,对分布式处理管道的鲁棒性与可复现性提出了极高要求。
常用场景
经典使用场景
在蛋白质组学与生物信息学研究中,UniProtKB作为最权威的蛋白质序列与功能知识库,其处理后的版本被广泛应用于蛋白质序列特征提取、功能注释预测以及序列相似性搜索等经典任务。研究者可利用该数据集加载经过标准化处理的蛋白质元数据,包括序列长度、物种分类、基因名称等结构化信息,从而便捷地构建蛋白质序列的数值化表征。该数据集提供了明确的训练、验证、测试集划分,为深度学习模型的公平评估奠定了坚实基础,尤其适用于蛋白质语言模型的预训练与下游任务的性能验证。
解决学术问题
该数据集解决了蛋白质序列数据格式不统一、元数据缺失以及序列冗余难以处理等关键学术问题。通过将原始的FASTA格式转换为包含记录ID、序列哈希值、蛋白质存在性指数等标准化字段的表格化数据,UniProtKB Processed为跨物种蛋白质功能预测、进化关系分析及同源序列识别提供了可复现的高质量基础资源。其基于序列哈希的确定性分割策略确保了训练集、验证集与测试集之间无序列泄漏,显著提升了蛋白质结构预测与功能注释模型的可信度与泛化能力,有力推动了计算生物学的规范性进程。
衍生相关工作
基于UniProtKB Processed数据集,衍生出了多项里程碑级的研究工作。经典的蛋白质语言模型如ESM-2和ProtBERT均依赖于UniProtKB中的千万级序列数据作为预训练语料,实现了对蛋白质结构与功能的高精度预测。此外,该数据集促使了跨模态蛋白质表示学习的兴起,研究者通过结合序列哈希索引与对比学习范式,开发出能够同时编码序列与结构信息的高效嵌入方法。在生物信息学工具链中,基于该数据集的标准化分割协议已衍生出若干自动化评估框架,如用于蛋白质亚细胞定位预测、基因本体功能标注等基准测试系统,持续推动着学术界的创新与合作。
以上内容由遇见数据集搜集并总结生成



