uniref100

Hugging Face2026-03-30 更新2026-03-31 收录

下载链接：

https://huggingface.co/datasets/ConvergeBio/uniref100

下载链接

链接失效反馈

官方服务：

资源简介：

UniRef100数据集是UniProt提供的完整蛋白质序列资源，包含UniProtKB中的所有独特蛋白质序列以及部分UniParc记录，是目前最全面的非相同序列资源。数据集以分片Parquet格式存储，包含475,217,233个蛋白质簇，每个簇代表一个独特的蛋白质序列及其相关元数据。数据集中的每个条目包含丰富的字段信息，如簇标识符、名称、更新日期、成员数量、共同分类单元、GO注释（分子功能、生物过程、细胞组分）、成员ID列表、代表性成员信息（ID、类型、来源生物、蛋白质名称等）、蛋白质序列及其长度、校验和等。序列长度范围从2到49,499个氨基酸（中位数311，均值392），每个簇的成员数量从1到15,375不等（中位数1，均值1.1）。GO注释覆盖率为：分子功能38.5%，生物过程26.1%，细胞组分25.1%。数据集适用于蛋白质特征提取、生物信息学分析等任务，采用CC BY 4.0许可协议。

创建时间：

2026-03-26

原始信息汇总

UniRef100 数据集概述

数据集基本信息

数据集名称：UniRef100
发布者：ConvergeBio
语言：英语
许可协议：CC BY 4.0
标签：生物学、蛋白质、蛋白质序列、uniref、uniref100、蛋白质组学、生物信息学
任务类别：特征提取
规模类别：1亿 < n < 10亿
数据格式：Parquet
下载大小：142,794,964,632 字节
数据集地址：https://huggingface.co/datasets/ConvergeBio/uniref100

数据集摘要

集群数量：475,217,233
数据分片：970
压缩后大小：约133 GB (zstd压缩)
序列长度范围：2 至 49,499 个氨基酸（中位数311，平均值392）
每个集群成员数：1 至 15,375（中位数1，平均值1.1）
基因本体注释覆盖率：
- 分子功能：38.5%
- 生物过程：26.1%
- 细胞组分：25.1%
更新日期范围：2006-10-31 至 2026-01-28

数据内容描述

UniRef100 数据集包含来自 UniProt 的完整 UniRef100 数据，已从 XML 格式转换为分片 Parquet 格式。该数据集汇集了 UniProtKB 中的每个独特蛋白质序列以及选定的 UniParc 记录，提供了最全面的非相同序列资源。

数据结构

每个数据行代表一个 UniRef100 集群及其代表性序列和元数据。

特征列说明

列名	数据类型	描述
`id`	`string`	集群标识符（例如 `UniRef100_P12345`）
`name`	`string`	来自 UniProt 的集群名称
`updated`	`string`	最后更新日期（`YYYY-MM-DD`）
`member_count`	`int32`	集群中的序列数量
`common_taxon`	`string`	成员间最低共同分类单元
`common_taxon_id`	`int32`	共同分类单元的 NCBI 分类学 ID
`seed_id`	`string`	种子序列的 ID
`go_mf`	`list<string>`	基因本体分子功能术语（`GO:XXXXXXX`）
`go_bp`	`list<string>`	基因本体生物过程术语
`go_cc`	`list<string>`	基因本体细胞组分术语
`member_ids`	`list<string>`	所有成员序列 ID
`rep_member_id`	`string`	代表性成员 ID
`rep_member_id_type`	`string`	ID 类型（例如 `UniProtKB ID`、`UniParc ID`）
`rep_organism`	`string`	代表性序列的来源生物体
`rep_organism_tax_id`	`int32`	代表性生物体的 NCBI 分类学 ID
`rep_protein_name`	`string`	代表性序列的蛋白质名称
`rep_accessions`	`list<string>`	代表性序列的 UniProtKB 登录号
`rep_uniparc_id`	`string`	代表性序列的 UniParc ID
`rep_uniref50_id`	`string`	父级 UniRef50 集群 ID
`rep_uniref90_id`	`string`	父级 UniRef90 集群 ID
`rep_is_seed`	`bool`	代表性序列是否为种子序列
`sequence`	`large_string`	代表性蛋白质序列（大写氨基酸字母表）
`sequence_length`	`int32`	序列长度（残基数）
`sequence_crc64`	`string`	来自 UniProt 的 CRC64 校验和（十六进制）
`sequence_xxh128`	`string`	序列的 xxHash-128 值（十六进制，构建时计算）

数据划分

训练集：475,217,233 个样本

数据处理

数据源：来自 UniProt FTP 的 uniref100.xml.gz 文件（https://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref100/）
解析方法：使用 lxml.etree.iterparse 进行流式 XML 解析，多进程处理以提高吞吐量
完整性验证：为每个序列计算 xxHash-128；保留源 XML 中的 CRC64 校验和
数据验证：通过了所有层级的验证，包括模式一致性、无空/空序列、xxHash 往返验证、CRC64 格式、GO 术语格式、成员 ID 一致性以及与源 XML 的逐字段比较
存储格式：使用 zstd 压缩的分片 Parquet 文件

来源与引用

UniRef 由 UniProt 联盟制作：

Suzek BE, Wang Y, Huang H, McGarvey PB, Wu CH, UniProt Consortium. "UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches." Bioinformatics 31(6):926–932 (2015). https://doi.org/10.1093/bioinformatics/btu739

相关数据集

本数据集是 ConvergeBio 蛋白质数据库集合的一部分，相关数据集包括：

UniRef90：https://huggingface.co/datasets/ConvergeBio/uniref90
UniRef50：https://huggingface.co/datasets/ConvergeBio/uniref50
UniClust30：https://huggingface.co/datasets/ConvergeBio/uniclust30

搜集汇总

数据集介绍

构建方式

在蛋白质组学领域，构建高质量的数据集是推动生物信息学发展的基石。UniRef100数据集通过整合UniProtKB中的全部独特蛋白质序列及精选的UniParc记录，形成了目前最全面的非冗余序列资源。其构建过程采用流式XML解析技术，利用lxml.etree.iterparse进行多进程处理，确保了数据的高效提取与转换。原始数据来源于UniProt FTP服务器，经过严格的完整性验证，包括计算每一条序列的xxHash-128哈希值并保留源数据中的CRC64校验码，最终将数据转换为分片的Parquet格式，并采用zstd压缩算法进行存储，从而在保障数据完整性的同时优化了存储与访问效率。

使用方法

在生物信息学研究中，高效利用大规模蛋白质序列数据集至关重要。UniRef100数据集可通过Hugging Face的datasets库直接加载，支持流式读取与完全下载两种模式。用户只需调用load_dataset函数并指定数据集名称，即可获取训练分割中的数据。流式模式允许在不完全下载数据的情况下进行迭代访问，适合处理海量数据；而完全加载模式则便于本地分析与批量处理。数据以行为单位，每行对应一个蛋白质簇，包含标识符、序列、长度及各类元数据字段，用户可根据研究需求提取相应信息，例如进行序列特征提取、聚类分析或功能注释挖掘，从而支撑蛋白质结构预测、进化分析及药物发现等前沿探索。

背景与挑战

背景概述

蛋白质序列数据库的构建与整合是生物信息学领域的核心任务之一，旨在为生命科学研究提供系统性的数据支撑。UniRef100数据集由UniProt联盟于2015年正式发布，作为UniRef系列中最为精细的聚类资源，其核心研究问题在于如何高效整合全球范围内已知的非冗余蛋白质序列，以支持大规模序列相似性搜索与功能注释。该数据集通过将UniProtKB与UniParc中的每条独特序列聚类为单一代表，显著提升了序列分析的效率与准确性，对蛋白质结构预测、进化研究和药物发现等领域产生了深远影响，成为现代计算生物学不可或缺的基础设施。

当前挑战

UniRef100所应对的领域挑战主要集中于处理海量蛋白质序列的相似性聚类与功能注释难题，其需在保证序列唯一性的同时，准确关联基因本体（GO）术语等生物学元数据，以支撑精准的蛋白质功能推断。在构建过程中，技术挑战尤为突出，包括如何从动态更新的异构数据源中实时解析与整合数亿条序列，确保数据完整性并维持极低的错误率；同时，高效存储与检索如此庞大规模的数据集，要求设计优化的压缩算法与分布式架构，以平衡计算资源与访问性能，这些挑战共同推动了生物信息学数据处理方法的革新。

常用场景

经典使用场景

在蛋白质组学与生物信息学领域，UniRef100数据集作为最全面的非冗余蛋白质序列资源，其经典使用场景聚焦于大规模序列相似性搜索与功能注释。研究者利用该数据集构建高效的序列比对索引，通过比对未知蛋白质序列与UniRef100中的代表性序列，快速推断其潜在功能、进化关系及结构特征。这种基于集群的搜索策略显著提升了海量序列数据库的查询效率，为基因组注释、蛋白质家族分类等基础研究提供了核心数据支撑。

解决学术问题

UniRef100数据集有效解决了蛋白质序列数据爆炸性增长带来的计算挑战与生物学解释难题。通过将高度相似的序列聚类为单一代表性条目，它大幅降低了数据冗余度，使得大规模序列分析变得可行。该数据集为蛋白质功能预测、进化树构建、保守域识别等研究提供了标准化输入，促进了跨物种比较基因组学的发展，并成为机器学习模型训练中不可或缺的基准数据源，推动了计算生物学方法的创新。

实际应用

在实际应用中，UniRef100数据集是生物医药研发与工业生物技术的关键基础设施。制药公司利用其进行药物靶点发现，通过分析病原体或疾病相关蛋白的保守序列区域来设计新型抑制剂。在酶工程领域，工程师依据序列聚类结果挖掘具有特定催化活性的蛋白质变体，用于优化生物制造过程。此外，该数据集还支撑了诊断试剂的开发，帮助识别高度特异的抗原表位序列。

数据集最近研究