uniref50_processed

Name: uniref50_processed
Creator: DeepFoldProtein
Published: 2025-11-09 17:47:40
License: 暂无描述

Hugging Face2025-11-09 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/DeepFoldProtein/uniref50_processed

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个预处理的UniRef50快照，用于无监督蛋白质表示学习。它包括了序列规范化、长度过滤、模糊度过滤和去重等预处理步骤，并根据UniRef50簇ID进行数据分割。

提供机构：

DeepFoldProtein

创建时间：

2025-11-09

原始信息汇总

UniRef50 (Processed, ESM-valid as Validation) 数据集概述

数据集简介

这是一个专门为无监督蛋白质表示学习设计的预处理UniRef50数据集快照
数据集经过序列标准化、长度过滤、歧义性过滤和去重处理
采用UniRef50聚类ID进行分割以避免数据泄露
使用ESM官方验证头文件作为整个验证集分割
提供JSONL.zst分片格式以支持高效流式处理

数据来源

上游数据：UniProt / UniRef50（2018_03快照）
评估头文件：来自ESM论文的uniref201803_ur50_valid_headers.txt

数据分割

分割	定义	说明
`train`	所有不在ESM验证集中且未哈希到测试集的聚类	UniRef50的主要部分
`valid`	仅包含ESM验证头文件列表中的聚类	所有记录的`is_esm_valid=true`字段
`test`	基于聚类的哈希保留：`xxhash64(cluster_id) % 100 == 2`	小型随机保留集

特征字段

字段名	类型	描述
`id`	string	稳定ID = `cluster_id
`sequence`	string	标准化氨基酸序列（大写；移除`*`）
`length`	int32	标准化后的序列长度
`cluster_id`	string	UniRef50聚类ID（例如：`UniRef50_Q8WZ42-5`）
`description`	string?	从FASTA头文件解析的可选描述（在`Cluster:`之后）
`seq_md5`	string	标准化序列的MD5值
`is_esm_valid`	bool	当记录属于ESM验证头文件集时为`true`

预处理与过滤

标准化： 大写转换，移除末端/内部*
长度过滤： 保留30 ≤ L ≤ 1024的序列
歧义性过滤： 保留非标准残基比例≤5%的序列（标准残基为ACDEFGHIKLMNPQRSTVWY）
去重处理： 基于标准化序列MD5的全局精确去重
分割方式： 按聚类ID进行分割
头文件解析： FASTA行如>UniRef50_Q8WZ42-5 Cluster: Isoform 5 of Titin → cluster_id="UniRef50_Q8WZ42-5", description="Isoform 5 of Titin"

预期用途

蛋白质语言模型/编码器的自监督训练
与ESM论文对齐的评估，使用官方验证头文件集作为验证集
不适用于临床用途，不含个人数据

许可信息

数据源： UniProt / UniRef50，需遵循UniProt许可和归属要求：https://www.uniprot.org/help/license
衍生数据集： 重新分发时必须注明UniProt来源并包含其许可链接

引用要求

UniProt：

The UniProt Consortium. UniProt: the universal protein knowledgebase. Nucleic Acids Res. (2018)

ESM：

Rives et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (2023)

已知限制

快照漂移： 基于UniRef50（2018_03）版本，后续版本可能有所不同
非随机验证： 验证集由ESM策划的头文件列表定义（设计如此）
歧义性处理： 歧义残基比例>5%的序列被丢弃
去重范围： 仅基于标准化序列进行去重（非聚类共识）

搜集汇总

数据集介绍

构建方式

在蛋白质序列分析领域，UniRef50_processed数据集基于UniProt/UniRef50的2018_03版本快照构建，通过系统化预处理流程优化了原始数据。该流程包括序列标准化（转换为大写并移除终止符*）、长度筛选（保留30至1024个残基的序列）以及歧义过滤（排除非标准氨基酸比例超过5%的序列）。通过MD5哈希值实现全局去重，并依据UniRef50聚类标识符划分训练、验证与测试集，其中验证集严格采用ESM论文官方标头列表，确保评估标准的一致性。

特点

该数据集专为无监督蛋白质表示学习设计，其核心特征体现在严谨的数据结构与质量控制机制。所有序列均经过归一化处理并附带完整元数据，包括聚类标识符、描述文本及序列MD5校验值。通过聚类级别的数据划分策略，有效避免了同源序列在训练与评估间的信息泄露。特别设置的ESM验证标志位使得用户能精准提取符合主流研究范式的验证子集，为蛋白质语言模型的跨研究可比性提供保障。

使用方法

借助HuggingFace数据集库的流式加载功能，用户可高效处理大规模蛋白质序列数据。通过指定数据集仓库路径与分割参数，既能以流模式逐批读取训练数据，也可直接加载完整测试集进行本地分析。内置的过滤接口支持动态提取ESM验证集，配合提供的统计工具函数，用户能快速获取各分割集的序列长度分布特征。这种设计兼顾了大数据量场景下的内存效率与研究便捷性，适用于蛋白质结构预测和进化分析等任务。

背景与挑战

背景概述

蛋白质序列表示学习作为计算生物学的前沿领域，旨在通过无监督方法捕捉蛋白质序列的进化与结构特征。UniRef50_processed数据集基于2018年发布的UniRef50数据库构建，由DeepFold团队针对蛋白质语言模型训练需求进行标准化处理。该数据集通过严格的序列过滤与去重机制，确保了数据质量，并采用ESM模型官方验证集作为基准，为蛋白质功能预测与结构推断研究提供了标准化评估框架。

当前挑战

该数据集需应对蛋白质序列表示中的两大核心挑战：其一，在领域问题层面，需解决蛋白质序列高变异性与功能保守性之间的复杂映射关系，这对模型捕捉远程同源性与结构敏感特征提出极高要求；其二，在构建过程中，面临序列长度分布差异大、模糊残基过滤阈值设定、以及基于聚类划分防止数据泄露等多重技术难题，这些因素直接影响模型训练的稳定性与泛化能力。

常用场景

经典使用场景

在蛋白质结构预测领域，uniref50_processed数据集作为预处理的UniRef50快照，专为无监督蛋白质表示学习而设计。其经典应用场景包括训练能够捕捉蛋白质序列进化信息的语言模型，通过标准化序列处理、长度筛选和去重机制，确保模型在跨簇数据分割下有效学习序列的保守性与变异性特征。

衍生相关工作

基于该数据集衍生的经典工作包括ESM系列蛋白质语言模型的开发，其通过大规模自监督学习实现了原子级结构预测突破。后续研究进一步拓展至蛋白质相互作用预测、折叠类别分类等方向，催生了如ProGen等生成式模型在人工蛋白质设计中的应用创新。

数据集最近研究