uniref50_processed
收藏Hugging Face2025-11-09 更新2025-11-10 收录
下载链接:
https://huggingface.co/datasets/DeepFoldProtein/uniref50_processed
下载链接
链接失效反馈官方服务:
资源简介:
这是一个预处理的UniRef50快照,用于无监督蛋白质表示学习。它包括了序列规范化、长度过滤、模糊度过滤和去重等预处理步骤,并根据UniRef50簇ID进行数据分割。
提供机构:
DeepFoldProtein
创建时间:
2025-11-09
原始信息汇总
UniRef50 (Processed, ESM-valid as Validation) 数据集概述
数据集简介
- 这是一个专门为无监督蛋白质表示学习设计的预处理UniRef50数据集快照
- 数据集经过序列标准化、长度过滤、歧义性过滤和去重处理
- 采用UniRef50聚类ID进行分割以避免数据泄露
- 使用ESM官方验证头文件作为整个验证集分割
- 提供JSONL.zst分片格式以支持高效流式处理
数据来源
- 上游数据:UniProt / UniRef50(2018_03快照)
- 评估头文件:来自ESM论文的
uniref201803_ur50_valid_headers.txt
数据分割
| 分割 | 定义 | 说明 |
|---|---|---|
train |
所有不在ESM验证集中且未哈希到测试集的聚类 | UniRef50的主要部分 |
valid |
仅包含ESM验证头文件列表中的聚类 | 所有记录的is_esm_valid=true字段 |
test |
基于聚类的哈希保留:xxhash64(cluster_id) % 100 == 2 |
小型随机保留集 |
特征字段
| 字段名 | 类型 | 描述 |
|---|---|---|
id |
string | 稳定ID = `cluster_id |
sequence |
string | 标准化氨基酸序列(大写;移除*) |
length |
int32 | 标准化后的序列长度 |
cluster_id |
string | UniRef50聚类ID(例如:UniRef50_Q8WZ42-5) |
description |
string? | 从FASTA头文件解析的可选描述(在Cluster:之后) |
seq_md5 |
string | 标准化序列的MD5值 |
is_esm_valid |
bool | 当记录属于ESM验证头文件集时为true |
预处理与过滤
- 标准化: 大写转换,移除末端/内部
* - 长度过滤: 保留
30 ≤ L ≤ 1024的序列 - 歧义性过滤: 保留非标准残基比例≤5%的序列(标准残基为
ACDEFGHIKLMNPQRSTVWY) - 去重处理: 基于标准化序列MD5的全局精确去重
- 分割方式: 按聚类ID进行分割
- 头文件解析: FASTA行如
>UniRef50_Q8WZ42-5 Cluster: Isoform 5 of Titin→cluster_id="UniRef50_Q8WZ42-5",description="Isoform 5 of Titin"
预期用途
- 蛋白质语言模型/编码器的自监督训练
- 与ESM论文对齐的评估,使用官方验证头文件集作为验证集
- 不适用于临床用途,不含个人数据
许可信息
- 数据源: UniProt / UniRef50,需遵循UniProt许可和归属要求:https://www.uniprot.org/help/license
- 衍生数据集: 重新分发时必须注明UniProt来源并包含其许可链接
引用要求
UniProt:
The UniProt Consortium. UniProt: the universal protein knowledgebase. Nucleic Acids Res. (2018)
ESM:
Rives et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (2023)
已知限制
- 快照漂移: 基于UniRef50(2018_03)版本,后续版本可能有所不同
- 非随机验证: 验证集由ESM策划的头文件列表定义(设计如此)
- 歧义性处理: 歧义残基比例>5%的序列被丢弃
- 去重范围: 仅基于标准化序列进行去重(非聚类共识)
搜集汇总
数据集介绍
构建方式
在蛋白质序列分析领域,UniRef50_processed数据集基于UniProt/UniRef50的2018_03版本快照构建,通过系统化预处理流程优化了原始数据。该流程包括序列标准化(转换为大写并移除终止符*)、长度筛选(保留30至1024个残基的序列)以及歧义过滤(排除非标准氨基酸比例超过5%的序列)。通过MD5哈希值实现全局去重,并依据UniRef50聚类标识符划分训练、验证与测试集,其中验证集严格采用ESM论文官方标头列表,确保评估标准的一致性。
特点
该数据集专为无监督蛋白质表示学习设计,其核心特征体现在严谨的数据结构与质量控制机制。所有序列均经过归一化处理并附带完整元数据,包括聚类标识符、描述文本及序列MD5校验值。通过聚类级别的数据划分策略,有效避免了同源序列在训练与评估间的信息泄露。特别设置的ESM验证标志位使得用户能精准提取符合主流研究范式的验证子集,为蛋白质语言模型的跨研究可比性提供保障。
使用方法
借助HuggingFace数据集库的流式加载功能,用户可高效处理大规模蛋白质序列数据。通过指定数据集仓库路径与分割参数,既能以流模式逐批读取训练数据,也可直接加载完整测试集进行本地分析。内置的过滤接口支持动态提取ESM验证集,配合提供的统计工具函数,用户能快速获取各分割集的序列长度分布特征。这种设计兼顾了大数据量场景下的内存效率与研究便捷性,适用于蛋白质结构预测和进化分析等任务。
背景与挑战
背景概述
蛋白质序列表示学习作为计算生物学的前沿领域,旨在通过无监督方法捕捉蛋白质序列的进化与结构特征。UniRef50_processed数据集基于2018年发布的UniRef50数据库构建,由DeepFold团队针对蛋白质语言模型训练需求进行标准化处理。该数据集通过严格的序列过滤与去重机制,确保了数据质量,并采用ESM模型官方验证集作为基准,为蛋白质功能预测与结构推断研究提供了标准化评估框架。
当前挑战
该数据集需应对蛋白质序列表示中的两大核心挑战:其一,在领域问题层面,需解决蛋白质序列高变异性与功能保守性之间的复杂映射关系,这对模型捕捉远程同源性与结构敏感特征提出极高要求;其二,在构建过程中,面临序列长度分布差异大、模糊残基过滤阈值设定、以及基于聚类划分防止数据泄露等多重技术难题,这些因素直接影响模型训练的稳定性与泛化能力。
常用场景
经典使用场景
在蛋白质结构预测领域,uniref50_processed数据集作为预处理的UniRef50快照,专为无监督蛋白质表示学习而设计。其经典应用场景包括训练能够捕捉蛋白质序列进化信息的语言模型,通过标准化序列处理、长度筛选和去重机制,确保模型在跨簇数据分割下有效学习序列的保守性与变异性特征。
衍生相关工作
基于该数据集衍生的经典工作包括ESM系列蛋白质语言模型的开发,其通过大规模自监督学习实现了原子级结构预测突破。后续研究进一步拓展至蛋白质相互作用预测、折叠类别分类等方向,催生了如ProGen等生成式模型在人工蛋白质设计中的应用创新。
数据集最近研究
最新研究方向
在蛋白质结构预测领域,UniRef50_processed数据集正推动无监督表示学习的前沿探索。该数据集通过严格的序列标准化与聚类划分策略,为进化尺度语言模型提供了高质量训练基础,其采用的ESM验证集已成为评估蛋白质嵌入表示泛化能力的黄金标准。当前研究热点聚焦于利用该数据集开发几何感知的预训练架构,通过结合等变神经网络与自监督目标函数,显著提升了突变效应预测与功能位点识别的精度。这类突破性进展不仅加速了药物靶点发现进程,更为理解蛋白质序列-结构-功能关系提供了全新范式。
以上内容由遇见数据集搜集并总结生成



