five

uniref50_processed

收藏
Hugging Face2025-11-09 更新2025-11-10 收录
下载链接:
https://huggingface.co/datasets/DeepFoldProtein/uniref50_processed
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个预处理的UniRef50快照,用于无监督蛋白质表示学习。它包括了序列规范化、长度过滤、模糊度过滤和去重等预处理步骤,并根据UniRef50簇ID进行数据分割。
提供机构:
DeepFoldProtein
创建时间:
2025-11-09
原始信息汇总

UniRef50 (Processed, ESM-valid as Validation) 数据集概述

数据集简介

  • 这是一个专门为无监督蛋白质表示学习设计的预处理UniRef50数据集快照
  • 数据集经过序列标准化、长度过滤、歧义性过滤和去重处理
  • 采用UniRef50聚类ID进行分割以避免数据泄露
  • 使用ESM官方验证头文件作为整个验证集分割
  • 提供JSONL.zst分片格式以支持高效流式处理

数据来源

  • 上游数据:UniProt / UniRef50(2018_03快照)
  • 评估头文件:来自ESM论文的uniref201803_ur50_valid_headers.txt

数据分割

分割 定义 说明
train 所有不在ESM验证集中且未哈希到测试集的聚类 UniRef50的主要部分
valid 仅包含ESM验证头文件列表中的聚类 所有记录的is_esm_valid=true字段
test 基于聚类的哈希保留:xxhash64(cluster_id) % 100 == 2 小型随机保留集

特征字段

字段名 类型 描述
id string 稳定ID = `cluster_id
sequence string 标准化氨基酸序列(大写;移除*
length int32 标准化后的序列长度
cluster_id string UniRef50聚类ID(例如:UniRef50_Q8WZ42-5
description string? 从FASTA头文件解析的可选描述(在Cluster:之后)
seq_md5 string 标准化序列的MD5值
is_esm_valid bool 当记录属于ESM验证头文件集时为true

预处理与过滤

  • 标准化: 大写转换,移除末端/内部*
  • 长度过滤: 保留30 ≤ L ≤ 1024的序列
  • 歧义性过滤: 保留非标准残基比例≤5%的序列(标准残基为ACDEFGHIKLMNPQRSTVWY
  • 去重处理: 基于标准化序列MD5的全局精确去重
  • 分割方式: 按聚类ID进行分割
  • 头文件解析: FASTA行如>UniRef50_Q8WZ42-5 Cluster: Isoform 5 of Titincluster_id="UniRef50_Q8WZ42-5", description="Isoform 5 of Titin"

预期用途

  • 蛋白质语言模型/编码器的自监督训练
  • 与ESM论文对齐的评估,使用官方验证头文件集作为验证集
  • 不适用于临床用途,不含个人数据

许可信息

  • 数据源: UniProt / UniRef50,需遵循UniProt许可和归属要求:https://www.uniprot.org/help/license
  • 衍生数据集: 重新分发时必须注明UniProt来源并包含其许可链接

引用要求

UniProt:

The UniProt Consortium. UniProt: the universal protein knowledgebase. Nucleic Acids Res. (2018)

ESM:

Rives et al. Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (2023)

已知限制

  • 快照漂移: 基于UniRef50(2018_03)版本,后续版本可能有所不同
  • 非随机验证: 验证集由ESM策划的头文件列表定义(设计如此)
  • 歧义性处理: 歧义残基比例>5%的序列被丢弃
  • 去重范围: 仅基于标准化序列进行去重(非聚类共识)
搜集汇总
数据集介绍
构建方式
在蛋白质序列分析领域,UniRef50_processed数据集基于UniProt/UniRef50的2018_03版本快照构建,通过系统化预处理流程优化了原始数据。该流程包括序列标准化(转换为大写并移除终止符*)、长度筛选(保留30至1024个残基的序列)以及歧义过滤(排除非标准氨基酸比例超过5%的序列)。通过MD5哈希值实现全局去重,并依据UniRef50聚类标识符划分训练、验证与测试集,其中验证集严格采用ESM论文官方标头列表,确保评估标准的一致性。
特点
该数据集专为无监督蛋白质表示学习设计,其核心特征体现在严谨的数据结构与质量控制机制。所有序列均经过归一化处理并附带完整元数据,包括聚类标识符、描述文本及序列MD5校验值。通过聚类级别的数据划分策略,有效避免了同源序列在训练与评估间的信息泄露。特别设置的ESM验证标志位使得用户能精准提取符合主流研究范式的验证子集,为蛋白质语言模型的跨研究可比性提供保障。
使用方法
借助HuggingFace数据集库的流式加载功能,用户可高效处理大规模蛋白质序列数据。通过指定数据集仓库路径与分割参数,既能以流模式逐批读取训练数据,也可直接加载完整测试集进行本地分析。内置的过滤接口支持动态提取ESM验证集,配合提供的统计工具函数,用户能快速获取各分割集的序列长度分布特征。这种设计兼顾了大数据量场景下的内存效率与研究便捷性,适用于蛋白质结构预测和进化分析等任务。
背景与挑战
背景概述
蛋白质序列表示学习作为计算生物学的前沿领域,旨在通过无监督方法捕捉蛋白质序列的进化与结构特征。UniRef50_processed数据集基于2018年发布的UniRef50数据库构建,由DeepFold团队针对蛋白质语言模型训练需求进行标准化处理。该数据集通过严格的序列过滤与去重机制,确保了数据质量,并采用ESM模型官方验证集作为基准,为蛋白质功能预测与结构推断研究提供了标准化评估框架。
当前挑战
该数据集需应对蛋白质序列表示中的两大核心挑战:其一,在领域问题层面,需解决蛋白质序列高变异性与功能保守性之间的复杂映射关系,这对模型捕捉远程同源性与结构敏感特征提出极高要求;其二,在构建过程中,面临序列长度分布差异大、模糊残基过滤阈值设定、以及基于聚类划分防止数据泄露等多重技术难题,这些因素直接影响模型训练的稳定性与泛化能力。
常用场景
经典使用场景
在蛋白质结构预测领域,uniref50_processed数据集作为预处理的UniRef50快照,专为无监督蛋白质表示学习而设计。其经典应用场景包括训练能够捕捉蛋白质序列进化信息的语言模型,通过标准化序列处理、长度筛选和去重机制,确保模型在跨簇数据分割下有效学习序列的保守性与变异性特征。
衍生相关工作
基于该数据集衍生的经典工作包括ESM系列蛋白质语言模型的开发,其通过大规模自监督学习实现了原子级结构预测突破。后续研究进一步拓展至蛋白质相互作用预测、折叠类别分类等方向,催生了如ProGen等生成式模型在人工蛋白质设计中的应用创新。
数据集最近研究
最新研究方向
在蛋白质结构预测领域,UniRef50_processed数据集正推动无监督表示学习的前沿探索。该数据集通过严格的序列标准化与聚类划分策略,为进化尺度语言模型提供了高质量训练基础,其采用的ESM验证集已成为评估蛋白质嵌入表示泛化能力的黄金标准。当前研究热点聚焦于利用该数据集开发几何感知的预训练架构,通过结合等变神经网络与自监督目标函数,显著提升了突变效应预测与功能位点识别的精度。这类突破性进展不仅加速了药物靶点发现进程,更为理解蛋白质序列-结构-功能关系提供了全新范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作