Protein Dimension DB

github2024-12-27 更新2024-12-30 收录

下载链接：

https://github.com/pentalpha/protein_dimension_db

下载链接

链接失效反馈

官方服务：

资源简介：

包含Uniprot/Swiss-Prot中所有蛋白质的PLM嵌入、GO注释和分类表示的数据库。

A database containing PLM embeddings, GO annotations, and categorical representations of all proteins present in Uniprot/Swiss-Prot.

创建时间：

2024-11-30

原始信息汇总

数据集概述

数据集名称

Protein Dimension DB

数据集内容

该数据集包含Uniprot/Swiss-Prot中所有蛋白质的PLM嵌入、GO注释和分类学表示。

当前版本

蛋白质按长度排序，所有文件包含相同的蛋白质序列，"ids.txt"文件可用作行名。

Uniprot/Swiss-Prot

ids.txt: Uniprot Accession IDs
- 下载链接: UFRN
uniprot_sorted.fasta.gz: SwissProt蛋白质的氨基酸序列
- 下载链接: UFRN
taxid.tsv: 每个蛋白质的NCBI分类ID
- 下载链接: UFRN

蛋白质注释

所有Swiss-Prot蛋白质的Gene Ontology注释，不包括计算、不可追踪和无数据的注释。注释已“向上扩展”：现有注释的父术语已包含在这些文件中。

go.expanded.tsv.gz: 简化的GAF格式中的MF、BP和CC注释
- 下载链接: UFRN
go.experimental.mf.tsv.gz: 分子功能
- 下载链接: UFRN
go.experimental.bp.tsv.gz: 生物过程
- 下载链接: UFRN
go.experimental.cc.tsv.gz: 细胞组件
- 下载链接: UFRN

蛋白质语言模型嵌入

使用多个模型创建Swiss-Prot蛋白质的计算描述。

emb.prottrans.npy.gz: prottrans_t5_xl_u50
- 向量长度: 1024
- 下载链接: UFRN
emb.ankh_large.npy: ankh-large
- 向量长度: 1536
- 下载链接: 即将推出
emb.ankh_base.npy: ankh-base
- 向量长度: 768
- 下载链接: 即将推出
emb.esm2_t33.npy.gz: esm2_t33_650M_UR50D
- 向量长度: 1280
- 下载链接: 即将推出
emb.esm2_t30.npy.gz: esm2_t30_150M_UR50D
- 向量长度: 640
- 下载链接: 即将推出
emb.esm2_t12.npy.gz: esm2_t12_35M_UR50D
- 向量长度: 480
- 下载链接: UFRN
emb.esm2_t6.npy.gz: esm2_t6_8M_UR50D
- 向量长度: 320
- 下载链接: UFRN

分类学

每个蛋白质的NCBI分类ID的数值表示。使用taxallnomy项目创建的自定义分类学。

emb.taxa_profile_256.npy.gz: 256个最注释分类群的接近度[0.0, 1.0]
- 向量长度: 256
- 下载链接: UFRN
emb.taxa_profile_128.npy.gz: 128个最注释分类群的接近度[0.0, 1.0]
- 向量长度: 128
- 下载链接: UFRN
onehot.taxa_256.npy.gz: 分类群One-Hot编码
- 向量长度: 256
- 下载链接: UFRN
onehot.taxa_128.npy.gz: 分类群One-Hot编码
- 向量长度: 128
- 下载链接: UFRN

文件格式

ids.txt: 每行一个UniprotID
taxid.tsv: 制表符分隔的表，列：UniprotID, NCBI Taxon ID
go.expanded.tsv.gz: 制表符分隔的表，列：UniprotID, GO ID, ECO ID, NCBI Taxon ID, GO Ontology Code
go.experimental.*.tsv.gz: 制表符分隔的表，列：UniprotID, GO IDs separated by ,
emb.*.npy.gz: 使用gzip压缩的Numpy矩阵。对于无法定义嵌入的行，放置一个np.NaN向量。

创建版本

生成数据集的要求：

Nextflow >= 24
Mamba包管理器
快速稳定的互联网连接以下载原始数据集
至少16GB的RAM

搜集汇总

数据集介绍

构建方式

Protein Dimension DB数据集的构建基于Uniprot/Swiss-Prot数据库中的蛋白质序列，通过整合蛋白质语言模型（PLM）嵌入、基因本体（GO）注释以及分类学表示等多维度信息。数据集中的蛋白质按长度排序，确保所有文件中的蛋白质序列一致，并通过ids.txt文件作为行名索引。此外，GO注释经过扩展处理，包含父类术语，以增强注释的全面性。分类学表示则采用自定义的taxallnomy项目，确保每个物种ID具有相同数量的父类分类。

使用方法

使用Protein Dimension DB数据集时，用户可通过下载提供的各类文件进行蛋白质信息的提取和分析。ids.txt文件作为行名索引，便于用户快速定位特定蛋白质。taxid.tsv文件提供了蛋白质的NCBI分类ID，便于进行物种分类分析。GO注释文件（如go.expanded.tsv.gz）以简化GAF格式提供，便于用户进行功能注释分析。蛋白质语言模型嵌入文件（如emb.prottrans.npy.gz）以Numpy矩阵格式提供，用户可通过加载这些文件进行蛋白质功能预测和结构分析。数据集的使用需具备Nextflow和Mamba包管理器，并确保有稳定的网络连接和足够的计算资源。

背景与挑战

背景概述

Protein Dimension DB 是一个专注于蛋白质数据的综合性数据集，由巴西的UFRN（Universidade Federal do Rio Grande do Norte）研究团队创建。该数据集整合了Uniprot/Swiss-Prot数据库中的蛋白质序列、基因本体（GO）注释、分类学信息以及蛋白质语言模型（PLM）嵌入。其核心研究问题在于通过多维度的蛋白质数据表征，推动蛋白质功能预测、结构分析以及进化关系研究。该数据集的发布为生物信息学和计算生物学领域提供了丰富的资源，特别是在蛋白质功能注释和机器学习模型训练方面具有重要影响力。

当前挑战

Protein Dimension DB 在解决蛋白质功能注释和分类问题时面临多重挑战。首先，蛋白质功能的多样性和复杂性使得准确注释成为一项艰巨任务，尤其是在处理非实验性证据时。其次，构建过程中需要处理大规模数据，包括蛋白质序列、GO注释和分类学信息，这对计算资源和数据处理能力提出了极高要求。此外，蛋白质语言模型嵌入的生成依赖于复杂的深度学习模型，如何确保嵌入的准确性和一致性也是一个技术难点。最后，数据集的更新和维护需要持续的技术支持和资源投入，以确保其时效性和可靠性。

常用场景

经典使用场景

Protein Dimension DB数据集在蛋白质功能预测和分类研究中具有重要应用。通过整合Uniprot/Swiss-Prot数据库中的蛋白质序列、基因本体（GO）注释以及蛋白质语言模型（PLM）嵌入，该数据集为研究者提供了一个全面的蛋白质特征描述平台。研究者可以利用这些数据，结合机器学习算法，进行蛋白质功能的精确预测和分类，从而推动蛋白质组学的发展。

解决学术问题

Protein Dimension DB数据集解决了蛋白质功能注释和分类中的关键问题。通过提供高质量的GO注释和多种蛋白质语言模型嵌入，该数据集帮助研究者克服了传统方法在蛋白质功能预测中的局限性。此外，数据集中的分类学信息为蛋白质的系统发育分析提供了重要支持，使得研究者能够更深入地理解蛋白质的进化关系和功能多样性。

实际应用

在实际应用中，Protein Dimension DB数据集被广泛用于生物信息学工具的开发。例如，基于该数据集的蛋白质功能预测模型可以应用于药物靶点发现、疾病相关蛋白质的识别以及生物标志物的筛选。此外，数据集中提供的蛋白质语言模型嵌入也为蛋白质结构预测和蛋白质-蛋白质相互作用研究提供了重要数据支持。

数据集最近研究