five

Protein Dimension DB

收藏
github2024-12-27 更新2024-12-30 收录
下载链接:
https://github.com/pentalpha/protein_dimension_db
下载链接
链接失效反馈
官方服务:
资源简介:
包含Uniprot/Swiss-Prot中所有蛋白质的PLM嵌入、GO注释和分类表示的数据库。

A database containing PLM embeddings, GO annotations, and categorical representations of all proteins present in Uniprot/Swiss-Prot.
创建时间:
2024-11-30
原始信息汇总

数据集概述

数据集名称

Protein Dimension DB

数据集内容

该数据集包含Uniprot/Swiss-Prot中所有蛋白质的PLM嵌入、GO注释和分类学表示。

当前版本

蛋白质按长度排序,所有文件包含相同的蛋白质序列,"ids.txt"文件可用作行名。

Uniprot/Swiss-Prot

  • ids.txt: Uniprot Accession IDs
    • 下载链接: UFRN
  • uniprot_sorted.fasta.gz: SwissProt蛋白质的氨基酸序列
    • 下载链接: UFRN
  • taxid.tsv: 每个蛋白质的NCBI分类ID
    • 下载链接: UFRN

蛋白质注释

所有Swiss-Prot蛋白质的Gene Ontology注释,不包括计算、不可追踪和无数据的注释。注释已“向上扩展”:现有注释的父术语已包含在这些文件中。

  • go.expanded.tsv.gz: 简化的GAF格式中的MF、BP和CC注释
    • 下载链接: UFRN
  • go.experimental.mf.tsv.gz: 分子功能
    • 下载链接: UFRN
  • go.experimental.bp.tsv.gz: 生物过程
    • 下载链接: UFRN
  • go.experimental.cc.tsv.gz: 细胞组件
    • 下载链接: UFRN

蛋白质语言模型嵌入

使用多个模型创建Swiss-Prot蛋白质的计算描述。

  • emb.prottrans.npy.gz: prottrans_t5_xl_u50
    • 向量长度: 1024
    • 下载链接: UFRN
  • emb.ankh_large.npy: ankh-large
    • 向量长度: 1536
    • 下载链接: 即将推出
  • emb.ankh_base.npy: ankh-base
    • 向量长度: 768
    • 下载链接: 即将推出
  • emb.esm2_t33.npy.gz: esm2_t33_650M_UR50D
    • 向量长度: 1280
    • 下载链接: 即将推出
  • emb.esm2_t30.npy.gz: esm2_t30_150M_UR50D
    • 向量长度: 640
    • 下载链接: 即将推出
  • emb.esm2_t12.npy.gz: esm2_t12_35M_UR50D
    • 向量长度: 480
    • 下载链接: UFRN
  • emb.esm2_t6.npy.gz: esm2_t6_8M_UR50D
    • 向量长度: 320
    • 下载链接: UFRN

分类学

每个蛋白质的NCBI分类ID的数值表示。使用taxallnomy项目创建的自定义分类学。

  • emb.taxa_profile_256.npy.gz: 256个最注释分类群的接近度[0.0, 1.0]
    • 向量长度: 256
    • 下载链接: UFRN
  • emb.taxa_profile_128.npy.gz: 128个最注释分类群的接近度[0.0, 1.0]
    • 向量长度: 128
    • 下载链接: UFRN
  • onehot.taxa_256.npy.gz: 分类群One-Hot编码
    • 向量长度: 256
    • 下载链接: UFRN
  • onehot.taxa_128.npy.gz: 分类群One-Hot编码
    • 向量长度: 128
    • 下载链接: UFRN

文件格式

  • ids.txt: 每行一个UniprotID
  • taxid.tsv: 制表符分隔的表,列:UniprotID, NCBI Taxon ID
  • go.expanded.tsv.gz: 制表符分隔的表,列:UniprotID, GO ID, ECO ID, NCBI Taxon ID, GO Ontology Code
  • go.experimental.*.tsv.gz: 制表符分隔的表,列:UniprotID, GO IDs separated by ,
  • emb.*.npy.gz: 使用gzip压缩的Numpy矩阵。对于无法定义嵌入的行,放置一个np.NaN向量。

创建版本

生成数据集的要求:

  • Nextflow >= 24
  • Mamba包管理器
  • 快速稳定的互联网连接以下载原始数据集
  • 至少16GB的RAM
搜集汇总
数据集介绍
main_image_url
构建方式
Protein Dimension DB数据集的构建基于Uniprot/Swiss-Prot数据库中的蛋白质序列,通过整合蛋白质语言模型(PLM)嵌入、基因本体(GO)注释以及分类学表示等多维度信息。数据集中的蛋白质按长度排序,确保所有文件中的蛋白质序列一致,并通过ids.txt文件作为行名索引。此外,GO注释经过扩展处理,包含父类术语,以增强注释的全面性。分类学表示则采用自定义的taxallnomy项目,确保每个物种ID具有相同数量的父类分类。
使用方法
使用Protein Dimension DB数据集时,用户可通过下载提供的各类文件进行蛋白质信息的提取和分析。ids.txt文件作为行名索引,便于用户快速定位特定蛋白质。taxid.tsv文件提供了蛋白质的NCBI分类ID,便于进行物种分类分析。GO注释文件(如go.expanded.tsv.gz)以简化GAF格式提供,便于用户进行功能注释分析。蛋白质语言模型嵌入文件(如emb.prottrans.npy.gz)以Numpy矩阵格式提供,用户可通过加载这些文件进行蛋白质功能预测和结构分析。数据集的使用需具备Nextflow和Mamba包管理器,并确保有稳定的网络连接和足够的计算资源。
背景与挑战
背景概述
Protein Dimension DB 是一个专注于蛋白质数据的综合性数据集,由巴西的UFRN(Universidade Federal do Rio Grande do Norte)研究团队创建。该数据集整合了Uniprot/Swiss-Prot数据库中的蛋白质序列、基因本体(GO)注释、分类学信息以及蛋白质语言模型(PLM)嵌入。其核心研究问题在于通过多维度的蛋白质数据表征,推动蛋白质功能预测、结构分析以及进化关系研究。该数据集的发布为生物信息学和计算生物学领域提供了丰富的资源,特别是在蛋白质功能注释和机器学习模型训练方面具有重要影响力。
当前挑战
Protein Dimension DB 在解决蛋白质功能注释和分类问题时面临多重挑战。首先,蛋白质功能的多样性和复杂性使得准确注释成为一项艰巨任务,尤其是在处理非实验性证据时。其次,构建过程中需要处理大规模数据,包括蛋白质序列、GO注释和分类学信息,这对计算资源和数据处理能力提出了极高要求。此外,蛋白质语言模型嵌入的生成依赖于复杂的深度学习模型,如何确保嵌入的准确性和一致性也是一个技术难点。最后,数据集的更新和维护需要持续的技术支持和资源投入,以确保其时效性和可靠性。
常用场景
经典使用场景
Protein Dimension DB数据集在蛋白质功能预测和分类研究中具有重要应用。通过整合Uniprot/Swiss-Prot数据库中的蛋白质序列、基因本体(GO)注释以及蛋白质语言模型(PLM)嵌入,该数据集为研究者提供了一个全面的蛋白质特征描述平台。研究者可以利用这些数据,结合机器学习算法,进行蛋白质功能的精确预测和分类,从而推动蛋白质组学的发展。
解决学术问题
Protein Dimension DB数据集解决了蛋白质功能注释和分类中的关键问题。通过提供高质量的GO注释和多种蛋白质语言模型嵌入,该数据集帮助研究者克服了传统方法在蛋白质功能预测中的局限性。此外,数据集中的分类学信息为蛋白质的系统发育分析提供了重要支持,使得研究者能够更深入地理解蛋白质的进化关系和功能多样性。
实际应用
在实际应用中,Protein Dimension DB数据集被广泛用于生物信息学工具的开发。例如,基于该数据集的蛋白质功能预测模型可以应用于药物靶点发现、疾病相关蛋白质的识别以及生物标志物的筛选。此外,数据集中提供的蛋白质语言模型嵌入也为蛋白质结构预测和蛋白质-蛋白质相互作用研究提供了重要数据支持。
数据集最近研究
最新研究方向
在蛋白质组学领域,Protein Dimension DB数据集的最新研究方向聚焦于利用蛋白质语言模型(PLM)嵌入和基因本体(GO)注释进行蛋白质功能预测和分类。随着深度学习技术的快速发展,PLM嵌入如ProtTrans、Ankh和ESM2等模型,为蛋白质序列的高维表示提供了强大的计算工具。这些嵌入不仅能够捕捉蛋白质的复杂结构和功能信息,还能通过大规模数据集进行训练,提升预测的准确性。此外,GO注释的扩展应用使得研究者能够更全面地理解蛋白质在分子功能、生物过程和细胞组件中的角色。结合NCBI分类学表示,该数据集为跨物种蛋白质功能比较和进化分析提供了新的视角。这些研究方向的进展,不仅推动了蛋白质功能注释的自动化进程,还为药物发现和生物医学研究提供了重要的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作