OpenProteinSet

github2024-11-26 更新2024-11-28 收录

下载链接：

https://github.com/klemens-floege/oneprot

下载链接

链接失效反馈

官方服务：

资源简介：

OpenProteinSet 是一个包含蛋白质结构、序列和多序列比对（MSA）的数据集，来源于PDB、UniClust30和UniProtKB/Swiss-Prot。数据集通过MMseqs2进行序列聚类，并使用AlphaFold2DB、P2Rank等工具生成结构和结合口袋信息。序列相似性数据集则基于ClinVar变异数据和MSA数据构建。

OpenProteinSet is a dataset encompassing protein structures, sequences, and multiple sequence alignments (MSA), sourced from PDB, UniClust30, and UniProtKB/Swiss-Prot. The dataset utilizes MMseqs2 for sequence clustering, and generates structural and binding pocket information using tools including AlphaFold2DB and P2Rank. The sequence similarity dataset is constructed based on ClinVar variant data and MSA data.

创建时间：

2024-11-08

原始信息汇总

OneProt 数据集概述

数据集描述

OneProt 数据集专注于蛋白质相关模态的研究，包括序列、结构、文本、口袋和序列相似性。该数据集旨在学习不同蛋白质模态的对齐嵌入，以便用于蛋白质的检索、预测和生成任务。

数据集来源

OpenProteinSet: 包含来自 PDB、UniClust30 和 UniProtKB/Swiss-Prot 的蛋白质结构、序列和多序列比对（MSA）。
MMseqs2: 用于以50%的序列同一性阈值对序列进行聚类。
AlphaFold2DB: 用于获取蛋白质结构。
P2Rank: 用于获取蛋白质的结合口袋。
ClinVar: 用于构建序列相似性数据集。

数据集模态

Sequence: 序列
Structure: 结构
Text: 文本
Pockets: 口袋
Sequence similarity: 序列相似性

数据集规模

模态1	模态2	数据集规模（训练/验证/测试）
Sequence	Structure Graph	647781 / 1000 / 1000
Sequence	Structure Token	1000000 / 1000 / 1000
Sequence	Text	540077 / 1000 / 1000
Sequence	Pockets	335086 / 1000 / 1000
Sequence	Sequence similarity	1040560 / 1000 / 1000

主要思想

ImageBind: ImageBind
CLIP: CLIP

下游任务

SaProt: SaProt

环境要求

PyTorch: 推荐使用版本 2.1.0 和 CUDA-12.1。
torch-geometric: 通过 pip install torch_geometric 安装。
其他依赖: 详见 requirements.txt 文件。

搜集汇总

数据集介绍

构建方式

在构建OpenProteinSet数据集时，研究团队采用了多源数据整合的方法。首先，从PDB、UniClust30和UniProtKB/Swiss-Prot等数据库中提取蛋白质的结构和序列信息。随后，利用MMseqs2工具对序列进行聚类，确保每个聚类代表蛋白质折叠空间中的同源簇。通过AlphaFold2DB获取结构信息，OpenProteinSet获取多序列比对（MSA），以及P2Rank获取结合口袋信息。此外，利用ClinVar的变异数据和MSA数据构建了序列相似性数据集，确保数据集中的蛋白质序列具有生物学相关性。

特点

OpenProteinSet数据集的显著特点在于其多模态数据的整合。该数据集不仅包含了蛋白质的序列和结构信息，还包括了文本描述、结合口袋以及序列相似性数据。这种多模态的整合使得数据集在蛋白质的检索、预测和生成任务中具有广泛的应用潜力。此外，数据集的构建过程中采用了严格的同源性聚类方法，确保了数据的高质量和生物学相关性。

使用方法

使用OpenProteinSet数据集时，用户可以通过PyTorch和PyTorch Lightning框架进行数据处理和模型训练。首先，安装PyTorch 2.1.0及相应的CUDA版本，并使用pip安装torch_geometric等依赖包。随后，根据数据集提供的训练、验证和测试分割，加载相应的数据模态进行模型训练。数据集的多模态特性使得其在蛋白质相关任务中具有广泛的应用，如蛋白质结构预测、功能注释和变异分析等。

背景与挑战

背景概述

OpenProteinSet数据集是由一支在Bio x ML Hackathon 2023中获得一等奖和影响力奖的团队创建的，旨在推动蛋白质相关多模态数据的理解与应用。该数据集整合了蛋白质的序列、结构、文本、口袋及序列相似性等多种模态，通过多序列比对（MSA）和突变信息，构建了一个全面的蛋白质数据资源。其核心研究问题在于如何通过这些多模态数据学习对齐的嵌入表示，以支持蛋白质的检索、预测和生成任务。这一数据集的创建不仅填补了蛋白质研究领域的数据空白，还为生物信息学和机器学习的交叉研究提供了宝贵的资源。

当前挑战

OpenProteinSet数据集在构建过程中面临多重挑战。首先，数据的多模态特性要求在不同模态间建立有效的对齐机制，确保数据的一致性和可用性。其次，由于并非所有蛋白质都能找到对应的MSA和结合口袋信息，数据集在某些模态上存在数据缺失问题，这增加了数据预处理的复杂性。此外，序列相似性数据集的构建依赖于ClinVar的变异数据，如何准确地从这些数据中提取有用的信息也是一个技术难题。最后，数据集的规模和多样性要求高效的存储和处理技术，以支持大规模的机器学习任务。

常用场景

经典使用场景

在蛋白质研究领域，OpenProteinSet数据集的经典使用场景主要集中在多模态蛋白质数据的嵌入学习。通过整合蛋白质的序列、结构、文本描述、结合口袋及序列相似性等多种模态信息，该数据集支持深度学习模型学习蛋白质的跨模态表示。这种多模态嵌入不仅能够提升蛋白质检索、预测和生成任务的性能，还为蛋白质功能和结构的深入理解提供了新的视角。

衍生相关工作

基于OpenProteinSet数据集，已衍生出多项经典工作，如ImageBind和CLIP等模型，这些模型通过学习多模态蛋白质数据的联合表示，显著提升了蛋白质相关任务的性能。此外，SaProt等下游任务的应用也展示了该数据集在实际问题中的巨大潜力，推动了蛋白质研究领域的技术进步。

数据集最近研究