Uniclust30 + PDB

github2024-11-12 更新2024-11-28 收录

下载链接：

https://github.com/jozhang97/ism

下载链接

链接失效反馈

官方服务：

资源简介：

Uniclust30 + PDB数据集用于训练ISM模型，包含了蛋白质结构信息，用于增强蛋白质序列模型的结构表示。

The Uniclust30 and PDB datasets, containing protein structural information, are utilized for training ISM models to enhance the structural representation of protein sequence models.

创建时间：

2024-11-06

原始信息汇总

ISM 数据集概述

数据集简介

ISM 是一个基于 ESM2 模型的扩展，通过引入结构化表示来增强蛋白质序列模型的性能。该数据集包含多个预训练模型，可用于替换 ESM2 模型。

数据集下载

ISM 数据集包含多个模型版本，用户可以根据需求选择合适的模型进行下载。

名称	层数	参数数量	数据集	模型 URL
ISM-650M-UC30PDB	33	650M	Uniclust30 + PDB	https://huggingface.co/jozhang97/ism_t33_650M_uc30pdb
ISM-650M-UC30	33	650M	Uniclust30	https://huggingface.co/jozhang97/ism_t33_650M_uc30
ISM-3B-UC30	36	3B	Uniclust30	https://huggingface.co/jozhang97/ism_t36_3B_uc30

快速开始

用户可以通过以下命令下载并使用 ISM 模型：

bash

替代方式

git clone https://huggingface.co/jozhang97/ism_t33_650M_uc30pdb

结构化调优

ISM 模型从 ESM2 初始化，并在结构化标记上进行微调。用户可以下载结构化调优数据集进行训练。

数据集下载链接：https://huggingface.co/datasets/jozhang97/structure-tuning-uc30pdb

结构化基准评估

ISM 模型在二级结构和结合残基数据集上的性能可以通过以下命令进行重现和评估。

数据集路径：plm_eval/data

引用

如果用户在研究中使用了 ISM 数据集，请引用以下文献：

bibtex @article{ouyangzhang2024distilling, title={Distilling Structural Representations into Protein Sequence Models}, author={Ouyang-Zhang, Jeffrey and Gong, Chengyue and Zhao, Yue and Kr{"a}henb{"u}hl, Philipp and Klivans, Adam and Diaz, Daniel J}, journal={bioRxiv}, doi={10.1101/2024.11.08.622579}, year={2024}, publisher={Cold Spring Harbor Laboratory} }

搜集汇总

数据集介绍

构建方式

该数据集通过结合Uniclust30和PDB（蛋白质数据库）构建而成，旨在为蛋白质序列模型提供丰富的结构表示。构建过程中，首先从Uniclust30和PDB中提取蛋白质序列及其结构信息，随后通过结构调优技术对这些数据进行精细处理，以确保数据的高质量和一致性。最终，这些经过处理的数据被整合成一个综合性的数据集，为后续的模型训练和评估提供了坚实的基础。

使用方法

该数据集的使用方法灵活多样，适用于多种蛋白质序列模型的训练和评估。用户可以通过Hugging Face平台直接下载数据集，并将其作为ESM2模型的替代品进行使用。具体操作包括下载数据集、加载模型状态以及替换现有模型的配置文件。对于已有ESM2模型的用户，只需简单修改代码即可无缝集成ISM数据集。此外，数据集还支持通过PyTorch进行自定义训练和评估，提供了丰富的脚本和命令行工具，方便用户进行深度定制和优化。

背景与挑战

背景概述

Uniclust30 + PDB数据集是由Jeffrey Ouyang-Zhang、Chengyue Gong、Yue Zhao、Philipp Krähenbühl、Adam Klivans和Daniel J. Diaz等研究人员共同创建的，旨在将结构化表示融入蛋白质序列模型中。该数据集的核心研究问题是如何通过结构化数据增强蛋白质序列模型的表现力，从而提高其在生物信息学领域的应用效果。该数据集的创建对蛋白质结构预测和功能分析具有重要影响，尤其是在结合了Uniclust30和PDB数据库的丰富信息后，为研究人员提供了一个强大的工具来探索蛋白质的结构与功能关系。

当前挑战

Uniclust30 + PDB数据集在构建过程中面临了多个挑战。首先，整合Uniclust30和PDB数据库的数据需要处理大量的结构化信息，确保数据的一致性和准确性。其次，如何在模型训练中有效利用这些结构化数据，以提升蛋白质序列模型的性能，是一个技术上的难题。此外，数据集的规模和复杂性也带来了存储和计算资源的挑战，尤其是在处理131 GB的未压缩数据时。最后，如何避免数据泄露，确保模型评估的公正性，也是该数据集在使用过程中需要解决的重要问题。

常用场景

经典使用场景

在蛋白质序列建模领域，Uniclust30 + PDB数据集的经典使用场景主要集中在结构化蛋白质序列模型的训练与优化。通过结合Uniclust30的蛋白质序列数据和PDB的结构信息，研究者能够训练出具有丰富结构表示的蛋白质序列模型，如ISM-650M-UC30PDB。这种模型在预测蛋白质二级结构和结合位点等任务中表现出色，为生物信息学研究提供了强有力的工具。

解决学术问题

该数据集解决了蛋白质序列模型中结构信息缺失的学术问题。传统蛋白质序列模型主要依赖于序列信息，而忽视了蛋白质的三维结构。通过引入PDB的结构数据，Uniclust30 + PDB数据集使得模型能够更好地捕捉蛋白质的结构特征，从而提高了预测准确性。这一改进对于理解蛋白质功能和设计新型药物具有重要意义。

实际应用

在实际应用中，Uniclust30 + PDB数据集被广泛用于蛋白质结构预测和药物设计。例如，在药物研发过程中，准确预测蛋白质的结合位点可以帮助筛选潜在的药物靶点。此外，该数据集还可用于蛋白质工程，通过预测和设计具有特定功能的蛋白质，推动生物技术和医疗领域的发展。

数据集最近研究