PS4 Dataset

github2024-03-21 更新2024-05-31 收录

下载链接：

https://github.com/omarperacha/ps4-dataset

下载链接

链接失效反馈

资源简介：

PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质，包括它们的PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列（包括聚脯氨酸螺旋）。

PS4 is the largest open-source dataset for protein single-sequence secondary structure prediction. This dataset encompasses 18,731 proteins, including their PDB codes, the index of the first residue in the DSSP file, residue sequences, and sequences of nine types of secondary structures (including polyproline helices).

创建时间：

2023-02-21

原始信息汇总

数据集概述

名称: PS4 Dataset

描述: PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质，每种蛋白质具有其PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列（包括聚脯氨酸螺旋）。

数据结构:

核心数据: 位于ps4_data/data/data.csv。
训练/测试分割: 位于ps4_data/data/chain_ids.npz。

数据集扩展:

使用python extend_ps4.py <in_path> <out_path>脚本可以添加新的样本到数据集中，确保非冗余性。

使用:

数据准备: 使用python main.py --gen_dataset生成PyTorch准备的数据集。
训练: 使用python main.py --train命令进行模型训练。
评估: 使用python main.py --eval命令评估模型。
预测: 使用python main.py --sample <fasta_path>命令预测新序列的二级结构。

安装:

需要执行chmod a+rx install.sh和./install.sh来安装必要的依赖和工具。

社区贡献:

通过创建拉取请求，社区成员可以贡献新的样本。

AI搜集汇总

数据集介绍

构建方式

PS4数据集的构建基于大规模的蛋白质单序列二级结构预测需求，汇集了18,731个蛋白质样本，每个样本包含PDB代码、残基序列及其对应的9类别二级结构序列。数据集的构建过程涉及从DSSP文件中提取信息，并通过严格的非冗余性检查确保数据质量。此外，数据集的扩展依赖于社区贡献，通过`ps4-rs`包进行预处理，确保新样本与现有数据集和CB513数据集的非冗余性。

特点

PS4数据集以其大规模和高质量著称，是目前最大的开源蛋白质单序列二级结构预测数据集。其特点在于包含了详细的蛋白质残基序列及其对应的9类别二级结构序列，涵盖了polyproline螺旋等复杂结构。数据集的多样性和非冗余性确保了其在训练和评估蛋白质二级结构预测模型时的广泛适用性。

使用方法

PS4数据集的使用方法灵活多样，支持从数据准备、模型训练到评估的全流程操作。用户可通过运行`python main.py --gen_dataset`生成PyTorch兼容的数据集，随后选择训练PS4-Mega或PS4-Conv模型。评估阶段，用户可使用预训练模型对PS4测试集或CB513数据集进行评估。此外，用户还可通过提供FASTA文件，利用预训练模型对新序列进行二级结构预测。

背景与挑战

背景概述

PS4数据集是迄今为止最大的开源蛋白质单序列二级结构预测数据集，由主要研究人员和机构于近期创建。该数据集的核心研究问题聚焦于蛋白质二级结构的精确预测，这一领域在生物信息学和蛋白质工程中具有重要意义。通过提供18,731个蛋白质的详细信息，包括PDB代码、残基序列及其对应的9类别二级结构序列，PS4数据集为开发和评估最先进的二级结构预测模型提供了丰富的资源。其发布不仅推动了蛋白质结构预测技术的发展，还为相关领域的研究者提供了宝贵的实验数据，进一步促进了生物信息学领域的创新与进步。

当前挑战

PS4数据集在构建过程中面临多项挑战。首先，确保数据集的非冗余性和高质量是关键，这需要复杂的预处理和验证步骤。其次，生成适合深度学习模型的PyTorch数据集涉及从大型预训练蛋白质语言模型中提取嵌入，这一过程计算密集且耗时，尤其需要高性能计算资源。此外，扩展数据集以保持其持续增长和更新，同时确保新样本的质量和非冗余性，也是一项持续的挑战。最后，尽管已有预训练模型，开发和优化新的预测模型以提高二级结构预测的准确性，仍然是该领域面临的主要技术难题。

常用场景

经典使用场景

在蛋白质科学领域，PS4数据集因其庞大的规模和高质量的蛋白质单序列二级结构预测数据而备受瞩目。该数据集的核心应用场景在于支持蛋白质二级结构预测模型的开发与评估，尤其是在深度学习模型的训练与验证过程中。通过提供18,731个蛋白质的详细信息，包括PDB代码、残基序列及其对应的9类二级结构序列，PS4数据集为研究人员提供了一个强大的基准平台，用于测试和优化蛋白质二级结构预测算法。

解决学术问题

PS4数据集在蛋白质科学研究中解决了多个关键的学术问题。首先，它为蛋白质二级结构预测提供了大规模、高质量的训练数据，填补了该领域数据稀缺的空白。其次，通过提供详细的蛋白质序列和二级结构信息，PS4数据集促进了深度学习模型在蛋白质结构预测中的应用，推动了该领域的技术进步。此外，PS4数据集的开放性和可扩展性，使得全球研究者能够共同参与数据集的扩展和优化，进一步提升了其在学术研究中的影响力。

衍生相关工作

PS4数据集的发布催生了一系列相关研究工作，特别是在蛋白质结构预测和深度学习模型的优化方面。许多研究者基于PS4数据集开发了新的蛋白质二级结构预测模型，如PS4-Mega和PS4-Conv，这些模型在多个基准测试中表现优异。此外，PS4数据集还激发了对蛋白质语言模型的进一步研究，推动了蛋白质序列嵌入技术的发展。通过这些衍生工作，PS4数据集不仅提升了蛋白质结构预测的准确性，还为相关领域的研究提供了新的思路和方法。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集