five

PS4 Dataset|蛋白质结构预测数据集|生物信息学数据集

收藏
github2024-03-21 更新2024-05-31 收录
蛋白质结构预测
生物信息学
下载链接:
https://github.com/omarperacha/ps4-dataset
下载链接
链接失效反馈
资源简介:
PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质,包括它们的PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列(包括聚脯氨酸螺旋)。

PS4 is the largest open-source dataset for protein single-sequence secondary structure prediction. This dataset encompasses 18,731 proteins, including their PDB codes, the index of the first residue in the DSSP file, residue sequences, and sequences of nine types of secondary structures (including polyproline helices).
创建时间:
2023-02-21
原始信息汇总

数据集概述

名称: PS4 Dataset

描述: PS4是用于蛋白质单序列二级结构预测的最大开源数据集。该数据集包含18,731种蛋白质,每种蛋白质具有其PDB代码、DSSP文件中第一个残基的索引、残基序列以及9类二级结构序列(包括聚脯氨酸螺旋)。

数据结构:

  • 核心数据: 位于ps4_data/data/data.csv
  • 训练/测试分割: 位于ps4_data/data/chain_ids.npz

数据集扩展:

  • 使用python extend_ps4.py <in_path> <out_path>脚本可以添加新的样本到数据集中,确保非冗余性。

使用:

  • 数据准备: 使用python main.py --gen_dataset生成PyTorch准备的数据集。
  • 训练: 使用python main.py --train命令进行模型训练。
  • 评估: 使用python main.py --eval命令评估模型。
  • 预测: 使用python main.py --sample <fasta_path>命令预测新序列的二级结构。

安装:

  • 需要执行chmod a+rx install.sh./install.sh来安装必要的依赖和工具。

社区贡献:

  • 通过创建拉取请求,社区成员可以贡献新的样本。
AI搜集汇总
数据集介绍
main_image_url
构建方式
PS4数据集的构建基于大规模的蛋白质单序列二级结构预测需求,汇集了18,731个蛋白质样本,每个样本包含PDB代码、残基序列及其对应的9类别二级结构序列。数据集的构建过程涉及从DSSP文件中提取信息,并通过严格的非冗余性检查确保数据质量。此外,数据集的扩展依赖于社区贡献,通过`ps4-rs`包进行预处理,确保新样本与现有数据集和CB513数据集的非冗余性。
特点
PS4数据集以其大规模和高质量著称,是目前最大的开源蛋白质单序列二级结构预测数据集。其特点在于包含了详细的蛋白质残基序列及其对应的9类别二级结构序列,涵盖了polyproline螺旋等复杂结构。数据集的多样性和非冗余性确保了其在训练和评估蛋白质二级结构预测模型时的广泛适用性。
使用方法
PS4数据集的使用方法灵活多样,支持从数据准备、模型训练到评估的全流程操作。用户可通过运行`python main.py --gen_dataset`生成PyTorch兼容的数据集,随后选择训练PS4-Mega或PS4-Conv模型。评估阶段,用户可使用预训练模型对PS4测试集或CB513数据集进行评估。此外,用户还可通过提供FASTA文件,利用预训练模型对新序列进行二级结构预测。
背景与挑战
背景概述
PS4数据集是迄今为止最大的开源蛋白质单序列二级结构预测数据集,由主要研究人员和机构于近期创建。该数据集的核心研究问题聚焦于蛋白质二级结构的精确预测,这一领域在生物信息学和蛋白质工程中具有重要意义。通过提供18,731个蛋白质的详细信息,包括PDB代码、残基序列及其对应的9类别二级结构序列,PS4数据集为开发和评估最先进的二级结构预测模型提供了丰富的资源。其发布不仅推动了蛋白质结构预测技术的发展,还为相关领域的研究者提供了宝贵的实验数据,进一步促进了生物信息学领域的创新与进步。
当前挑战
PS4数据集在构建过程中面临多项挑战。首先,确保数据集的非冗余性和高质量是关键,这需要复杂的预处理和验证步骤。其次,生成适合深度学习模型的PyTorch数据集涉及从大型预训练蛋白质语言模型中提取嵌入,这一过程计算密集且耗时,尤其需要高性能计算资源。此外,扩展数据集以保持其持续增长和更新,同时确保新样本的质量和非冗余性,也是一项持续的挑战。最后,尽管已有预训练模型,开发和优化新的预测模型以提高二级结构预测的准确性,仍然是该领域面临的主要技术难题。
常用场景
经典使用场景
在蛋白质科学领域,PS4数据集因其庞大的规模和高质量的蛋白质单序列二级结构预测数据而备受瞩目。该数据集的核心应用场景在于支持蛋白质二级结构预测模型的开发与评估,尤其是在深度学习模型的训练与验证过程中。通过提供18,731个蛋白质的详细信息,包括PDB代码、残基序列及其对应的9类二级结构序列,PS4数据集为研究人员提供了一个强大的基准平台,用于测试和优化蛋白质二级结构预测算法。
解决学术问题
PS4数据集在蛋白质科学研究中解决了多个关键的学术问题。首先,它为蛋白质二级结构预测提供了大规模、高质量的训练数据,填补了该领域数据稀缺的空白。其次,通过提供详细的蛋白质序列和二级结构信息,PS4数据集促进了深度学习模型在蛋白质结构预测中的应用,推动了该领域的技术进步。此外,PS4数据集的开放性和可扩展性,使得全球研究者能够共同参与数据集的扩展和优化,进一步提升了其在学术研究中的影响力。
衍生相关工作
PS4数据集的发布催生了一系列相关研究工作,特别是在蛋白质结构预测和深度学习模型的优化方面。许多研究者基于PS4数据集开发了新的蛋白质二级结构预测模型,如PS4-Mega和PS4-Conv,这些模型在多个基准测试中表现优异。此外,PS4数据集还激发了对蛋白质语言模型的进一步研究,推动了蛋白质序列嵌入技术的发展。通过这些衍生工作,PS4数据集不仅提升了蛋白质结构预测的准确性,还为相关领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录