PSP
收藏arXiv2022-06-24 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2206.12240v1
下载链接
链接失效反馈官方服务:
资源简介:
PSP数据集是由北京大学化学与分子工程学院国家分子科学中心创建的,旨在解决蛋白质结构预测领域数据集不足的问题。该数据集包含约133万条蛋白质序列,其中570k为真实结构序列,15TB,745k为补充蒸馏序列,15TB,具有高覆盖度和多样性。数据集的创建过程涉及从PDB数据库下载结构数据,并通过复杂的清洗和处理步骤生成高质量的序列-结构对应关系。PSP数据集主要应用于蛋白质结构预测模型的训练和评估,支持AI驱动的蛋白质相关研究,如蛋白质序列/MSA预训练模型、基于序列和结构的蛋白质设计等。
提供机构:
北京大学化学与分子工程学院国家分子科学中心
创建时间:
2022-06-24



