five

PSP

收藏
arXiv2022-06-24 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2206.12240v1
下载链接
链接失效反馈
官方服务:
资源简介:
PSP数据集是由北京大学化学与分子工程学院国家分子科学中心创建的,旨在解决蛋白质结构预测领域数据集不足的问题。该数据集包含约133万条蛋白质序列,其中570k为真实结构序列,15TB,745k为补充蒸馏序列,15TB,具有高覆盖度和多样性。数据集的创建过程涉及从PDB数据库下载结构数据,并通过复杂的清洗和处理步骤生成高质量的序列-结构对应关系。PSP数据集主要应用于蛋白质结构预测模型的训练和评估,支持AI驱动的蛋白质相关研究,如蛋白质序列/MSA预训练模型、基于序列和结构的蛋白质设计等。
提供机构:
北京大学化学与分子工程学院国家分子科学中心
创建时间:
2022-06-24
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作