ProteinMPNN

Hugging Face2026-03-05 更新2026-03-06 收录

下载链接：

https://huggingface.co/datasets/RosettaCommons/ProteinMPNN

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为ProteinMPNN精心策划的多链训练数据，旨在支持基于深度学习的蛋白质序列设计。数据集包含元数据以及每条链的序列和张量化坐标信息，数据被划分为训练集、测试集和验证集。每个PDB条目以.pt文件形式存储，包括链级信息（如氨基酸序列、原子坐标、温度因子等）和元数据（如实验方法、沉积日期、分辨率等）。数据集还提供了包含链标签、沉积日期、分辨率等信息的CSV文件。数据来源于19,700个高分辨率单链结构，这些结构根据CATH蛋白质分类数据库划分为80/10/10的比例。数据集适用于探索序列-结构关系，特别是逆折叠模型的研究。使用时需注意，该数据集受到ProteinMPNN团队的限制，不推荐直接用于蛋白质结构预测的训练。

创建时间：

2026-03-04

原始信息汇总

Curated ProteinMPNN 训练数据集概述

基本信息

数据集名称: Curated ProteinMPNN training dataset
数据集简介: 用于 ProteinMPNN 的多链训练数据。
主要用途: 探索序列-结构关系，不限于逆向折叠模型。
许可证: rosetta-license-1.0
标签: 化学、生物学
规模类别: 10k<n<100k

数据集内容与结构

数据来源

源数据包含来自蛋白质数据库（PDB）的 19,700 个高分辨率单链结构，根据 CATH 蛋白质分类数据库划分为训练集、验证集和测试集（80/10/10）。该集合包含截至 2021 年 8 月 2 日的 PDB 中的蛋白质组装体，这些组装体通过 X 射线晶体学或冷冻电子显微镜（cryo-EM）测定，分辨率优于 3.5 埃，且残基数少于 10,000。

数据文件与格式

原始 PDB 文件夹经过整理，整个数据集已分割为训练、测试和验证文件夹。每个 PDB 条目表示为一组 .pt 文件：

PDBID_CHAINID.pt：包含来自 PDBID 的 CHAINID 链。
PDBID.pt：包含生物组装的元数据和信息。

`PDBID_CHAINID.pt` 字段

seq：氨基酸序列（字符串）
xyz：原子坐标 [L,14,3]
mask：布尔掩码 [L,14]
bfac：温度因子 [L,14]
occ：占有率 [L,14]（对于大多数原子为 1，如果存在替代构象则小于 1）

`PDBID.pt` 字段

method：实验方法（字符串）
date：沉积日期（字符串）
resolution：分辨率（浮点数）
chains：CHAINID 列表（每个都有一个对应的 PDBID_CHAINID.pt 文件）
tm：链间的成对相似性（TM-score, seq.id., rmsd from TM-align）[num_chains, num_chains, 3]
asmb_ids：PDB 中的生物单元 ID（字符串列表）
asmb_details：组装识别方式：作者、软件或其他（字符串列表）
asmb_method：PISA 或其他（字符串列表）
asmb_chains：每个生物单元由哪些链组成的列表（字符串列表，每个字符串包含逗号分隔的 CHAINID）
asmb_xformIDX：（每个生物单元一个）应用于 asmb_chains[IDX] 中链的变换矩阵，[n,4,4]；[n,:3,:3] - 旋转矩阵；[n,3,:3] - 平移向量

`list_with_splits.csv` 文件

包含以下特征的 CSV 文件：

CHAINID：链标签，PDBID_CHAINID
DEPOSITION：沉积日期
RESOLUTION：结构分辨率
HASH：序列的唯一 6 位哈希值
CLUSTER：链所属的序列簇（在序列同一性 30% 下生成）
SEQUENCE：参考氨基酸序列
SPLIT：每个 pdb id 所属的分割（训练、测试、验证）

数据集配置与分割

配置名称: list_with_splits
特征:
- CHAINID（字符串）
- DEPOSITION（字符串）
- RESOLUTION（实数）
- HASH（整数）
- CLUSTER（整数）
- SEQUENCE（字符串）
- SPLIT（字符串）
数据分割与大小:
- 训练集：49,507,680,022 字节
- 测试集：1,985,519,880 字节
- 验证集：1,902,985,040 字节
总下载大小: 53,568,184,942 字节
可用下载格式: 训练、测试和验证分割可作为 .tar.gz 文件下载。

使用说明

加载数据集

可以使用 Hugging Face datasets 库加载数据集。示例如下： python import datasets dataset = datasets.load_dataset("RosettaCommons/ProteinMPNN", name="list_with_splits")

加载后的数据集为 datasets.arrow_dataset.Dataset 格式，可转换为 pandas DataFrame 或 parquet 格式。

适用范围外使用

该数据集已根据 ProteinMPNN 团队施加的限制进行整理。因此，在将其用作蛋白质结构预测的训练数据时必须谨慎。

致谢与来源

致谢

感谢 ProteinMPNN 团队、RosettaCommons 以及以下机构：加州大学洛杉矶分校、马里兰大学、俄勒冈大学、密歇根大学、宾夕法尼亚大学和威斯塔研究所。

来源

代码仓库: https://github.com/dauparas/ProteinMPNN
相关论文: Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., … Baker, D. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science (New York, N.Y.), 378(6615), 49–56. doi:10.1126/science.add2187

引用信息

BibTeX

bibtex @article{Dauparas2022, title = {Robust deep learning–based protein sequence design using ProteinMPNN}, volume = {378}, ISSN = {1095-9203}, url = {http://dx.doi.org/10.1126/science.add2187}, DOI = {10.1126/science.add2187}, number = {6615}, journal = {Science}, publisher = {American Association for the Advancement of Science (AAAS)}, author = {Dauparas, J. and Anishchenko, I. and Bennett, N. and Bai, H. and Ragotte, R. J. and Milles, L. F. and Wicky, B. I. M. and Courbet, A. and de Haas, R. J. and Bethel, N. and Leung, P. J. Y. and Huddy, T. F. and Pellock, S. and Tischer, D. and Chan, F. and Koepnick, B. and Nguyen, H. and Kang, A. and Sankaran, B. and Bera, A. K. and King, N. P. and Baker, D.}, year = {2022}, month = oct, pages = {49–56} }

APA

Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., … Baker, D. (2022). Robust deep learning-based protein sequence design using ProteinMPNN. Science (New York, N.Y.), 378(6615), 49–56. doi:10.1126/science.add2187

数据集卡片作者

Miranda Simpson (miranda13nicoles@gmail.com), Becca Lee (beccalee5@g.ucla.edu), Nathaniel Felbinger (nfelbing@umd.edu), Pratyush Dhal (pdhal@umich.edu), Colby Agostino (colby.agostino@pennmedicine.upenn.edu)

搜集汇总

数据集介绍

构建方式

在蛋白质结构预测与设计的广阔领域中，ProteinMPNN数据集的构建体现了严谨的学术规范。该数据集源自蛋白质数据库（PDB）中经过严格筛选的高分辨率单链结构，共计19,700个样本。构建过程依据CATH蛋白质分类数据库，以80/10/10的比例将数据划分为训练集、验证集和测试集，确保了数据分割的科学性与代表性。所有入选结构均通过X射线晶体学或冷冻电镜技术测定，分辨率优于3.5埃，且残基数少于10,000，从而保障了数据的质量与一致性。每个蛋白质结构均被系统地转换为包含序列、原子坐标、掩码、温度因子和占据率等丰富信息的标准化文件，为深度学习模型提供了结构化的输入。

特点

ProteinMPNN数据集的核心特点在于其针对多链蛋白质设计的深度优化。数据集不仅提供了单个链的详细原子坐标与序列信息，还包含了描述生物组装体的元数据，如链间相似性评分、组装单元标识及空间变换矩阵，这为研究蛋白质复合物的结构与功能关系提供了多维视角。数据以链为单位进行组织，并附有唯一的序列哈希值和基于30%序列同一性的聚类标签，便于进行序列相似性分析与去冗余处理。数据集经过精心划分，明确区分了训练、验证与测试用途，且所有文件均以高效的PyTorch张量格式存储，兼顾了数据处理的便捷性与模型训练的效率。

使用方法

为便于科研人员高效利用，ProteinMPNN数据集已集成于Hugging Face平台。用户可通过安装`datasets`库，使用`load_dataset`函数并指定相应路径与数据集名称（如`train_models`）来加载数据。加载后的数据以列式数据集对象呈现，可直接访问特定字段，或轻松转换为Pandas DataFrame或Parquet格式进行后续分析。数据集文件按蛋白质链与元数据分别存储为`.pt`文件，其中包含了序列、坐标、掩码等关键张量，可直接供ProteinMPNN等深度学习模型用于蛋白质逆向折叠或序列设计任务。研究者应留意数据集的许可协议，并依据其划分严格用于模型训练与评估，以保障研究结果的可靠性。

背景与挑战

背景概述

蛋白质序列设计作为计算生物学的前沿领域，旨在从给定的三维结构逆向推导出能够折叠成该结构的氨基酸序列。2022年，由华盛顿大学David Baker实验室主导的研究团队在《科学》期刊上正式发布了ProteinMPNN数据集，标志着深度学习在蛋白质逆向折叠任务中的重大突破。该数据集汇集了来自蛋白质数据库的高分辨率多链结构，通过严谨的筛选流程，构建了包含训练、验证与测试划分的标准化语料库。其核心研究问题聚焦于提升蛋白质序列设计的鲁棒性与泛化能力，为新型酶设计、疫苗研发及合成生物学提供了关键的数据基础，显著推动了蛋白质工程领域的范式转变。

当前挑战

在蛋白质序列设计领域，传统方法常受限于序列空间的组合爆炸问题，难以高效探索高维度的氨基酸排列。ProteinMPNN数据集旨在应对这一挑战，通过深度学习模型实现从结构到序列的精准映射，但其构建过程面临多重困难。数据筛选需平衡分辨率与结构多样性，确保样本覆盖不同折叠类型与生物学功能；多链组装的表征要求精确捕捉亚基间的相互作用与对称性。此外，数据划分必须避免序列同源性泄漏，依赖CATH分类体系实现严格的聚类分割，这对维持模型评估的公正性至关重要。这些挑战共同塑造了数据集的高质量标准与科学价值。

常用场景

经典使用场景

在蛋白质工程领域，ProteinMPNN数据集为深度学习驱动的蛋白质序列设计提供了核心训练资源。该数据集精心整合了多链蛋白质结构数据，通过原子坐标、序列信息及生物组装元数据，构建了序列与三维结构间的映射关系。其经典应用场景聚焦于训练逆折叠模型，即根据给定的蛋白质骨架结构，预测能够稳定折叠成该结构的氨基酸序列。这一过程对于理解蛋白质折叠规律、优化天然蛋白质功能或设计全新蛋白质具有关键意义。

实际应用

在实际生物技术与药物研发中，ProteinMPNN数据集支撑的模型已展现出广泛的应用潜力。例如，在酶工程中，研究人员可利用该数据集训练的模型重新设计酶活性位点的序列，以增强其催化效率或改变底物特异性。在新型疫苗与治疗性蛋白质开发中，该技术可用于设计具有更高稳定性或更低免疫原性的蛋白质变体。此外，在合成生物学领域，它助力于构建具有特定结构功能的人造蛋白质元件，为生物制造与材料科学开辟了新途径。

衍生相关工作

基于ProteinMPNN数据集与核心方法，衍生出了一系列重要的扩展研究与应用工具。例如，RFdiffusion等蛋白质结构生成模型常与ProteinMPNN结合，实现从无到有的蛋白质设计与优化。许多研究进一步将该框架应用于抗体设计、蛋白质-蛋白质界面工程以及多特异性分子构建。同时，社区中涌现了针对特定蛋白家族（如膜蛋白、纤维蛋白）的定制化训练数据与模型变体，持续推动着蛋白质设计领域的精度与边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集