ProteinMPNN
收藏Curated ProteinMPNN 训练数据集概述
基本信息
- 数据集名称: Curated ProteinMPNN training dataset
- 数据集简介: 用于 ProteinMPNN 的多链训练数据。
- 主要用途: 探索序列-结构关系,不限于逆向折叠模型。
- 许可证: rosetta-license-1.0
- 标签: 化学、生物学
- 规模类别: 10k<n<100k
数据集内容与结构
数据来源
源数据包含来自蛋白质数据库(PDB)的 19,700 个高分辨率单链结构,根据 CATH 蛋白质分类数据库划分为训练集、验证集和测试集(80/10/10)。该集合包含截至 2021 年 8 月 2 日的 PDB 中的蛋白质组装体,这些组装体通过 X 射线晶体学或冷冻电子显微镜(cryo-EM)测定,分辨率优于 3.5 埃,且残基数少于 10,000。
数据文件与格式
原始 PDB 文件夹经过整理,整个数据集已分割为训练、测试和验证文件夹。
每个 PDB 条目表示为一组 .pt 文件:
PDBID_CHAINID.pt:包含来自 PDBID 的 CHAINID 链。PDBID.pt:包含生物组装的元数据和信息。
PDBID_CHAINID.pt 字段
seq:氨基酸序列(字符串)xyz:原子坐标 [L,14,3]mask:布尔掩码 [L,14]bfac:温度因子 [L,14]occ:占有率 [L,14](对于大多数原子为 1,如果存在替代构象则小于 1)
PDBID.pt 字段
method:实验方法(字符串)date:沉积日期(字符串)resolution:分辨率(浮点数)chains:CHAINID 列表(每个都有一个对应的PDBID_CHAINID.pt文件)tm:链间的成对相似性(TM-score, seq.id., rmsd from TM-align)[num_chains, num_chains, 3]asmb_ids:PDB 中的生物单元 ID(字符串列表)asmb_details:组装识别方式:作者、软件或其他(字符串列表)asmb_method:PISA 或其他(字符串列表)asmb_chains:每个生物单元由哪些链组成的列表(字符串列表,每个字符串包含逗号分隔的 CHAINID)asmb_xformIDX:(每个生物单元一个)应用于asmb_chains[IDX]中链的变换矩阵,[n,4,4];[n,:3,:3] - 旋转矩阵;[n,3,:3] - 平移向量
list_with_splits.csv 文件
包含以下特征的 CSV 文件:
CHAINID:链标签,PDBID_CHAINIDDEPOSITION:沉积日期RESOLUTION:结构分辨率HASH:序列的唯一 6 位哈希值CLUSTER:链所属的序列簇(在序列同一性 30% 下生成)SEQUENCE:参考氨基酸序列SPLIT:每个 pdb id 所属的分割(训练、测试、验证)
数据集配置与分割
- 配置名称:
list_with_splits - 特征:
CHAINID(字符串)DEPOSITION(字符串)RESOLUTION(实数)HASH(整数)CLUSTER(整数)SEQUENCE(字符串)SPLIT(字符串)
- 数据分割与大小:
- 训练集:49,507,680,022 字节
- 测试集:1,985,519,880 字节
- 验证集:1,902,985,040 字节
- 总下载大小: 53,568,184,942 字节
- 可用下载格式: 训练、测试和验证分割可作为
.tar.gz文件下载。
使用说明
加载数据集
可以使用 Hugging Face datasets 库加载数据集。示例如下:
python
import datasets
dataset = datasets.load_dataset("RosettaCommons/ProteinMPNN", name="list_with_splits")
加载后的数据集为 datasets.arrow_dataset.Dataset 格式,可转换为 pandas DataFrame 或 parquet 格式。
适用范围外使用
该数据集已根据 ProteinMPNN 团队施加的限制进行整理。因此,在将其用作蛋白质结构预测的训练数据时必须谨慎。
致谢与来源
致谢
感谢 ProteinMPNN 团队、RosettaCommons 以及以下机构:加州大学洛杉矶分校、马里兰大学、俄勒冈大学、密歇根大学、宾夕法尼亚大学和威斯塔研究所。
来源
- 代码仓库: https://github.com/dauparas/ProteinMPNN
- 相关论文: Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., … Baker, D. (2022). Robust deep learning–based protein sequence design using ProteinMPNN. Science (New York, N.Y.), 378(6615), 49–56. doi:10.1126/science.add2187
引用信息
BibTeX
bibtex @article{Dauparas2022, title = {Robust deep learning–based protein sequence design using ProteinMPNN}, volume = {378}, ISSN = {1095-9203}, url = {http://dx.doi.org/10.1126/science.add2187}, DOI = {10.1126/science.add2187}, number = {6615}, journal = {Science}, publisher = {American Association for the Advancement of Science (AAAS)}, author = {Dauparas, J. and Anishchenko, I. and Bennett, N. and Bai, H. and Ragotte, R. J. and Milles, L. F. and Wicky, B. I. M. and Courbet, A. and de Haas, R. J. and Bethel, N. and Leung, P. J. Y. and Huddy, T. F. and Pellock, S. and Tischer, D. and Chan, F. and Koepnick, B. and Nguyen, H. and Kang, A. and Sankaran, B. and Bera, A. K. and King, N. P. and Baker, D.}, year = {2022}, month = oct, pages = {49–56} }
APA
Dauparas, J., Anishchenko, I., Bennett, N., Bai, H., Ragotte, R. J., Milles, L. F., … Baker, D. (2022). Robust deep learning-based protein sequence design using ProteinMPNN. Science (New York, N.Y.), 378(6615), 49–56. doi:10.1126/science.add2187
数据集卡片作者
Miranda Simpson (miranda13nicoles@gmail.com), Becca Lee (beccalee5@g.ucla.edu), Nathaniel Felbinger (nfelbing@umd.edu), Pratyush Dhal (pdhal@umich.edu), Colby Agostino (colby.agostino@pennmedicine.upenn.edu)



