wwPDB dataset

github2024-11-27 更新2024-11-28 收录

下载链接：

https://github.com/bytedance/Protenix

下载链接

链接失效反馈

官方服务：

资源简介：

wwPDB数据集是一个用于蛋白质结构预测的数据集，包含了大量的蛋白质结构信息。

The wwPDB dataset is a dataset for protein structure prediction, which contains a large amount of protein structural information.

创建时间：

2024-11-08

原始信息汇总

Protenix: Protein + X 数据集概述

数据集内容

数据来源: wwPDB 数据集
数据类型: 蛋白质结构数据
数据大小: 至少需要 1T 磁盘空间
数据结构: bash ├── components.v20240608.cif [408M] # ccd 源文件 ├── components.v20240608.cif.rdkit_mol.pkl [121M] # rdkit Mol 对象生成的 ccd 源文件 ├── indices [33M] # 链或接口条目 ├── mmcif [283G] # 原始 mmcif 数据 ├── mmcif_bioassembly [36G] # 预处理的 wwPDB 结构数据 ├── mmcif_msa [450G] # msa 文件 ├── posebusters_bioassembly [42M] # 预处理的 posebusters 结构数据 ├── posebusters_mmcif [361M] # 原始 mmcif 数据 ├── recentPDB_bioassembly [1.5G] # 预处理的 recentPDB 结构数据 └── seq_to_pdb_index.json [45M] # 序列到 pdb id 映射文件

数据下载

预处理数据下载: bash wget -P /af3-dev/release_data/ https://af3-dev.tos-cn-beijing.volces.com/release_data.tar.gz tar -xzvf /af3-dev/release_data/release_data.tar.gz -C /af3-dev/release_data/ rm /af3-dev/release_data/release_data.tar.gz
仅用于推理的数据下载: bash wget -P /af3-dev/release_data/ https://af3-dev.tos-cn-beijing.volces.com/release_data/components.v20240608.cif wget -P /af3-dev/release_data/ https://af3-dev.tos-cn-beijing.volces.com/release_data/components.v20240608.cif.rdkit_mol.pkl

模型检查点

预训练模型下载: bash wget -P /af3-dev/release_model/ https://af3-dev.tos-cn-beijing.volces.com/release_model/model_v1.pt

数据集用途

训练: 用于从头开始训练模型
推理: 用于模型推理和预测

数据集处理

数据处理脚本: 正在组织和准备中，未来将发布蒸馏数据

数据集相关文档

输入 JSON 文件格式: 详细信息
训练和微调设置: 详细信息

数据集许可证

非商业用途: Creative Commons Attribution-NonCommercial 4.0 International License
商业用途: 请联系 ai4s-bio@bytedance.com 获取商业许可证

搜集汇总

数据集介绍

构建方式

wwPDB数据集的构建基于全球蛋白质数据库（wwPDB）的原始数据，通过预处理和结构化处理生成。数据集包括了从mmCIF格式的原始数据到预处理后的生物大分子结构数据，涵盖了多种类型的文件，如ccd源文件、rdkit Mol对象、链或接口条目、MSA文件等。这些数据经过精心组织和处理，以确保在训练和推理过程中能够高效利用。数据集的构建过程还包括了从大规模的mmCIF数据中提取关键信息，并将其转换为适合模型输入的格式，从而为蛋白质结构预测模型提供了丰富的训练资源。

特点

wwPDB数据集的主要特点在于其数据的高质量和多样性。该数据集包含了从全球蛋白质数据库中提取的大量高质量蛋白质结构数据，涵盖了多种生物大分子类型和结构。此外，数据集还包含了预处理后的生物大分子结构数据，这些数据经过精心处理，以确保在模型训练和推理过程中能够高效利用。数据集的多样性和高质量数据为蛋白质结构预测模型提供了丰富的训练资源，有助于提高模型的预测精度和泛化能力。

使用方法

使用wwPDB数据集进行模型训练和推理时，首先需要下载并解压数据集文件，将其放置在指定的目录中。然后，根据模型的需求，配置相应的环境变量和参数，如LAYERNORM_TYPE和DATA_ROOT_DIR等。在训练过程中，可以通过调整训练参数和数据集配置，优化模型的性能。对于推理任务，可以使用预训练的模型检查点，并通过指定的脚本进行模型推理。数据集的使用方法还包括了分布式训练的支持，用户可以根据实际需求配置分布式训练环境，以提高训练效率。

背景与挑战

背景概述

wwPDB数据集，全称为Worldwide Protein Data Bank，是一个全球性的蛋白质结构数据库，由多个研究机构共同维护。该数据集的核心研究问题在于提供高质量的蛋白质结构数据，以支持生物信息学、药物设计和蛋白质工程等领域的研究。自创建以来，wwPDB数据集已成为全球科学家进行蛋白质结构分析和预测的重要资源，极大地推动了蛋白质科学的发展。主要研究人员和机构包括世界各地的蛋白质结构实验室和生物信息学中心，如欧洲生物信息学研究所（EMBL-EBI）和美国结构生物信息学研究合作组织（RCSB PDB）。

当前挑战

wwPDB数据集在构建过程中面临诸多挑战。首先，数据集的规模庞大，包含数百万个蛋白质结构文件，这要求高效的存储和检索系统。其次，数据的质量控制是一个持续的挑战，确保每个蛋白质结构的准确性和完整性对于下游分析至关重要。此外，随着新技术的不断发展，如AlphaFold等深度学习模型的引入，数据集需要不断更新以适应新的数据格式和分析需求。最后，数据集的开放性和可访问性也是一个重要挑战，确保全球研究者能够无障碍地获取和使用这些数据。

常用场景

经典使用场景

在蛋白质结构预测领域，wwPDB数据集被广泛应用于训练和验证蛋白质结构预测模型，如AlphaFold 3。该数据集包含了大量的蛋白质结构信息，包括氨基酸序列和三维结构数据，为模型提供了丰富的训练素材。通过使用wwPDB数据集，研究人员能够构建和优化模型，以准确预测蛋白质的三维结构，从而推动生物医学研究和药物设计的发展。

衍生相关工作

基于wwPDB数据集，许多经典工作得以开展，如AlphaFold 3的开发和优化。这些工作不仅提升了蛋白质结构预测的准确性，还推动了相关技术的进步。此外，wwPDB数据集还催生了大量的研究论文和专利，涉及蛋白质结构预测、药物设计、生物工程等多个领域。这些衍生工作不仅丰富了学术研究的内容，还为实际应用提供了新的思路和方法。

数据集最近研究