PINDER

github2024-07-19 更新2024-07-22 收录

下载链接：

https://github.com/pinder-org/pinder

下载链接

链接失效反馈

官方服务：

资源简介：

PINDER是一个用于训练和评估蛋白质-蛋白质对接算法的数据集和资源。它是之前最先进数据集的约500倍大，并且是第一个包含配对预测和apo结构的集合，用于训练灵活对接方法。

PINDER is a dataset and resource for training and evaluating protein-protein docking algorithms. It is approximately 500 times larger than prior state-of-the-art datasets, and it is the first collection that includes paired predictions and apo structures for training flexible docking methods.

创建时间：

2024-07-19

原始信息汇总

PINDER: The Protein INteraction Dataset and Evaluation Resource

数据集概述

pinder，全称为protein interaction dataset and evaluation resource，是一个用于训练和评估蛋白质-蛋白质对接算法的数据集和资源。该数据集比以往最先进的数据集大~500倍，并且是第一个包含配对预测和apo结构的用于训练柔性对接方法的数据集。

数据集大小和存储

数据集大小约为700GB，托管在Google Cloud Storage上，可通过gs://pinder桶访问。

数据集内容

数据集包含以下内容：

pdbs/：包含单体和真实二聚体PDB结构
mappings/：包含holo和apo单体的PDB<->uniprot映射信息，以及原始PDB装配信息
index.parquet：包含pinder中每个二聚体的主索引
metadata.parquet：包含索引中每个条目的附加元数据详细信息

数据集版本

当前数据集的版本为2024-02，详细变更日志可在data changelog中查看。

数据集下载

推荐通过提供的Python API进行交互式下载，默认下载路径为~/.local/share/pinder/<release version>。也可以手动下载，但需要安装gsutil工具。

数据集更新

对于索引或元数据的非破坏性变更，可以使用pinder_update_index命令进行本地同步。对于结构文件的变更，可以使用pinder_sync_data命令进行同步。

数据集使用

数据集用于训练和评估蛋白质-蛋白质对接算法，包含多个基准测试集和验证集。具体包括：

Gold standard benchmark sets：包含多个高质量的基准测试集
Validation holdout set：验证集
Training set：训练集，包含大量训练示例

评估工具

提供了一个完整的评估工具，包含高效的Python或Rust实现的评估指标，如DockQ。评估工具可以通过pinder.eval方法或CLI脚本使用。

提交方法

推荐使用pinder_create_submission CLI脚本创建提交，以便将方法提交到排行榜。

搜集汇总

数据集介绍

构建方式

PINDER数据集的构建基于大规模的蛋白质相互作用数据，通过整合来自多个来源的蛋白质结构信息，包括预测的和实际的结构，构建了一个包含约700GB数据的庞大数据库。该数据集不仅包含了传统的蛋白质-蛋白质复合物结构，还首次引入了配对预测和无配体（apo）结构，以支持灵活对接方法的训练。数据集的构建过程中，采用了先进的去冗余和过滤技术，确保了数据的高质量和多样性。

特点

PINDER数据集的一个显著特点是其规模之大，比之前的同类数据集大了约500倍，提供了前所未有的训练和评估资源。此外，该数据集包含了配对的预测和无配体结构，这对于训练能够处理蛋白质灵活性的对接算法至关重要。数据集还提供了详细的元数据和索引信息，便于用户快速访问和分析数据。

使用方法

使用PINDER数据集，用户首先需要安装相关的Python包，并设置虚拟环境。数据集可以通过Python API自动下载和加载，用户可以选择将数据存储在默认路径或自定义路径。数据集的下载和更新可以通过命令行工具进行管理，确保用户能够及时获取最新的数据版本。数据集的结构清晰，包含了蛋白质单体和复合物的PDB结构、映射信息、索引和元数据，用户可以根据需要进行访问和分析。

背景与挑战

背景概述

PINDER，全称为Protein INteraction Dataset and Evaluation Resource，是一个用于训练和评估蛋白质-蛋白质对接算法的数据集和资源。该数据集由主要研究人员或机构于近期创建，其规模约为先前最先进数据集的500倍，并且首次包含了配对的预测和apo结构，以训练灵活的对接方法。PINDER的核心研究问题集中在蛋白质相互作用的精确建模和对接算法的性能评估上，对蛋白质科学领域具有显著的影响力。

当前挑战

PINDER数据集在构建过程中面临了多个挑战。首先，数据集的规模巨大（约700GB），这要求高效的存储和处理技术。其次，包含配对的预测和apo结构增加了数据集的复杂性，需要精确的结构预测和配对算法。此外，数据集的多样性和质量控制也是关键挑战，确保数据集能够有效支持对接算法的训练和评估。最后，数据集的更新和维护也是一个持续的挑战，以确保其与最新的科学发现和技术进步保持同步。

常用场景

经典使用场景

在蛋白质相互作用研究领域，PINDER数据集被广泛用于训练和评估蛋白质-蛋白质对接算法。其经典使用场景包括但不限于：通过提供大规模的蛋白质结构数据，支持研究人员开发和优化基于物理和机器学习的对接方法。特别是，PINDER首次包含了配对预测和脱辅基结构，这为训练灵活对接方法提供了独特的机会。

实际应用

PINDER数据集在实际应用中展现了其广泛的价值。例如，在药物发现过程中，研究人员可以利用PINDER数据集来预测和优化药物分子与目标蛋白质的相互作用，从而加速新药的研发。此外，PINDER还可以用于生物工程领域，帮助设计新的蛋白质复合物，以实现特定的生物功能。

衍生相关工作

基于PINDER数据集，已经衍生出多项经典工作。例如，一些研究团队利用PINDER中的配对预测和脱辅基结构，开发了新的蛋白质对接算法，显著提高了对接的准确性。此外，PINDER还启发了多个机器学习模型的研究，这些模型在蛋白质相互作用预测和药物设计中表现出色。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集