plinder

github2024-07-18 更新2024-07-19 收录

下载链接：

https://github.com/plinder-org/plinder

下载链接

链接失效反馈

官方服务：

资源简介：

plinder是一个用于训练和评估蛋白质-配体对接算法的数据集和资源。

Plinder is a dataset and resource for training and evaluating protein-ligand docking algorithms.

创建时间：

2024-07-18

原始信息汇总

关于 plinder 数据集

plinder，全称 protein ligand interactions dataset and evaluation resource，是一个用于训练和评估蛋白质-配体对接算法的数据集和资源。

数据集特点

包含超过 400,000 个蛋白质-配体相互作用（PLI）系统，跨越超过 11,000 个 SCOP 域和超过 50,000 个独特的小分子。
每个系统有超过 500 个注释，包括蛋白质和配体属性、质量、匹配的分子系列等。
自动化的数据集管理流程，以跟上蛋白质数据库（PDB）的更新。
14 种 PLI 指标和超过 200 亿个相似性分数。
未结合（apo）和预测的 Alphafold2 结构与结合（holo）系统相关联。
train-val-test 分割，可根据学习任务调整分割方式。
强大的评估工具，简化并标准化模型之间的性能比较。

数据集版本控制

PLINDER_RELEASE：最后一次 RCSB 同步的月份标记。
PLINDER_ITERATION：在同一发布内进行迭代开发的值。

黄金标准基准集

提供训练、验证和测试分割，以最小化蛋白质-配体相互作用相似性引起的信息泄露。
优先考虑具有相关实验 apo 结构或匹配分子系列的系统，以支持现实的命中发现和优化场景。
测试集进一步优先考虑高质量结构，以提供明确的性能基准。

测试集细分

新颖性	系统数量	高质量系统数量	细分标准
口袋	5206	5203	PLI 共享 < 50 & 口袋共享 lDDT < 0.5
配体	2395	2395	ECFP4 指纹相似性 < 0.3
蛋白质	983	983	蛋白质序列相似性 < 0.3 & 蛋白质 lDDT > 0.7
全部	268	268	上述所有
无	0	0	上述均无

数据集获取

使用 plinder.core API 可以透明且懒惰地下载和交互数据集的大部分组件。
也可以使用 gsutil 直接获取数据集。

数据集下载步骤

下载可用版本的清单： bash gsutil -m cp -r gs://plinder/manifest.md .
选择特定版本或下载整个数据集： bash export PLINDER_RELEASE=2024-06 export PLINDER_ITERATION=v2 gsutil -m cp -r gs://plinder/${PLINDER_RELEASE}/${PLINDER_ITERATION}/* ~/.local/share/plinder/${PLINDER_RELEASE}/${PLINDER_ITERATION}/
查看特定版本的目录结构： bash gsutil ls gs://plinder/2024-06/v2/

未来工作

实现数据加载器
建立排行榜
改进文档和示例

代码组织

plinder.core：核心数据结构，用于与数据集交互和加载。
plinder.data：生成数据集的核心代码。
plinder.eval：数据集的评估工具，接受预测和真实结构的输入，并返回排行榜就绪的条目。
plinder.methods：排行榜中方法的实现，利用 plinder-primitives 进行训练和运行。

数据集生成

详细技术细节请参阅端到端管道描述。

示例和文档

包括 API 文档、示例笔记本和补充指南。

开发指南

使用开发模式安装： bash git clone https://github.com/plinder-org/plinder.git cd plinder mamba env create -f environment.yml mamba activate plinder pip install -e .[dev]
安装预提交钩子： bash pre-commit install
运行测试套件： bash tox -e lint tox -e type tox -e test

贡献

鼓励社区贡献。

包发布

将 plinder 项目作为 Docker 容器发布，以确保与非 Linux 平台的最高兼容性。

搜集汇总

数据集介绍

构建方式

PLINDER数据集的构建基于自动化流程，通过定期与RCSB数据库同步，确保数据的时效性和准确性。该数据集涵盖超过400,000个蛋白质-配体相互作用系统，跨越11,000多个SCOP域和50,000多种独特的小分子。每个系统均包含500多个注释，包括蛋白质和配体的属性、质量、匹配的分子系列等。此外，数据集还整合了Alphafold2预测的结构和实验获得的apo结构，以支持更真实的推理场景。

特点

PLINDER数据集的显著特点在于其全面性和高质量的注释。数据集不仅包含丰富的蛋白质-配体相互作用信息，还提供了14种相互作用度量和超过200亿个相似性评分。此外，数据集支持基于学习任务的训练-验证-测试分割，并提供了强大的评估工具，以简化模型间性能比较的标准化过程。

使用方法

用户可以通过两种方式使用PLINDER数据集：直接从公共存储桶下载数据，或通过专门的Python包进行数据交互。数据集的下载可以通过gsutil工具完成，而Python包则可通过pip安装。数据集的子目录结构和详细使用方法可在官方文档中找到。

背景与挑战

背景概述

PLINDER，全称为蛋白质配体相互作用数据集与评估资源，是一个全面、注释丰富的高质量数据集，旨在用于训练和评估蛋白质-配体对接算法。该数据集由巴塞尔大学、SIB瑞士生物信息学研究所、VantAI、NVIDIA和MIT CSAIL等机构联合发起，旨在解决蛋白质-配体相互作用领域的核心研究问题。PLINDER包含了超过40万种蛋白质-配体相互作用系统，覆盖了超过11,000个SCOP域和50,000种独特的小分子。其自动化的数据整理流程确保了与PDB的同步更新，并提供了14种蛋白质-配体相互作用指标和超过200亿个相似性评分。此外，PLINDER还提供了无配体结构和预测的Alphafold2结构，以及基于学习任务的训练-验证-测试分割，极大地推动了该领域的标准化和性能比较。

当前挑战

PLINDER数据集在构建过程中面临了多项挑战。首先，确保数据的高质量和多样性是一个持续的挑战，尤其是在处理大量蛋白质-配体相互作用系统时。其次，自动化数据整理流程需要不断优化，以确保与PDB的同步更新和数据的一致性。此外，为不同学习任务提供合适的训练-验证-测试分割，以及确保测试集的高质量结构，以提供明确的性能基准，也是一项复杂的工作。最后，随着蛋白质-配体相互作用领域的快速发展，PLINDER需要不断更新和扩展，以适应新的研究需求和方法。

常用场景

经典使用场景

在蛋白质-配体相互作用（PLI）领域，PLINDER数据集的经典使用场景主要集中在训练和评估蛋白质-配体对接算法。该数据集提供了超过40万种蛋白质-配体系统，涵盖了11,000多个SCOP域和50,000多种独特的小分子。通过丰富的注释，包括蛋白质和配体的属性、质量、匹配的分子系列等，PLINDER为研究人员提供了一个全面且高质量的数据资源，用于开发和优化蛋白质-配体对接模型。

解决学术问题

PLINDER数据集解决了蛋白质-配体相互作用研究中的多个关键学术问题。首先，它通过提供大量高质量的蛋白质-配体系统，解决了数据稀缺和质量参差不齐的问题。其次，通过详细的注释和自动化的数据处理流程，PLINDER简化了模型的训练和评估过程，提高了研究的效率和准确性。此外，该数据集还通过提供无配体（apo）结构和Alphafold2预测结构，支持了更真实的推理场景，推动了蛋白质-配体相互作用领域的研究进展。

衍生相关工作

PLINDER数据集的发布和应用催生了多项相关研究工作。例如，在2024年的Machine Learning in Structural Biology (MLSB) Workshop上，PLINDER被用作蛋白质-配体相互作用数据集的标准，推动了相关算法的竞赛和研究。此外，PLINDER还启发了多个基于其数据和方法的研究项目，如DiffDock的重新训练和Moving Beyond Memorization项目，这些工作进一步扩展了PLINDER的应用范围和影响力。

以上内容由遇见数据集搜集并总结生成