plinder
收藏github2024-07-18 更新2024-07-19 收录
下载链接:
https://github.com/plinder-org/plinder
下载链接
链接失效反馈官方服务:
资源简介:
plinder是一个用于训练和评估蛋白质-配体对接算法的数据集和资源。
Plinder is a dataset and resource for training and evaluating protein-ligand docking algorithms.
创建时间:
2024-07-18
原始信息汇总
关于 plinder 数据集
plinder,全称 protein ligand interactions dataset and evaluation resource,是一个用于训练和评估蛋白质-配体对接算法的数据集和资源。
数据集特点
- 包含超过 400,000 个蛋白质-配体相互作用(PLI)系统,跨越超过 11,000 个 SCOP 域和超过 50,000 个独特的小分子。
- 每个系统有超过 500 个注释,包括蛋白质和配体属性、质量、匹配的分子系列等。
- 自动化的数据集管理流程,以跟上蛋白质数据库(PDB)的更新。
- 14 种 PLI 指标和超过 200 亿个相似性分数。
- 未结合(apo)和预测的 Alphafold2 结构与结合(holo)系统相关联。
train-val-test分割,可根据学习任务调整分割方式。- 强大的评估工具,简化并标准化模型之间的性能比较。
数据集版本控制
PLINDER_RELEASE:最后一次 RCSB 同步的月份标记。PLINDER_ITERATION:在同一发布内进行迭代开发的值。
黄金标准基准集
- 提供训练、验证和测试分割,以最小化蛋白质-配体相互作用相似性引起的信息泄露。
- 优先考虑具有相关实验 apo 结构或匹配分子系列的系统,以支持现实的命中发现和优化场景。
- 测试集进一步优先考虑高质量结构,以提供明确的性能基准。
测试集细分
| 新颖性 | 系统数量 | 高质量系统数量 | 细分标准 |
|---|---|---|---|
| 口袋 | 5206 | 5203 | PLI 共享 < 50 & 口袋共享 lDDT < 0.5 |
| 配体 | 2395 | 2395 | ECFP4 指纹相似性 < 0.3 |
| 蛋白质 | 983 | 983 | 蛋白质序列相似性 < 0.3 & 蛋白质 lDDT > 0.7 |
| 全部 | 268 | 268 | 上述所有 |
| 无 | 0 | 0 | 上述均无 |
数据集获取
- 使用
plinder.coreAPI 可以透明且懒惰地下载和交互数据集的大部分组件。 - 也可以使用
gsutil直接获取数据集。
数据集下载步骤
-
下载可用版本的清单: bash gsutil -m cp -r gs://plinder/manifest.md .
-
选择特定版本或下载整个数据集: bash export PLINDER_RELEASE=2024-06 export PLINDER_ITERATION=v2 gsutil -m cp -r gs://plinder/${PLINDER_RELEASE}/${PLINDER_ITERATION}/* ~/.local/share/plinder/${PLINDER_RELEASE}/${PLINDER_ITERATION}/
-
查看特定版本的目录结构: bash gsutil ls gs://plinder/2024-06/v2/
未来工作
- 实现数据加载器
- 建立排行榜
- 改进文档和示例
代码组织
plinder.core:核心数据结构,用于与数据集交互和加载。plinder.data:生成数据集的核心代码。plinder.eval:数据集的评估工具,接受预测和真实结构的输入,并返回排行榜就绪的条目。plinder.methods:排行榜中方法的实现,利用 plinder-primitives 进行训练和运行。
数据集生成
- 详细技术细节请参阅 端到端管道 描述。
示例和文档
- 包括 API 文档、示例笔记本 和补充指南。
开发指南
-
使用开发模式安装: bash git clone https://github.com/plinder-org/plinder.git cd plinder mamba env create -f environment.yml mamba activate plinder pip install -e .[dev]
-
安装预提交钩子: bash pre-commit install
-
运行测试套件: bash tox -e lint tox -e type tox -e test
贡献
- 鼓励社区贡献。
包发布
- 将
plinder项目作为 Docker 容器发布,以确保与非 Linux 平台的最高兼容性。
搜集汇总
数据集介绍

构建方式
PLINDER数据集的构建基于自动化流程,通过定期与RCSB数据库同步,确保数据的时效性和准确性。该数据集涵盖超过400,000个蛋白质-配体相互作用系统,跨越11,000多个SCOP域和50,000多种独特的小分子。每个系统均包含500多个注释,包括蛋白质和配体的属性、质量、匹配的分子系列等。此外,数据集还整合了Alphafold2预测的结构和实验获得的apo结构,以支持更真实的推理场景。
特点
PLINDER数据集的显著特点在于其全面性和高质量的注释。数据集不仅包含丰富的蛋白质-配体相互作用信息,还提供了14种相互作用度量和超过200亿个相似性评分。此外,数据集支持基于学习任务的训练-验证-测试分割,并提供了强大的评估工具,以简化模型间性能比较的标准化过程。
使用方法
用户可以通过两种方式使用PLINDER数据集:直接从公共存储桶下载数据,或通过专门的Python包进行数据交互。数据集的下载可以通过gsutil工具完成,而Python包则可通过pip安装。数据集的子目录结构和详细使用方法可在官方文档中找到。
背景与挑战
背景概述
PLINDER,全称为蛋白质配体相互作用数据集与评估资源,是一个全面、注释丰富的高质量数据集,旨在用于训练和评估蛋白质-配体对接算法。该数据集由巴塞尔大学、SIB瑞士生物信息学研究所、VantAI、NVIDIA和MIT CSAIL等机构联合发起,旨在解决蛋白质-配体相互作用领域的核心研究问题。PLINDER包含了超过40万种蛋白质-配体相互作用系统,覆盖了超过11,000个SCOP域和50,000种独特的小分子。其自动化的数据整理流程确保了与PDB的同步更新,并提供了14种蛋白质-配体相互作用指标和超过200亿个相似性评分。此外,PLINDER还提供了无配体结构和预测的Alphafold2结构,以及基于学习任务的训练-验证-测试分割,极大地推动了该领域的标准化和性能比较。
当前挑战
PLINDER数据集在构建过程中面临了多项挑战。首先,确保数据的高质量和多样性是一个持续的挑战,尤其是在处理大量蛋白质-配体相互作用系统时。其次,自动化数据整理流程需要不断优化,以确保与PDB的同步更新和数据的一致性。此外,为不同学习任务提供合适的训练-验证-测试分割,以及确保测试集的高质量结构,以提供明确的性能基准,也是一项复杂的工作。最后,随着蛋白质-配体相互作用领域的快速发展,PLINDER需要不断更新和扩展,以适应新的研究需求和方法。
常用场景
经典使用场景
在蛋白质-配体相互作用(PLI)领域,PLINDER数据集的经典使用场景主要集中在训练和评估蛋白质-配体对接算法。该数据集提供了超过40万种蛋白质-配体系统,涵盖了11,000多个SCOP域和50,000多种独特的小分子。通过丰富的注释,包括蛋白质和配体的属性、质量、匹配的分子系列等,PLINDER为研究人员提供了一个全面且高质量的数据资源,用于开发和优化蛋白质-配体对接模型。
解决学术问题
PLINDER数据集解决了蛋白质-配体相互作用研究中的多个关键学术问题。首先,它通过提供大量高质量的蛋白质-配体系统,解决了数据稀缺和质量参差不齐的问题。其次,通过详细的注释和自动化的数据处理流程,PLINDER简化了模型的训练和评估过程,提高了研究的效率和准确性。此外,该数据集还通过提供无配体(apo)结构和Alphafold2预测结构,支持了更真实的推理场景,推动了蛋白质-配体相互作用领域的研究进展。
衍生相关工作
PLINDER数据集的发布和应用催生了多项相关研究工作。例如,在2024年的Machine Learning in Structural Biology (MLSB) Workshop上,PLINDER被用作蛋白质-配体相互作用数据集的标准,推动了相关算法的竞赛和研究。此外,PLINDER还启发了多个基于其数据和方法的研究项目,如DiffDock的重新训练和Moving Beyond Memorization项目,这些工作进一步扩展了PLINDER的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



