five

plinder

收藏
github2024-07-18 更新2024-07-19 收录
下载链接:
https://github.com/plinder-org/plinder
下载链接
链接失效反馈
官方服务:
资源简介:
plinder是一个用于训练和评估蛋白质-配体对接算法的数据集和资源。

Plinder is a dataset and resource for training and evaluating protein-ligand docking algorithms.
创建时间:
2024-07-18
原始信息汇总

关于 plinder 数据集

plinder,全称 protein ligand interactions dataset and evaluation resource,是一个用于训练和评估蛋白质-配体对接算法的数据集和资源。

数据集特点

  • 包含超过 400,000 个蛋白质-配体相互作用(PLI)系统,跨越超过 11,000 个 SCOP 域和超过 50,000 个独特的小分子。
  • 每个系统有超过 500 个注释,包括蛋白质和配体属性、质量、匹配的分子系列等。
  • 自动化的数据集管理流程,以跟上蛋白质数据库(PDB)的更新。
  • 14 种 PLI 指标和超过 200 亿个相似性分数。
  • 未结合(apo)和预测的 Alphafold2 结构与结合(holo)系统相关联。
  • train-val-test 分割,可根据学习任务调整分割方式。
  • 强大的评估工具,简化并标准化模型之间的性能比较。

数据集版本控制

  • PLINDER_RELEASE:最后一次 RCSB 同步的月份标记。
  • PLINDER_ITERATION:在同一发布内进行迭代开发的值。

黄金标准基准集

  • 提供训练、验证和测试分割,以最小化蛋白质-配体相互作用相似性引起的信息泄露。
  • 优先考虑具有相关实验 apo 结构或匹配分子系列的系统,以支持现实的命中发现和优化场景。
  • 测试集进一步优先考虑高质量结构,以提供明确的性能基准。

测试集细分

新颖性 系统数量 高质量系统数量 细分标准
口袋 5206 5203 PLI 共享 < 50 & 口袋共享 lDDT < 0.5
配体 2395 2395 ECFP4 指纹相似性 < 0.3
蛋白质 983 983 蛋白质序列相似性 < 0.3 & 蛋白质 lDDT > 0.7
全部 268 268 上述所有
0 0 上述均无

数据集获取

  • 使用 plinder.core API 可以透明且懒惰地下载和交互数据集的大部分组件。
  • 也可以使用 gsutil 直接获取数据集。

数据集下载步骤

  1. 下载可用版本的清单: bash gsutil -m cp -r gs://plinder/manifest.md .

  2. 选择特定版本或下载整个数据集: bash export PLINDER_RELEASE=2024-06 export PLINDER_ITERATION=v2 gsutil -m cp -r gs://plinder/${PLINDER_RELEASE}/${PLINDER_ITERATION}/* ~/.local/share/plinder/${PLINDER_RELEASE}/${PLINDER_ITERATION}/

  3. 查看特定版本的目录结构: bash gsutil ls gs://plinder/2024-06/v2/

未来工作

  • 实现数据加载器
  • 建立排行榜
  • 改进文档和示例

代码组织

  • plinder.core:核心数据结构,用于与数据集交互和加载。
  • plinder.data:生成数据集的核心代码。
  • plinder.eval:数据集的评估工具,接受预测和真实结构的输入,并返回排行榜就绪的条目。
  • plinder.methods:排行榜中方法的实现,利用 plinder-primitives 进行训练和运行。

数据集生成

示例和文档

开发指南

  • 使用开发模式安装: bash git clone https://github.com/plinder-org/plinder.git cd plinder mamba env create -f environment.yml mamba activate plinder pip install -e .[dev]

  • 安装预提交钩子: bash pre-commit install

  • 运行测试套件: bash tox -e lint tox -e type tox -e test

贡献

  • 鼓励社区贡献。

包发布

  • plinder 项目作为 Docker 容器发布,以确保与非 Linux 平台的最高兼容性。
搜集汇总
数据集介绍
main_image_url
构建方式
PLINDER数据集的构建基于自动化流程,通过定期与RCSB数据库同步,确保数据的时效性和准确性。该数据集涵盖超过400,000个蛋白质-配体相互作用系统,跨越11,000多个SCOP域和50,000多种独特的小分子。每个系统均包含500多个注释,包括蛋白质和配体的属性、质量、匹配的分子系列等。此外,数据集还整合了Alphafold2预测的结构和实验获得的apo结构,以支持更真实的推理场景。
特点
PLINDER数据集的显著特点在于其全面性和高质量的注释。数据集不仅包含丰富的蛋白质-配体相互作用信息,还提供了14种相互作用度量和超过200亿个相似性评分。此外,数据集支持基于学习任务的训练-验证-测试分割,并提供了强大的评估工具,以简化模型间性能比较的标准化过程。
使用方法
用户可以通过两种方式使用PLINDER数据集:直接从公共存储桶下载数据,或通过专门的Python包进行数据交互。数据集的下载可以通过gsutil工具完成,而Python包则可通过pip安装。数据集的子目录结构和详细使用方法可在官方文档中找到。
背景与挑战
背景概述
PLINDER,全称为蛋白质配体相互作用数据集与评估资源,是一个全面、注释丰富的高质量数据集,旨在用于训练和评估蛋白质-配体对接算法。该数据集由巴塞尔大学、SIB瑞士生物信息学研究所、VantAI、NVIDIA和MIT CSAIL等机构联合发起,旨在解决蛋白质-配体相互作用领域的核心研究问题。PLINDER包含了超过40万种蛋白质-配体相互作用系统,覆盖了超过11,000个SCOP域和50,000种独特的小分子。其自动化的数据整理流程确保了与PDB的同步更新,并提供了14种蛋白质-配体相互作用指标和超过200亿个相似性评分。此外,PLINDER还提供了无配体结构和预测的Alphafold2结构,以及基于学习任务的训练-验证-测试分割,极大地推动了该领域的标准化和性能比较。
当前挑战
PLINDER数据集在构建过程中面临了多项挑战。首先,确保数据的高质量和多样性是一个持续的挑战,尤其是在处理大量蛋白质-配体相互作用系统时。其次,自动化数据整理流程需要不断优化,以确保与PDB的同步更新和数据的一致性。此外,为不同学习任务提供合适的训练-验证-测试分割,以及确保测试集的高质量结构,以提供明确的性能基准,也是一项复杂的工作。最后,随着蛋白质-配体相互作用领域的快速发展,PLINDER需要不断更新和扩展,以适应新的研究需求和方法。
常用场景
经典使用场景
在蛋白质-配体相互作用(PLI)领域,PLINDER数据集的经典使用场景主要集中在训练和评估蛋白质-配体对接算法。该数据集提供了超过40万种蛋白质-配体系统,涵盖了11,000多个SCOP域和50,000多种独特的小分子。通过丰富的注释,包括蛋白质和配体的属性、质量、匹配的分子系列等,PLINDER为研究人员提供了一个全面且高质量的数据资源,用于开发和优化蛋白质-配体对接模型。
解决学术问题
PLINDER数据集解决了蛋白质-配体相互作用研究中的多个关键学术问题。首先,它通过提供大量高质量的蛋白质-配体系统,解决了数据稀缺和质量参差不齐的问题。其次,通过详细的注释和自动化的数据处理流程,PLINDER简化了模型的训练和评估过程,提高了研究的效率和准确性。此外,该数据集还通过提供无配体(apo)结构和Alphafold2预测结构,支持了更真实的推理场景,推动了蛋白质-配体相互作用领域的研究进展。
衍生相关工作
PLINDER数据集的发布和应用催生了多项相关研究工作。例如,在2024年的Machine Learning in Structural Biology (MLSB) Workshop上,PLINDER被用作蛋白质-配体相互作用数据集的标准,推动了相关算法的竞赛和研究。此外,PLINDER还启发了多个基于其数据和方法的研究项目,如DiffDock的重新训练和Moving Beyond Memorization项目,这些工作进一步扩展了PLINDER的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作