CHEN11, ASTEX, metapocket2 datasets, FPTRAIN, HOLO4K

github2024-04-11 更新2024-05-31 收录

下载链接：

https://github.com/rdk/p2rank-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

CHEN11：包含251个蛋白质和476个配体的数据集，用于LBS预测基准研究。ASTEX：Astex多样性数据集。metapocket2数据集：包括U/B48、DT198和B210，分别包含48个蛋白质的结合和未结合状态、198个药物-目标复合物和210个结合状态的蛋白质。FPTRAIN：用于Fpocket训练其口袋评分功能的数据集。HOLO4K：大型蛋白质-配体复合物数据集，包含直接从PDB下载的大型多链结构。

CHEN11: A dataset comprising 251 proteins and 476 ligands, utilized for benchmarking studies in ligand binding site (LBS) prediction. ASTEX: The Astex diversity dataset. Metapocket2 dataset: Includes U/B48, DT198, and B210, featuring 48 proteins in both bound and unbound states, 198 drug-target complexes, and 210 proteins in the bound state, respectively. FPTRAIN: A dataset employed for training the pocket scoring function of Fpocket. HOLO4K: A large-scale protein-ligand complex dataset, encompassing large multi-chain structures directly downloaded from the PDB.

创建时间：

2018-05-18

原始信息汇总

数据集概述

主要蛋白质数据集

CHEN11: 包含251个蛋白质，共476个配体，用于LBS预测基准研究。
ASTEX: Astex多样性集合。
metapocket2 数据集系列:
- U/B48: 包含48个蛋白质的结合和未结合状态。
- DT198: 包含198个药物-目标复合物。
- B210: 包含210个结合状态蛋白质的基准数据集。
FPTRAIN: 用于Fpocket口袋评分函数训练的数据集。
HOLO4K: 大型蛋白质-配体复合物数据集，包含多链结构，与CHEN11和JOINED不重叠。

数据集变体

"standard": 包含一列配体结合蛋白质。
*(mlig)* 数据集: 明确指定相关配体，配体代码来自MOAD 2013数据库。
包含预测的数据集: 包含其他配体结合位点预测方法的预测结果。
*-XXsubset-* 数据集: 包含原始数据集的子集，其中特定方法成功完成并产生预测。

数据集注意事项

*.ds 文件可能只包含PDB文件的子集。例如，holo4k/ 目录包含4543个pdb文件，但holo4k.ds 包含4009行，这是P2Rank/PrankWeb论文中使用的HOLO4K数据集的正确蛋白质数量。
1xgf.pdb 已从holo4k数据集中移除（所有UNK组，无配体）。

搜集汇总

数据集介绍

构建方式

在构建这些数据集时，研究者们精心挑选了多种蛋白质及其配体复合物，以确保数据的多样性和代表性。例如，CHEN11数据集包含了251种蛋白质和476种配体，这些数据源自于配体结合位点预测的基准研究。ASTEX数据集则来源于Astex Diverse集合，而HOLO4K数据集则是一个大型的蛋白质-配体复合物集合，直接从PDB下载，包含多链结构。此外，metapocket2数据集进一步细分为不同状态和类型的蛋白质集合，如U/B48、DT198和B210，分别代表绑定和未绑定状态的蛋白质以及药物-靶标复合物。这些数据集的构建不仅考虑了蛋白质的多样性，还确保了数据的准确性和可重复性，以便于在P2Rank工具中进行训练和评估。

特点

这些数据集的显著特点在于其多样性和细致的分类。CHEN11和HOLO4K数据集提供了丰富的蛋白质-配体复合物样本，适用于广泛的生物信息学研究。ASTEX数据集则以其多样性著称，为研究提供了不同的视角。metapocket2数据集通过区分绑定和未绑定状态，以及药物-靶标复合物，进一步深化了对蛋白质结合位点的理解。此外，FPTRAIN数据集专门用于训练口袋评分函数，确保了预测工具的准确性。这些数据集不仅在数量上丰富，而且在质量上也经过严格筛选，确保了数据的可靠性和实用性。

使用方法

这些数据集主要用于P2Rank配体结合位点预测工具的训练和评估。用户可以通过加载`*.ds`文件来访问数据集，这些文件包含了蛋白质和配体的详细信息。对于需要特定配体信息的研究，可以使用`*(mlig)*`数据集，这些数据集明确指定了相关的配体。此外，数据集还包含了其他预测方法的结果，如Fpocket、SiteHound、MetaPocket 2.0和DeepSite的预测，用户可以利用这些结果进行对比分析。为了确保数据的准确性和一致性，建议用户在使用时参考数据集的原始论文和相关文档，以获取最佳的实验结果。

背景与挑战

背景概述

在蛋白质-配体结合位点预测领域，P2Rank工具的开发与评估依赖于一系列精心构建的数据集。这些数据集包括CHEN11、ASTEX、metapocket2、FPTRAIN和HOLO4K等，涵盖了从单链到多链结构的多种蛋白质-配体复合物。CHEN11数据集由251个蛋白质和476个配体组成，首次在结合位点预测的基准研究中引入。HOLO4K数据集则是一个大规模的蛋白质-配体复合物集合，包含4543个PDB文件，专门用于处理多链结构。这些数据集的构建不仅为P2Rank工具的训练和评估提供了基础，还为相关领域的研究提供了宝贵的资源。

当前挑战

这些数据集在构建和应用过程中面临多项挑战。首先，数据集的多样性和复杂性要求精确的筛选和处理，以确保数据的代表性和质量。例如，HOLO4K数据集虽然包含4543个PDB文件，但实际用于研究的子集仅为4009个，这体现了数据筛选的严格性。其次，不同数据集之间的重叠性问题，如HOLO4K与CHEN11的互斥性，增加了数据集管理的复杂性。此外，数据集的更新和维护也是一个持续的挑战，特别是在涉及多个外部数据库和预测方法时，确保数据的实时性和一致性至关重要。

常用场景

经典使用场景

在蛋白质-配体结合位点预测领域，CHEN11、ASTEX、metapocket2 datasets、FPTRAIN和HOLO4K等数据集被广泛应用于训练和评估P2Rank工具。这些数据集包含了多种蛋白质结构及其配体信息，为研究者提供了丰富的实验数据。例如，CHEN11数据集包含了251种蛋白质和476个配体，适用于进行结合位点预测的基准测试。HOLO4K数据集则提供了4543个蛋白质-配体复合物，适用于大规模的蛋白质结构分析。这些数据集的经典使用场景包括但不限于结合位点预测模型的训练、模型性能的评估以及新算法的开发与验证。

解决学术问题

这些数据集在解决蛋白质-配体结合位点预测的学术研究问题中发挥了关键作用。通过提供高质量的蛋白质结构和配体数据，这些数据集帮助研究者开发和优化结合位点预测算法，从而提高预测的准确性和可靠性。例如，CHEN11数据集的引入为结合位点预测的基准测试提供了标准化的数据集，促进了该领域的标准化和可重复性研究。HOLO4K数据集则通过提供大规模的蛋白质-配体复合物数据，推动了大规模结构分析和预测模型的发展。这些数据集的使用不仅提升了算法的性能，还为蛋白质结构与功能关系的研究提供了重要支持。

衍生相关工作

基于这些数据集，研究者们开发了多种结合位点预测工具和算法，如Fpocket、SiteHound、MetaPocket 2.0和DeepSite等。这些工具在数据集的基础上进行了进一步的优化和改进，提升了结合位点预测的准确性和效率。例如，Fpocket工具利用FPTRAIN数据集进行训练，显著提高了其口袋评分功能。MetaPocket 2.0则通过整合多个数据集，提供了更为全面的结合位点预测服务。此外，P2Rank工具的开发也得益于这些数据集的支持，成为了结合位点预测领域的重要工具之一。这些衍生工作不仅丰富了结合位点预测的研究内容，还为相关领域的进一步发展提供了技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集