five

CHEN11, ASTEX, metapocket2 datasets, FPTRAIN, HOLO4K

收藏
github2024-04-11 更新2024-05-31 收录
下载链接:
https://github.com/rdk/p2rank-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
CHEN11:包含251个蛋白质和476个配体的数据集,用于LBS预测基准研究。ASTEX:Astex多样性数据集。metapocket2数据集:包括U/B48、DT198和B210,分别包含48个蛋白质的结合和未结合状态、198个药物-目标复合物和210个结合状态的蛋白质。FPTRAIN:用于Fpocket训练其口袋评分功能的数据集。HOLO4K:大型蛋白质-配体复合物数据集,包含直接从PDB下载的大型多链结构。

CHEN11: A dataset comprising 251 proteins and 476 ligands, utilized for benchmarking studies in ligand binding site (LBS) prediction. ASTEX: The Astex diversity dataset. Metapocket2 dataset: Includes U/B48, DT198, and B210, featuring 48 proteins in both bound and unbound states, 198 drug-target complexes, and 210 proteins in the bound state, respectively. FPTRAIN: A dataset employed for training the pocket scoring function of Fpocket. HOLO4K: A large-scale protein-ligand complex dataset, encompassing large multi-chain structures directly downloaded from the PDB.
创建时间:
2018-05-18
原始信息汇总

数据集概述

主要蛋白质数据集

  1. CHEN11: 包含251个蛋白质,共476个配体,用于LBS预测基准研究。
  2. ASTEX: Astex多样性集合。
  3. metapocket2 数据集系列:
    • U/B48: 包含48个蛋白质的结合和未结合状态。
    • DT198: 包含198个药物-目标复合物。
    • B210: 包含210个结合状态蛋白质的基准数据集。
  4. FPTRAIN: 用于Fpocket口袋评分函数训练的数据集。
  5. HOLO4K: 大型蛋白质-配体复合物数据集,包含多链结构,与CHEN11和JOINED不重叠。

数据集变体

  • "standard": 包含一列配体结合蛋白质。
  • *(mlig)* 数据集: 明确指定相关配体,配体代码来自MOAD 2013数据库。
  • 包含预测的数据集: 包含其他配体结合位点预测方法的预测结果。
  • *-XXsubset-* 数据集: 包含原始数据集的子集,其中特定方法成功完成并产生预测。

数据集注意事项

  • *.ds 文件可能只包含PDB文件的子集。例如,holo4k/ 目录包含4543个pdb文件,但holo4k.ds 包含4009行,这是P2Rank/PrankWeb论文中使用的HOLO4K数据集的正确蛋白质数量。
  • 1xgf.pdb 已从holo4k数据集中移除(所有UNK组,无配体)。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建这些数据集时,研究者们精心挑选了多种蛋白质及其配体复合物,以确保数据的多样性和代表性。例如,CHEN11数据集包含了251种蛋白质和476种配体,这些数据源自于配体结合位点预测的基准研究。ASTEX数据集则来源于Astex Diverse集合,而HOLO4K数据集则是一个大型的蛋白质-配体复合物集合,直接从PDB下载,包含多链结构。此外,metapocket2数据集进一步细分为不同状态和类型的蛋白质集合,如U/B48、DT198和B210,分别代表绑定和未绑定状态的蛋白质以及药物-靶标复合物。这些数据集的构建不仅考虑了蛋白质的多样性,还确保了数据的准确性和可重复性,以便于在P2Rank工具中进行训练和评估。
特点
这些数据集的显著特点在于其多样性和细致的分类。CHEN11和HOLO4K数据集提供了丰富的蛋白质-配体复合物样本,适用于广泛的生物信息学研究。ASTEX数据集则以其多样性著称,为研究提供了不同的视角。metapocket2数据集通过区分绑定和未绑定状态,以及药物-靶标复合物,进一步深化了对蛋白质结合位点的理解。此外,FPTRAIN数据集专门用于训练口袋评分函数,确保了预测工具的准确性。这些数据集不仅在数量上丰富,而且在质量上也经过严格筛选,确保了数据的可靠性和实用性。
使用方法
这些数据集主要用于P2Rank配体结合位点预测工具的训练和评估。用户可以通过加载`*.ds`文件来访问数据集,这些文件包含了蛋白质和配体的详细信息。对于需要特定配体信息的研究,可以使用`*(mlig)*`数据集,这些数据集明确指定了相关的配体。此外,数据集还包含了其他预测方法的结果,如Fpocket、SiteHound、MetaPocket 2.0和DeepSite的预测,用户可以利用这些结果进行对比分析。为了确保数据的准确性和一致性,建议用户在使用时参考数据集的原始论文和相关文档,以获取最佳的实验结果。
背景与挑战
背景概述
在蛋白质-配体结合位点预测领域,P2Rank工具的开发与评估依赖于一系列精心构建的数据集。这些数据集包括CHEN11、ASTEX、metapocket2、FPTRAIN和HOLO4K等,涵盖了从单链到多链结构的多种蛋白质-配体复合物。CHEN11数据集由251个蛋白质和476个配体组成,首次在结合位点预测的基准研究中引入。HOLO4K数据集则是一个大规模的蛋白质-配体复合物集合,包含4543个PDB文件,专门用于处理多链结构。这些数据集的构建不仅为P2Rank工具的训练和评估提供了基础,还为相关领域的研究提供了宝贵的资源。
当前挑战
这些数据集在构建和应用过程中面临多项挑战。首先,数据集的多样性和复杂性要求精确的筛选和处理,以确保数据的代表性和质量。例如,HOLO4K数据集虽然包含4543个PDB文件,但实际用于研究的子集仅为4009个,这体现了数据筛选的严格性。其次,不同数据集之间的重叠性问题,如HOLO4K与CHEN11的互斥性,增加了数据集管理的复杂性。此外,数据集的更新和维护也是一个持续的挑战,特别是在涉及多个外部数据库和预测方法时,确保数据的实时性和一致性至关重要。
常用场景
经典使用场景
在蛋白质-配体结合位点预测领域,CHEN11、ASTEX、metapocket2 datasets、FPTRAIN和HOLO4K等数据集被广泛应用于训练和评估P2Rank工具。这些数据集包含了多种蛋白质结构及其配体信息,为研究者提供了丰富的实验数据。例如,CHEN11数据集包含了251种蛋白质和476个配体,适用于进行结合位点预测的基准测试。HOLO4K数据集则提供了4543个蛋白质-配体复合物,适用于大规模的蛋白质结构分析。这些数据集的经典使用场景包括但不限于结合位点预测模型的训练、模型性能的评估以及新算法的开发与验证。
解决学术问题
这些数据集在解决蛋白质-配体结合位点预测的学术研究问题中发挥了关键作用。通过提供高质量的蛋白质结构和配体数据,这些数据集帮助研究者开发和优化结合位点预测算法,从而提高预测的准确性和可靠性。例如,CHEN11数据集的引入为结合位点预测的基准测试提供了标准化的数据集,促进了该领域的标准化和可重复性研究。HOLO4K数据集则通过提供大规模的蛋白质-配体复合物数据,推动了大规模结构分析和预测模型的发展。这些数据集的使用不仅提升了算法的性能,还为蛋白质结构与功能关系的研究提供了重要支持。
衍生相关工作
基于这些数据集,研究者们开发了多种结合位点预测工具和算法,如Fpocket、SiteHound、MetaPocket 2.0和DeepSite等。这些工具在数据集的基础上进行了进一步的优化和改进,提升了结合位点预测的准确性和效率。例如,Fpocket工具利用FPTRAIN数据集进行训练,显著提高了其口袋评分功能。MetaPocket 2.0则通过整合多个数据集,提供了更为全面的结合位点预测服务。此外,P2Rank工具的开发也得益于这些数据集的支持,成为了结合位点预测领域的重要工具之一。这些衍生工作不仅丰富了结合位点预测的研究内容,还为相关领域的进一步发展提供了技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作