PoseX
收藏Hugging Face2025-04-25 更新2025-04-26 收录
下载链接:
https://huggingface.co/datasets/CataAI/PoseX
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含三个子数据集:Astex Diverse set、PoseX Self-Docking set和PoseX Cross-Docking set。Astex Diverse set由Hartshorn等人整理,包含85个案例;PoseX Self-Docking set和PoseX Cross-Docking set分别由作者使用PDB数据库整理,包含718个案例和1312个配对。每个案例包含蛋白质-配体复合物的相关文件,如蛋白质结构文件、配体文件、配体起始构象文件、JSON输入文件等。对于Cross-Docking set,还包括参考蛋白质结构文件和组信息文件。
创建时间:
2025-04-24
搜集汇总
数据集介绍

构建方式
在分子对接研究领域,PoseX数据集的构建体现了多源数据整合与标准化处理的科学思路。该数据集由Astex Diverse set(85个案例)、PoseX Self-Docking set(718个案例)和Cross-Docking set(1312对案例)三个子集构成,其中Astex子集源自文献报道的经典测试集并经过重处理,其余两个子集则基于PDB数据库进行系统性构建。每个蛋白-配体复合物均以PDB_CCD命名的独立文件夹组织,包含去溶剂化的蛋白质PDB文件、多构象配体SDF文件以及AlphaFold 3输入所需的JSON文件,Cross-Docking子集还特别包含参考蛋白结构和分组信息文件。
特点
该数据集最显著的特征在于其层次化设计理念。通过区分Self-Docking和Cross-Docking场景,为评估分子对接算法在不同蛋白质构象状态下的性能提供了基准。每个案例配套的qtm.csv文件量化了口袋结构相似度,这种设计使得研究者能够精确分析训练数据与测试数据的结构关联性。数据文件采用标准化命名体系,既包含原始实验结构(如_ligands.sdf),也提供预处理后的单构象配体文件(_ligand.sdf)和生成构象(_ligand_start_conf.sdf),这种多维度数据呈现方式极大提升了数据集的科研适用性。
使用方法
使用该数据集时,研究者可通过解析PDB_CCD.json文件直接对接AlphaFold 3工作流程,实现蛋白质-配体复合物预测的端到端验证。对于对接算法评估,建议分别测试Self-Docking和Cross-Docking子集以检验算法鲁棒性。qtm.csv文件中的相似度指标可用于建立模型性能与结构保守性的相关性分析。Cross-Docking子集的参考蛋白结构和分组信息支持蛋白质构象变化对对接影响的研究。所有分子结构文件均采用标准PDB/SDF格式,可直接被主流分子模拟软件如AutoDock、Schrödinger等读取。
背景与挑战
背景概述
PoseX数据集是近年来在分子对接领域备受关注的重要资源,由研究团队基于蛋白质数据库(PDB)精心构建。该数据集整合了Astex Diverse set、PoseX Self-Docking set和PoseX Cross-Docking set三个子集,共计包含超过2000个蛋白质-配体复合物案例。其核心研究问题聚焦于提升分子对接算法的准确性和泛化能力,特别是在自对接和交叉对接场景下的性能评估。数据集的设计充分考虑了AlphaFold 3等先进结构预测工具的输入需求,为计算药物发现和结构生物学研究提供了标准化评估基准。
当前挑战
PoseX数据集面临的挑战主要体现在两个方面:在领域问题层面,分子对接需要解决蛋白质-配体结合构象预测的复杂性问题,特别是处理蛋白质构象变化和配体柔性带来的采样空间爆炸难题;在构建过程层面,数据集需要确保蛋白质结构的完整性、配体构象的多样性以及交叉对接案例的生物学相关性,这对数据清洗、格式统一和质量控制提出了极高要求。此外,如何量化口袋结构相似性以评估模型泛化能力,也是数据集构建中的关键挑战。
常用场景
经典使用场景
在计算药物发现领域,PoseX数据集为分子对接算法评估提供了标准化测试平台。其精心设计的三个子集分别针对不同研究需求:Astex Diverse set验证算法在多样化蛋白-配体复合物上的普适性,Self-Docking set测试同源对接精度,Cross-Docking set则挑战跨结构构象的预测能力。研究人员通过系统分析对接姿态、结合能计算等关键指标,可全面评估算法性能。
解决学术问题
该数据集有效解决了药物设计中的关键科学问题。通过提供经过严格筛选的蛋白-配体复合物结构,研究人员能够深入探究分子识别机制,优化自由能计算方法。特别在跨构象对接场景中,数据集揭示了蛋白柔性对结合模式的影响,为开发考虑构象变化的对接算法提供了基准。其包含的AlphaFold 3输入文件更推动了AI预测与实验结构的融合研究。
衍生相关工作
基于PoseX数据集已衍生出多项创新研究。在算法开发方面,涌现出如FlexDock等考虑蛋白柔性的对接工具,以及GraphDock等基于图神经网络的预测方法。在交叉学科领域,该数据集支持了蛋白质-配体结合动力学模拟的验证工作,并促进了分子生成模型与对接算法的协同优化研究。部分成果已发表于《Journal of Chemical Information and Modeling》等权威期刊。
以上内容由遇见数据集搜集并总结生成



