PoseX: A Molecular Docking Benchmark

github2025-04-24 更新2025-04-25 收录

下载链接：

https://github.com/CataAI/PoseX

下载链接

链接失效反馈

官方服务：

资源简介：

PoseX是一个全面的基准数据集，旨在评估预测蛋白质-配体结合姿势的分子对接算法。它包括自对接和交叉对接数据集的构建过程，以及不同对接工具的完整评估代码。

PoseX is a comprehensive benchmark dataset designed to evaluate molecular docking algorithms that predict protein-ligand binding poses. It includes the construction pipelines for both self-docking and cross-docking datasets, as well as complete evaluation codes for various docking tools.

创建时间：

2025-04-24

原始信息汇总

PoseX: 分子对接基准数据集概述

数据集简介

名称: PoseX
类型: 分子对接基准数据集
用途: 评估预测蛋白质-配体结合姿态的分子对接算法
特点: 包含自对接(Self-Docking)和交叉对接(Cross-Docking)数据集构建过程，以及完整的对接工具评估代码

数据集内容

基准数据: 包含蛋白质序列、配体SMILES和其他元数据的CSV文件
数据构建: 提供从零开始创建数据集的详细指南(参考dataset/README.md)

基准测试流程

生成基准CSV数据
- 支持数据集: Astex、PoseX自对接、PoseX交叉对接
转换为模型输入格式
- 支持模型: AlphaFold3等
运行对接模型
提取模型输出
能量最小化
对齐预测结构
计算基准结果
- 使用PoseBusters计算评估指标

安装与使用

安装方式: bash git clone https://github.com/CataAI/PoseX.git cd PoseX
环境管理: 推荐使用mamba管理Python环境
环境配置: bash mamba create -f environments/base.yaml mamba activate posex

许可证

代码: MIT许可证
数据集: CC-BY 4.0许可证

搜集汇总

数据集介绍

构建方式

在分子对接研究领域，PoseX数据集通过精心设计的自对接和交叉对接策略构建而成。该数据集从Astex等权威来源筛选高质量蛋白-配体复合物晶体结构，采用严格的预处理流程确保数据可靠性。构建过程中特别注重蛋白质活性位点的精确划分、配体构象的多样性覆盖以及结合模式的真实还原，最终形成包含丰富元数据的标准化基准测试集。

特点

PoseX数据集以其全面性和严谨性著称，包含经过验证的蛋白质序列、配体SMILES字符串及详细的结合位点信息。其独特价值在于同时提供自对接和交叉对接场景，支持对分子对接算法在相同蛋白不同配体条件下的稳健性评估。数据集配套完整的评估代码库，集成PoseBusters等专业工具，可实现对接构象的RMSD计算、能量最小化等多维度的自动化评测。

使用方法

使用PoseX需通过GitHub克隆代码库并配置指定conda环境。基准测试流程包含七个标准化步骤：首先生成包含蛋白-配体对的CSV文件，转换为各分子对接工具专用输入格式；随后执行对接计算并提取预测结构；通过能量最小化优化构象后，采用结构对齐算法评估预测结果与晶体结构的偏差。整个过程可通过封装好的Shell脚本实现自动化，支持Chai-1、Boltz-1等多种主流对接工具的横向比较。

背景与挑战

背景概述

PoseX是由CataAI团队开发的分子对接基准数据集，旨在评估蛋白质-配体结合构象预测算法的性能。分子对接作为计算机辅助药物设计的核心技术，其准确性直接影响虚拟筛选和药物发现的效率。该数据集通过构建自对接（Self-Docking）和交叉对接（Cross-Docking）子集，系统性地模拟了配体在蛋白质结合口袋中的空间取向与相互作用模式，为算法开发提供了标准化评估框架。数据集整合了能量最小化、结构对齐和PoseBusters指标计算等全流程工具链，显著提升了分子对接领域方法学研究的可重复性。

当前挑战

分子对接领域长期面临构象采样空间巨大与评分函数准确性不足的双重挑战。PoseX针对性地解决了传统基准集在构象多样性覆盖不足、晶体结构偏差校正缺失等问题，但其构建过程需克服多重技术难点：蛋白质-配体复合物结构的数据清洗需平衡分辨率阈值与样本规模；交叉对接场景要求严格处理蛋白侧链柔性；评价指标需同时考量空间重叠度（RMSD）与物理化学合理性。此外，不同对接工具输入输出格式的异构性也为标准化评估流程的实现带来显著工程挑战。

常用场景

经典使用场景

在药物发现领域，分子对接技术是预测蛋白质与配体结合模式的关键工具。PoseX数据集通过其精心构建的自对接和交叉对接数据集，为研究人员提供了一个标准化的评估平台。该数据集最经典的使用场景是作为基准测试集，用于比较不同分子对接算法在预测结合构象时的准确性和鲁棒性。研究人员可以利用PoseX提供的完整评估流程，系统地测试各类对接工具在真实生物分子相互作用场景中的表现。

实际应用

在实际药物研发中，PoseX数据集被广泛应用于虚拟筛选流程的优化。制药企业可通过该数据集验证其内部对接程序的可靠性，显著提高先导化合物发现的成功率。数据集支持的能量最小化后处理步骤，能够模拟真实药物设计中的结构优化过程。此外，其提供的标准化评估指标可直接应用于临床前研究的分子相互作用分析，加速了从计算机辅助设计到实验验证的转化效率。

衍生相关工作

基于PoseX数据集已衍生出多项重要研究工作。在算法开发方面，有团队利用该基准测试改进了深度学习模型的构象采样策略；在工具优化领域，多个开源分子对接软件将其作为标准验证集集成至发布版本中。特别值得注意的是，该数据集促进了PoseBusters等评估工具的发展，这些工具现已成为分子对接结果验证的事实标准。数据集构建方法论也被拓展应用于蛋白质-蛋白质相互作用预测等相邻研究领域。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集