Pharmit Dataset
收藏arXiv2025-12-05 更新2025-12-06 收录
下载链接:
https://github.com/gnina/OMTRA
下载链接
链接失效反馈官方服务:
资源简介:
Pharmit数据集是由卡内基梅隆大学和匹兹堡大学联合构建的大规模3D分子构象库,包含5亿个配体分子及其药效团特征。该数据集源自公共化学库,采用深度学习友好格式存储,显著扩展了训练数据的化学多样性。数据经过严格筛选和标准化处理,可作为蛋白质-配体数据的补充资源。该数据集主要应用于结构基药物设计领域,支持多任务学习框架下的分子对接、从头分子生成等任务,旨在提升生成模型的化学空间探索能力。
The Pharmit dataset is a large-scale 3D molecular conformation library jointly constructed by Carnegie Mellon University and the University of Pittsburgh, containing 500 million ligand molecules and their pharmacophore features. Derived from public chemical repositories, this dataset is stored in a deep learning-friendly format and significantly expands the chemical diversity of training datasets. Rigorously screened and standardized, the data serves as a supplementary resource for protein-ligand datasets. Primarily applied in the field of structure-based drug design, this dataset supports tasks including molecular docking and de novo molecular generation under the multi-task learning framework, aiming to enhance the chemical space exploration capability of generative models.
提供机构:
匹兹堡大学医学院计算与系统生物学系, 卡内基梅隆大学计算机科学学院Ray and Stephanie Lane计算生物学系
创建时间:
2025-12-05
原始信息汇总
OMTRA数据集概述
数据集基本信息
- 数据集名称:OMTRA (A Multi-Task Generative model for Structure-Based Drug Design)
- 核心功能:基于流匹配的生成模型,用于小分子-蛋白质系统,支持多种基于结构的药物设计任务。
- 相关论文:预印本发布于 https://arxiv.org/abs/2512.05080,并将在MLSB 2025会议上展示。
支持的任务类型
无条件生成
- 无条件3D从头分子生成
- 无条件配体构象生成
蛋白质条件生成
- 蛋白质口袋条件从头分子设计
- 蛋白质-配体对接(刚性对接,柔性对接即将推出)
- 蛋白质和药效团条件分子设计
- 蛋白质和药效团条件对接
药效团条件生成
- 药效团条件分子生成
- 药效团条件构象生成
模型权重与获取
- 状态:模型检查点尚未上传,相关下载指令为占位符。
- 预期获取方式:通过
wget或curl命令从远程存储位置下载至OMTRA/omtra/trained_models/目录。 - 使用:CLI根据任务自动选择检查点,也可通过
--checkpoint标志显式指定。
数据生成与采样
采样方式
- 命令行界面(CLI):用于脚本和批处理。
- Web应用程序:用于交互式探索。
核心采样参数
--task:指定采样任务(必需)。--n_samples:生成样本数量(默认100)。--n_timesteps:采样过程中的积分步数(默认250)。--output_dir:输出文件保存目录。--metrics:计算生成样本的评估指标。
输入文件格式
- 蛋白质结构文件:PDB或CIF格式。
- 配体结构文件:SDF格式。
- 药效团约束文件:XYZ格式。
可用任务列表
无条件生成
denovo_ligand_condensed:从头生成类药分子。
蛋白质条件生成
fixed_protein_ligand_denovo_condensed:为固定蛋白质结合位点设计配体。protein_ligand_denovo_condensed:与柔性蛋白质联合生成配体。
对接任务
rigid_docking_condensed:将已知配体对接到固定蛋白质结构中。flexible_docking_condensed:蛋白质柔性对接。expapo_conditioned_ligand_docking_condensed:从实验性apo结构开始对接。predapo_conditioned_ligand_docking_condensed:从预测apo结构开始对接。
构象生成
ligand_conformer_condensed:为给定配体生成3D构象。
药效团条件任务
denovo_ligand_pharmacophore_condensed:联合生成配体和药效团。denovo_ligand_from_pharmacophore_condensed:设计匹配给定药效团的配体。ligand_conformer_from_pharmacophore_condensed:生成满足药效团的构象。fixed_protein_pharmacophore_ligand_denovo_condensed:为具有药效团约束的蛋白质设计配体。rigid_docking_pharmacophore_condensed:具有药效团约束的配体对接。
系统要求
- 操作系统:Linux系统。
- 硬件:支持CUDA的NVIDIA GPU(推荐CUDA 12.1)。
- 软件:Python 3.11。
附加文档
- 训练文档:位于 https://github.com/gnina/OMTRA/blob/main/docs/training.md。
- Pharmit数据集:位于 https://github.com/gnina/OMTRA/blob/main/docs/pharmit_dataset.md。
- 结果复现:位于 https://github.com/gnina/OMTRA/blob/main/docs/reproducing_results.md。
搜集汇总
数据集介绍

构建方式
在结构药物设计领域,大规模三维分子构象数据的稀缺限制了生成模型的训练广度。Pharmit数据集通过整合多个公开化学库,包括ChEMBL34、ChemDiv、Enamine、PubChem和ZINC等,构建了一个包含超过5亿个独特分子构象的集合。每个分子经过严格的过滤和标准化处理,仅保留通过rdkit sanitization和kekulization验证的结构,并采用ETKDG结合UFF能量最小化方法生成低能量三维构象。数据以深度学习友好的Zarr格式存储,确保了高效的程序化访问,为多任务学习提供了丰富的化学多样性基础。
特点
Pharmit数据集以其前所未有的规模成为当前最大的开源三维分子集合之一,显著拓展了可用于训练的化学空间覆盖。该数据集不仅包含分子的三维坐标,还整合了原子类型、形式电荷、手性、杂化状态等多维度特征,通过压缩原子类型表示法将这些离散特征凝练为单一模态,增强了模型对几何与拓扑关联的学习能力。其设计兼顾了结构完整性与计算效率,支持灵活的药效团条件生成任务,为蛋白质无关的预训练提供了关键资源。
使用方法
该数据集主要用于支持结构药物设计中生成模型的多任务预训练与条件生成。研究人员可将其作为蛋白质-配体数据的补充,用于训练如OMTRA之类的多模态流匹配模型,执行去新配体设计、构象生成和分子对接等任务。通过提供的可扩展存储格式与API,用户能够高效地集成数据至机器学习流程,进行大规模化学空间探索。在实际应用中,数据集可引导模型在药效团约束下生成具有特定相互作用特征的配体,从而加速针对特定靶点的药物发现进程。
背景与挑战
背景概述
在结构药物设计领域,大规模三维分子构象数据的匮乏制约了生成模型的训练与应用。Pharmit数据集应运而生,由匹兹堡大学与卡内基梅隆大学的研究团队于2025年构建,旨在为多任务生成模型OMTRA提供预训练支持。该数据集整合了来自ChEMBL、PubChem、ZINC等公开化学库的5亿个三维配体构象,并通过药效团标注增强了结构信息的可解释性。其核心研究问题聚焦于如何通过扩充化学多样性数据,提升模型在从头药物设计、分子对接等任务中的泛化能力与准确性。Pharmit的发布不仅填补了蛋白质-配体数据之外的空白,更为计算药物发现提供了迄今规模最大的开源三维分子资源,推动了多模态生成方法在生物分子建模中的发展。
当前挑战
Pharmit数据集致力于解决结构药物设计中生成模型面临的化学空间覆盖不足与三维结构数据稀缺的挑战。在领域层面,该数据集需支持模型学习复杂的分子几何与药效团特征,以生成具有合理三维构象与特定结合特性的配体,其难点在于平衡分子的物理合理性、化学多样性及与靶点口袋的互补性。在构建过程中,研究团队面临多重挑战:首先,从异构化学库中整合并标准化海量分子数据,需克服格式不一致与质量参差的问题;其次,生成高质量三维构象依赖计算密集型方法,如ETKDG算法与UFF优化,对计算资源与效率提出极高要求;此外,药效团标注需基于SMARTS模式匹配,确保功能基团识别的准确性与一致性。这些挑战使得数据集的构建成为一项涉及化学信息学与机器学习交叉的复杂系统工程。
常用场景
经典使用场景
在基于结构的药物设计领域,Pharmit数据集作为大规模三维分子构象库,其经典应用场景在于为生成模型提供丰富的预训练数据。该数据集汇集了来自公共化学库的5亿个配体构象,覆盖广泛的化学多样性,使得模型能够在无蛋白质环境下学习分子的三维几何与药效团分布。通过这种预训练,生成模型如OMTRA能够更有效地捕捉配体的结构特征,从而提升在口袋条件化从头设计任务中的性能,生成具有合理三维构象的候选分子。
解决学术问题
Pharmit数据集主要解决了药物发现中化学空间探索不足的学术挑战。传统方法依赖于有限的蛋白质-配体复合物数据,难以全面覆盖多样的分子构象和药效团模式。该数据集通过提供海量配体构象,支持生成模型进行多任务学习,从而改善模型在口袋条件化从头设计和分子对接任务中的泛化能力。其意义在于突破了数据稀缺性对计算药物设计的限制,为研究分子生成与结构预测的算法提供了标准化的大规模基准,推动了基于深度学习的SBDD方法的发展。
衍生相关工作
围绕Pharmit数据集,衍生了一系列专注于分子生成与对接的经典研究工作。例如,基于该数据集预训练的OMTRA模型实现了多任务生成框架,统一处理从头设计、构象生成和对接等任务。此外,类似FlowMol3等模型利用该数据集提升无条件分子生成的质量。这些工作共同探索了大规模预训练在多模态分子建模中的潜力,为后续研究如药效团引导的生成、柔性蛋白质对接等方向奠定了基础,推动了计算药物设计领域的算法创新与范式演进。
以上内容由遇见数据集搜集并总结生成



