Molecular Sets (MOSES)
收藏arXiv2020-10-28 更新2024-06-21 收录
下载链接:
https://github.com/molecularsets/moses
下载链接
链接失效反馈官方服务:
资源简介:
Molecular Sets (MOSES) 是一个用于分子生成模型标准化的基准平台,由英矽智能香港有限公司创建。该数据集包含1,936,963个分子,分子量范围在250至350道尔顿之间,用于训练和测试分子生成模型。MOSES数据集通过移除带有电荷的原子、特定类型的原子以及大于8个原子的环来筛选分子。数据集创建过程中,使用了自定义的药物化学过滤器(MCFs)和PAINS过滤器来进一步筛选分子。MOSES数据集的应用领域包括虚拟筛选和半监督预测模型的训练,旨在解决新药设计和材料发现中的挑战。
Molecular Sets (MOSES) is a standardized benchmark platform for molecular generative models, created by Insilico Hong Kong Limited. This dataset comprises 1,936,963 molecules with molecular weights ranging from 250 to 350 Daltons, and is used for training and testing molecular generative models. The MOSES dataset screens molecules by removing charged atoms, specific types of atoms, and rings with more than 8 atoms. During the dataset creation process, custom medicinal chemistry filters (MCFs) and PAINS filters were utilized to further screen the molecules. Application areas of the MOSES dataset include virtual screening and training of semi-supervised predictive models, aiming to address challenges in novel drug design and material discovery.
提供机构:
英矽智能香港有限公司
创建时间:
2018-11-29
搜集汇总
数据集介绍

构建方式
在药物发现领域,化学空间的探索常受限于庞大的分子多样性,MOSES数据集的构建旨在为分子生成模型提供标准化基准。该数据集基于ZINC Clean Leads库,通过严格的过滤流程筛选出约190万个小分子:首先限定分子量在250至350道尔顿之间,并排除含有带电原子、非标准元素或大环结构的分子;随后应用定制药物化学过滤器与PAINS过滤器,去除具有反应性或不稳定片段的化合物,最终形成适用于分布学习任务的训练集与测试集。数据划分包含常规测试集和支架测试集,后者专门用于评估模型生成新颖分子骨架的能力。
特点
MOSES数据集的核心特点在于其高度的标准化与多样性。数据集涵盖近200万个经过严格筛选的药物类似小分子,内部化学多样性指数高达0.857,包含超过44万个独特的Bemis-Murcko支架和5.8万个BRICS片段,确保了化学空间的广泛覆盖。其设计强调分布学习任务,通过提供统一的训练集、测试集及支架测试集,支持对生成模型在分子有效性、新颖性、片段相似性等多维度的系统评估。此外,数据集集成了多种分子表示方法,如SMILES字符串与分子图,为不同架构的生成模型提供了灵活的基础。
使用方法
在计算化学与人工智能交叉领域,MOSES平台为分子生成模型的开发与比较提供了完整的工作流程。用户可通过开源代码库获取数据集、基线模型及评估指标,首先在训练集上训练自定义生成模型,随后生成约3万个分子样本,并利用平台提供的工具计算各项指标,包括分子有效性、独特性、片段相似性及Fréchet ChemNet距离等。平台支持重复实验以评估模型稳定性,并鼓励贡献新模型以丰富基准体系。通过标准化评估,研究者能够客观比较不同生成策略在化学空间探索与药物设计中的性能。
背景与挑战
背景概述
分子生成模型在药物发现领域展现出巨大潜力,但缺乏统一的评估标准阻碍了其可比性与进一步发展。在此背景下,由Insilico Medicine、哈佛大学、阿斯利康等机构的研究团队于2019年共同推出了分子集(MOSES)基准平台。该平台旨在为分子生成模型提供标准化的训练数据集、评估指标与基线模型,核心研究聚焦于分布学习问题,即如何使生成模型准确拟合真实分子数据的化学空间分布。MOSES基于ZINC Clean Leads库构建,经过严格过滤后包含约190万个小分子,迅速成为生成式化学领域的关键基准工具,推动了分子生成研究的规范化与跨模型比较。
当前挑战
MOSES致力于解决分子生成领域的核心挑战:如何客观评估生成模型在化学空间探索中的有效性。具体挑战包括:模型需在保持生成分子化学合理性的同时,避免模式坍塌与过度拟合;生成结构需兼具新颖性与类药性,平衡探索与利用的关系;评估指标需全面覆盖有效性、独特性、片段分布相似性等多维度属性。在构建过程中,研究团队面临数据清洗的复杂性,需通过定制化药化过滤器与PAINS过滤器去除不稳定或干扰性结构;同时需设计能够区分训练集与测试集的支架分割策略,以检验模型生成新骨架的能力。这些挑战共同构成了分子生成模型开发与评估的关键障碍。
常用场景
经典使用场景
在计算药物发现领域,分子生成模型的评估长期缺乏统一标准,MOSES基准平台通过提供标准化数据集和评估指标,成为该领域最经典的测试框架。该平台基于ZINC Clean Leads库构建,包含近200万个经过严格过滤的类先导化合物分子,涵盖分子量250-350道尔顿范围,并剔除了含有结构警报和PAINS片段的分子。研究人员利用该数据集训练生成模型后,可通过平台提供的30余项指标系统评估生成分子的有效性、独特性、新颖性、片段相似性和支架多样性等关键特性,为不同模型的横向比较建立了科学依据。
实际应用
在药物研发实践中,MOSES平台支撑着虚拟化合物库的智能化构建。制药企业利用该平台训练的生成模型,能够快速产生符合类药性规则的分子结构,大幅缩短先导化合物发现周期。平台内置的分子过滤器可自动排除具有反应活性或毒理学风险的基团,确保生成分子的合成可行性和安全性。实际应用中,研究人员通过调整生成模型的隐空间分布,可定向探索特定靶点的化学空间,结合活性预测模型实现虚拟筛选与分子设计的闭环优化,显著降低实验筛选成本。
衍生相关工作
MOSES基准催生了系列重要衍生研究,其中最具代表性的是基于该平台的模型架构创新。研究人员受其评估体系启发,开发了改进的变分自编码器架构,通过引入注意力机制提升分子序列生成质量。平台提供的标准化测试环境还促进了生成对抗网络在分子图生成领域的应用拓展,衍生出结合强化学习的混合生成框架。此外,多篇后续研究利用MOSES的支架测试集,专门探索分子骨架跃迁生成算法,推动了基于片段的药物设计方法论发展,形成从基准评估到算法创新的完整研究生态。
以上内容由遇见数据集搜集并总结生成



