katielink/moses

Name: katielink/moses
Creator: katielink
Published: 2024-01-23 18:49:23
License: 暂无描述

Hugging Face2024-01-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/katielink/moses

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于ZINC数据库的Clean Leads集合，经过分子量（250至350道尔顿）、可旋转键数量（不超过7）、XlogP值（小于或等于3.5）等多重过滤，并移除了包含带电原子或除C、N、S、O、F、Cl、Br、H以外的原子以及环长超过8个原子的分子。数据集还应用了药物化学过滤器（MCFs）和PAINS过滤器。最终数据集包含1,936,962个分子结构，并划分为训练集（约160万分子）、测试集（约17.6万分子）和支架测试集（约17.6万分子）。支架测试集包含训练集和测试集中未出现的独特Bemis-Murcko支架，用于评估模型生成新支架的能力。

提供机构：

katielink

原始信息汇总

分子集 (MOSES): 分子生成模型基准平台

数据集概述

MOSES 是一个用于药物发现机器学习研究的基准平台。它实现了几种流行的分子生成模型，并提供了一系列评估生成分子质量和多样性的指标。MOSES 旨在标准化分子生成研究，并促进新模型的共享和比较。

数据集详情

数据来源: 该数据集是从 ZINC 数据库中精炼出来的。
数据集大小: 包含 4,591,276 个分子。
筛选条件:
- 分子量范围: 250 至 350 道尔顿。
- 旋转键数量: 不超过 7 个。
- XlogP: 小于或等于 3.5。
- 分子中仅包含 C, N, S, O, F, Cl, Br, H 原子，且不含带电原子或超过 8 个原子的环。
- 通过药物化学过滤器 (MCFs) 和 PAINS 过滤器筛选。
数据集划分:
- 训练集: 约 1.6M 个分子。
- 测试集: 约 176k 个分子。
- 骨架测试集: 约 176k 个分子，包含训练集和测试集中未出现的独特 Bemis-Murcko 骨架。

引用信息

如果使用 MOSES 数据集进行研究，请引用以下文献:

@article{10.3389/fphar.2020.565644, title={{M}olecular {S}ets ({MOSES}): {A} {B}enchmarking {P}latform for {M}olecular {G}eneration {M}odels}, author={Polykovskiy, Daniil and Zhebrak, Alexander and Sanchez-Lengeling, Benjamin and Golovanov, Sergey and Tatanov, Oktai and Belyaev, Stanislav and Kurbanov, Rauf and Artamonov, Aleksey and Aladinskiy, Vladimir and Veselov, Mark and Kadurin, Artur and Johansson, Simon and Chen, Hongming and Nikolenko, Sergey and Aspuru-Guzik, Alan and Zhavoronkov, Alex}, journal={Frontiers in Pharmacology}, year={2020} }

搜集汇总

数据集介绍

构建方式

MOSES数据集的构建基于ZINC Clean Leads集合，通过筛选分子量在250至350道尔顿之间、可旋转键数量不超过7、XlogP不大于3.5的分子，并剔除了含有电荷原子、除C、N、S、O、F、Cl、Br、H之外的原子或超过8个原子的环状结构，以及经过药物化学过滤器（MCFs）和PAINS过滤器的分子。最终形成了包含1,936,962个分子结构的集合，并根据实验需要分为训练集、测试集和支架测试集。

特点

MOSES数据集的特点在于其旨在为分子生成模型的研究提供一个标准化的基准平台，包含多种流行的分子生成模型，并提供了评价生成分子质量和多样性的指标。该数据集覆盖了广泛的分子结构，特别适用于评估模型在生成未见过的支架方面的性能，有助于促进新模型的共享和比较。

使用方法

使用MOSES数据集，研究人员可以访问其提供的分子结构集合，并根据需要选择训练集、测试集或支架测试集进行模型训练和评估。数据集以CSV格式提供，可以直接用于机器学习模型的输入，同时，使用该数据集的研究应在论文中引用相关文献，以遵循数据集的使用规范。

背景与挑战

背景概述

分子生成模型在药物发现领域的应用日益广泛，此类模型通过对大量分子结构的学习，生成新型化合物。Molecular Sets (MOSES)便是在此背景下应运而生的一个基准测试平台，旨在支持机器学习在药物发现中的研究。MOSES由Polykovskiy等人于2020年创建，整合了多种流行的分子生成模型，并提供了一系列评价指标，用于衡量生成分子的质量和多样性。该平台的建立标准化了分子生成研究，便利了新型模型的共享与比较，对药物设计领域产生了重要影响。

当前挑战

MOSES在构建过程中面临的挑战主要涉及数据集的筛选与构建。首先，数据集需从ZINC数据库中精炼而来，确保分子的质量与多样性。其次，数据集必须经过严格的分子重量、可旋转键数量、XlogP值以及原子类型等筛选条件，同时排除带有电荷原子或长环结构的分子。此外，MOSES在促进新型分子生成模型的发展与评估方面，还需克服如何准确衡量模型性能的挑战，以及如何确保生成的新型分子在药物化学上的有效性和安全性。

常用场景

经典使用场景

在分子生成模型的领域中，MOSES数据集作为一项基准测试平台，被广泛用于评估和比较不同分子生成模型的性能。研究者通常利用该数据集对模型进行训练、验证和测试，以确保生成分子的质量和多样性符合实际应用需求。

解决学术问题

MOSES数据集解决了分子生成模型研究中缺乏统一标准的问题，提供了量化模型性能的指标集，从而促进了药物发现领域机器学习研究的标准化进程。它帮助研究者克服了模型间难以比较的障碍，为学术界的交流和合作奠定了坚实的基础。

衍生相关工作

基于MOSES数据集，学术界衍生出了一系列相关的工作，包括改进分子生成模型、提出新的评价指标以及探索分子生成模型在不同化学空间中的应用。这些工作不仅丰富了分子生成模型的理论体系，也为药物发现领域的实际应用提供了更多的方法和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集