MCMoD

Name: MCMoD
Creator: 北京大学深圳研究生院电子与计算机工程学院
Published: 2024-12-30 19:54:22
License: 暂无描述

arXiv2024-12-30 更新2025-01-02 收录

下载链接：

https://huggingface.co/datasets/GreatCaptainNemo/HME_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

MCMoD数据集是由北京大学深圳研究生院开发的一个大规模多条件分子设计数据集，旨在解决化学语言模型在分子设计与生成中的语义鸿沟问题。该数据集包含超过100万条分子数据，涵盖了合成分子、天然产物和蛋白质配体等多种分子类型，并提供了文本描述、分子片段和化学性质等多重控制条件。数据来源包括PubChem、ZINC、ChEBI等知名数据库，并通过RDKit等工具进行标准化处理。MCMoD数据集不仅支持多目标联合控制，还创新性地利用分子片段序列作为文本与分子模态之间的桥梁，推动了化学语言模型在药物开发和化学工程等领域的实际应用。

The MCMoD dataset is a large-scale multi-condition molecular design dataset developed by Peking University Shenzhen Graduate School, aiming to address the semantic gap issue in molecular design and generation for chemical language models. This dataset contains over 1 million molecular entries, covering diverse molecular types such as synthetic molecules, natural products, and protein ligands, and provides multiple control conditions including textual descriptions, molecular fragments, and chemical properties. The data is sourced from well-known databases including PubChem, ZINC, ChEBI, and others, and has been standardized through tools such as RDKit. The MCMoD dataset not only supports multi-objective joint control, but also innovatively employs molecular fragment sequences as a bridge between text and molecular modalities, advancing the practical applications of chemical language models in fields such as drug development and chemical engineering.

提供机构：

北京大学深圳研究生院电子与计算机工程学院

创建时间：

2024-12-30

搜集汇总

数据集介绍

构建方式

MCMoD数据集的构建采用了多源数据整合的策略，涵盖了合成分子、天然产物和蛋白质配体等多种分子类型。数据来源包括PubChem、ZINC、ChEBI、COCONUT和DTP等公开数据库。通过RDKit工具对分子进行规范化处理，并计算了LogP、QED、SAS等常用化学性质。此外，数据集还引入了分子片段作为控制条件，使用片段生成算法从分子图中提取片段序列，并通过自然语言描述与分子结构进行关联。MCMoD数据集的设计旨在支持多条件分子生成任务，如基于描述的分子生成、多目标分子逆向设计以及亲和力配体生成等。

使用方法

MCMoD数据集的使用方法主要围绕多条件分子生成任务展开。用户可以通过自然语言描述、化学性质值或分子片段作为控制条件，生成符合特定要求的分子。在基于描述的分子生成任务中，模型根据文本描述生成分子片段序列，并进一步生成完整的分子。在多目标分子逆向设计任务中，用户可以同时指定多个化学性质值和分子片段，模型将生成满足所有条件的分子。此外，数据集还支持亲和力配体生成任务，用户可以通过指定结合亲和力值，生成具有高亲和力的配体分子。MCMoD数据集的使用不仅能够系统评估化学语言模型的性能，还为药物开发和化学工程等领域的实际应用提供了多样化的控制条件。

背景与挑战

背景概述

MCMoD数据集由北京大学深圳研究生院电子与计算机工程学院的研究团队于2024年构建，旨在解决化学语言模型（CLMs）在化学-语言共享空间探索中的语义鸿沟问题。该数据集包含超过一百万个分子，涵盖了多种条件，如分子属性、片段和文本描述。MCMoD的构建基于异构分子编码（HME）框架，该框架通过Q-learning压缩分子特征，结合片段序列、拓扑结构和构象信息，实现了化学与语言空间的双向映射。MCMoD的推出为分子设计与生成提供了丰富的多条件控制，推动了药物发现和化学工程领域的应用。

当前挑战

MCMoD数据集面临的挑战主要包括两个方面。首先，化学语言模型在处理分子与自然语言之间的语义差异时存在困难，分子的一维序列表示（如SMILES）无法充分捕捉分子的多维复杂性，导致分子设计的精度受限。其次，构建过程中，如何有效整合不同分子表示（如1D、2D和3D）的信息，并消除这些表示之间的偏差，是一个技术难题。此外，高质量文本-分子数据集的稀缺性进一步加剧了模型训练的难度，影响了化学-语言共享空间的探索效果。

常用场景

经典使用场景

MCMoD数据集在化学语言模型（CLMs）的研究中扮演了重要角色，特别是在化学-语言共享空间的探索中。该数据集通过提供超过一百万种分子及其对应的文本描述、分子片段和化学性质控制信号，支持了多条件分子设计任务。经典的使用场景包括在化学空间探索中引入语言指导，以及在语言空间探索中引入分子指导，从而实现了分子设计与文本生成的双向映射。

解决学术问题

MCMoD数据集解决了化学语言模型在化学-语言共享空间探索中的语义鸿沟问题。通过引入异构分子编码（HME）框架，该数据集有效地压缩了分子特征，包括片段序列、拓扑结构和构象信息，并通过Q-learning进行特征对齐。这一方法显著提升了分子设计在多约束条件下的性能，甚至在零样本学习场景中也表现出色，生成了高质量的分子描述文本。

实际应用

MCMoD数据集在实际应用中具有广泛的应用前景，特别是在药物发现和化学工程领域。通过提供多样化的控制条件，如文本描述、性质值和分子片段，该数据集支持了多目标联合控制的分子设计任务。例如，在药物开发中，研究人员可以利用该数据集设计具有特定药效团和性质的分子，从而加速新药的研发过程。

数据集最近研究