MolEditInstruct

Name: MolEditInstruct
Creator: 香港科技大学（广州）人工智能推力, 南京航空航天大学计算机科学与技术学院
Published: 2025-05-26 23:29:08
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

http://arxiv.org/abs/2505.20131v1

下载链接

链接失效反馈

官方服务：

资源简介：

MolEditInstruct 是目前最大的、属性丰富的分子编辑数据集，包含 300 万个多样化示例，涵盖了 10 个化学属性的单一和多项任务。该数据集旨在用于评估和训练分子编辑框架 MolEditRL，该框架结合了离散图扩散和强化学习，以在保持结构完整性的同时优化分子属性。数据集提供了更广泛的属性覆盖和更真实的单一和多项属性编辑场景，有助于提高分子编辑的准确性和结构保真度。

MolEditInstruct is currently the largest and most attribute-rich molecular editing dataset, containing 3 million diverse examples covering single-task and multi-task scenarios across 10 chemical properties. This dataset is designed for evaluating and training the molecular editing framework MolEditRL, which combines discrete graph diffusion and reinforcement learning to optimize molecular properties while maintaining structural integrity. The dataset offers broader coverage of chemical properties and more realistic single- and multi-property editing scenarios, which helps improve the accuracy and structural fidelity of molecular editing.

提供机构：

香港科技大学（广州）人工智能推力, 南京航空航天大学计算机科学与技术学院

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

MolEditInstruct数据集的构建采用了多阶段流程，首先从ZINC和ChEMBL等公开数据库中筛选符合类药性规则的分子，随后通过BRICS片段化方法提取结构相似的分子对(MMP)，保留展现显著性质变化的分子对，并生成描述目标性质修饰的自然语言指令。该数据集包含300万高质量分子对，涵盖10种化学属性（包括生物活性、物理化学特性和合成可及性），每个编辑任务都确保在保持结构相似性（Tanimoto系数0.65-0.982）的同时实现显著性质改变。

使用方法

该数据集支持两种主要使用范式：在监督学习模式下，研究人员可利用分子对和对应指令训练条件生成模型，通过离散扩散过程实现结构感知的分子编辑；在强化学习模式下，可将预训练模型与化学性质预测器（如RDKit、TDC）结合，通过KL正则化强化学习进一步优化特定性质的编辑效果。评估时建议采用化学有效性、编辑准确率（Accall/Accvalid）和Fréchet ChemNet距离（FCD）等多维度指标，其中相似性阈值τ可设置为0.15（宽松）和0.65（严格）两个级别进行综合评测。

背景与挑战

背景概述

MolEditInstruct是由香港科技大学（广州）和南京航空航天大学的研究团队于2025年提出的分子编辑专用数据集，作为MolEditRL框架的核心评估基准。该数据集聚焦药物发现领域的分子结构优化问题，包含300万涵盖10种化学属性的编辑样本，是目前规模最大、属性覆盖最全面的分子指令编辑数据集。其创新性在于将自然语言指令与分子图结构编辑相结合，通过离散扩散和强化学习技术，解决了传统基于字符串或连续表示方法难以保持分子结构完整性的核心问题，为AI驱动的分子设计提供了新的研究范式。

当前挑战

该数据集主要面临三大挑战：在领域问题层面，需解决分子图结构的离散性与文本指令的语义对齐难题，确保编辑后的分子既满足属性要求又保持结构相似性；在构建过程层面，需要处理多属性联合优化的组合复杂性，以及分子有效性验证的计算开销；在技术实现层面，需克服图结构的非微分性带来的强化学习策略优化困难，以及自然语言指令与分子图编辑动作的映射精度问题。

常用场景

经典使用场景

MolEditInstruct数据集在分子编辑领域具有广泛的应用场景，特别是在药物发现和分子优化研究中。该数据集通过结合自然语言指令和分子结构信息，支持对分子进行精确的编辑，以优化特定的化学性质。其经典使用场景包括单属性和多属性分子编辑任务，例如调整分子的药物相似性（QED）、合成可及性（SA）以及生物活性（如DRD2结合亲和力）。研究人员可以利用该数据集训练模型，使其能够根据自然语言指令生成符合特定化学性质要求的分子结构，同时保持原始分子的结构相似性。

解决学术问题

MolEditInstruct数据集解决了分子编辑领域中的多个关键学术问题。首先，它通过提供大规模、多样化的分子编辑示例，弥补了现有数据在属性覆盖和任务多样性上的不足。其次，该数据集支持结构保持的分子编辑，解决了传统方法在编辑过程中难以保持分子骨架完整性的问题。此外，数据集还通过结合自然语言指令，使得分子编辑过程更加直观和可控，从而提升了编辑的精确性和可解释性。这些特性使得MolEditInstruct成为推动分子编辑技术发展的重要资源。

实际应用

在实际应用中，MolEditInstruct数据集为药物发现和分子设计提供了强大的工具。例如，在药物研发中，研究人员可以通过该数据集训练模型，快速生成具有优化性质的候选分子，从而加速先导化合物的发现和优化过程。此外，该数据集还可用于教育领域，帮助学生和研究人员理解分子编辑的基本原理和技术。其实际应用不仅限于学术研究，还可扩展到工业界的药物设计和材料科学领域，为复杂分子系统的优化提供支持。

数据集最近研究