mega-moledit-large

Hugging Face2025-11-26 更新2025-11-27 收录

下载链接：

https://huggingface.co/datasets/nfsrulesFR/mega-moledit-large

下载链接

链接失效反馈

官方服务：

资源简介：

MEGA分子编辑数据集是一个大规模的注释分子编辑数据集，包含57M个示例，用于训练模型根据自然语言指令优化分子结构。数据集提供了包括任务标识符、自然语言指令、输入和输出分子、编辑操作类型等详细信息的示例，并支持多种分子属性编辑任务。

创建时间：

2025-11-23

原始信息汇总

MEGA Molecular Editing Dataset (Large - 62M) 数据集概述

基本信息

许可证: GPL-3.0
任务类别: 文本生成
语言: 英语
标签: 化学、分子编辑、药物发现、SMILES、分子生成
数据集规模: 10M<n<100M
总下载大小: 6,506,509,462 字节
总数据集大小: 21,577,064,166 字节

数据集结构

特征字段

task_id: 任务标识符（int64）
prompt: 自然语言指令（string）
input_smiles: 输入分子（string）
output_smiles: 目标分子（string）
action_type: 编辑操作类型（string）
edit: 具体应用的编辑（string）
target_delta: 目标属性变化（float64）
SA_delta: 合成可及性变化（float64）
MW_delta: 分子量变化（float64）
QED_delta: 药物相似性变化（float64）
murcko_scaffold_retained: 骨架保留标志（bool）

数据划分

训练集: 28,219,060 个样本，10,576,225,637 字节
验证集: 3,135,462 个样本，1,175,208,625 字节
训练负样本: 23,684,301 个样本，8,843,010,060 字节
验证负样本: 2,631,604 个样本，982,619,844 字节

支持的任务

任务ID	描述
101	增加水溶性
102	减少水溶性
103	增加药物相似性
104	减少药物相似性
105	增加渗透性
106	减少渗透性
107	增加氢键受体
108	增加氢键供体
201	增加溶解度 + HBA
202	减少溶解度 + 增加HBA
203	增加溶解度 + HBD
204	减少溶解度 + 增加HBD
205	增加溶解度 + 渗透性
206	增加溶解度 + 减少渗透性

引用信息

bibtex @article{ fernandez2025mega, title={MEGA: A Large-Scale Molecular Editing Dataset for Guided-Action Optimization}, author={Nelson Fernandez and Maxime Illouz and Luis Pinto and Entao Yang and Habiboulaye Amadou Boubacar}, journal={Under review at International Conference on Learning Representations}, year={2025}, url={https://openreview.net/pdf?id=MaS7e2EVFm} }

搜集汇总

数据集介绍

构建方式

在计算化学与药物发现领域，MEGA数据集的构建采用了系统化的分子编辑策略，通过自然语言指令引导分子结构的定向优化。该数据集基于大规模化学结构库，运用自动化流程生成输入与输出分子对，每个样本均标注了具体的编辑操作类型及属性变化量。构建过程涵盖了31M正向样本与26M负向样本，确保了数据在训练与验证阶段的全面性与平衡性。

特点

该数据集以其规模庞大与标注精细而著称，包含57M个样本，覆盖了溶解度、药物相似性及渗透性等多种分子属性优化任务。每个样本不仅提供了SMILES格式的分子结构对，还详细记录了属性变化量及骨架保留标志，支持多任务学习与分子生成模型的训练。其独特的负样本设计进一步增强了模型在复杂化学空间中的泛化能力。

使用方法

在分子生成与优化研究中，该数据集可直接用于训练基于自然语言指令的编辑模型，用户可通过加载预定义的分割集进行监督学习或强化学习。数据集支持多种下游任务，如属性预测与结构修饰，结合提供的预训练模型可实现高效的分子设计流程。使用过程中需注意遵循数据集的许可协议，并参考官方代码库以确保实验的可复现性。

背景与挑战

背景概述

分子编辑作为药物发现领域的核心环节，旨在通过精准修饰分子结构优化其理化性质。MEGA分子编辑数据集由Fernandez等研究者于2025年构建，收录了5700万条标注数据，聚焦于通过自然语言指令指导分子结构编辑。该数据集通过SMILES编码表征分子结构，涵盖溶解度、渗透性等关键药物性质的多维度优化任务，为人工智能驱动的分子设计提供了标准化基准。

当前挑战

分子优化领域长期面临多目标属性平衡的复杂性问题，需同时兼顾水溶性与渗透性等相互制约的理化指标。在数据集构建过程中，研究者需克服大规模分子对标注的可靠性验证难题，确保SMILES序列转换的化学有效性。此外，负样本生成机制要求精确模拟不合理编辑操作，这对分子动力学模拟与化学规则的一致性提出了严峻考验。

常用场景

经典使用场景

在计算化学与药物发现领域，MEGA数据集通过自然语言指令引导分子结构编辑，为模型训练提供了大规模标注数据。其经典应用场景包括基于SMILES表示法的分子优化，例如根据“增加水溶性”或“提升药物相似性”等提示，系统性地调整分子属性，推动智能化分子设计流程的发展。

解决学术问题

该数据集有效解决了分子生成模型中指导性编辑的稀缺性问题，通过量化属性变化（如合成可行性、分子量与药物相似性指标），为多目标分子优化提供了可靠基准。其意义在于弥合了自然语言处理与化学信息学间的鸿沟，为可解释性AI在分子设计中的应用奠定了数据基础。

衍生相关工作

基于该数据集衍生的经典工作包括MEGA-SFT监督微调模型与MEGA-GRPO强化学习框架，它们通过Tanmoto相似度优化实现了分子编辑的精准控制。后续研究进一步拓展了多模态分子生成、条件约束优化等方向，持续推动AI驱动化学合成路线设计的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集