mol_opt_data

Hugging Face2025-12-25 更新2025-12-26 收录

下载链接：

https://huggingface.co/datasets/little1d/mol_opt_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练MolAct，一个用于分子编辑和优化的Agentic RL框架。数据集来源于ChemCoTBench，提取了源分子（SMILES）和任务规范（编辑指令或优化目标），并移除了中间的Chain-of-Thought（CoT）推理步骤以适应强化学习环境。数据集分为两个阶段：第一阶段（编辑）专注于功能基团的添加、删除和替换；第二阶段（优化）专注于多目标属性优化（LogP、溶解度、QED、生物活性目标）。

创建时间：

2025-12-22

原始信息汇总

MolAct-Instruct 数据集概述

基本信息

数据集名称: MolAct-Instruct
任务类别: 文本生成、化学
语言: 英语
标签: 分子设计、分子编辑、智能体强化学习、药物发现

描述

该数据集用于训练 MolAct，这是一个用于分子编辑与优化的智能体强化学习框架。数据集源自 ChemCoTBench，提取了源分子（SMILES）和任务规范（编辑指令或优化目标），同时移除了中间的思维链推理步骤，以适应强化学习环境。

阶段划分

阶段一（编辑）: 专注于官能团的添加、删除和替换。
阶段二（优化）: 专注于多目标属性优化（LogP、溶解度、QED、生物活性靶点）。

参考文献

GitHub 仓库: https://github.com/little1d/MolAct
ArXiv 论文: https://arxiv.org/abs/2512.20135

引用信息

若在研究中使用了 MolAct，请引用： bibtex @article{molact2025, title={MolAct: An Agentic RL Framework for Molecular Editing and Property Optimization}, author={Zhuo Yang and Yeyun Chen and Jiaqing Xie and Ben Gao and Shuaike Shen and Wanhao Liu and Liujia Yang and Beilun Wang and Tianfan Fu and Yuqiang Li}, year={2025}, eprint={2512.20135}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2512.20135} }

搜集汇总

数据集介绍

构建方式

在药物发现与分子设计领域，MolAct-Instruct数据集为强化学习环境提供了专门的结构化指令数据。该数据集源自ChemCoTBench，通过提取原始分子（SMILES表示）与任务规范（编辑指令或优化目标），并移除了原有的思维链推理步骤，以适应代理强化学习的训练需求。其构建过程分为两个阶段：编辑阶段专注于官能团的添加、删除与替换；优化阶段则集中于多目标属性优化，包括LogP、溶解度、QED及生物活性指标，从而形成了面向分子编辑与优化的精准指令对。

特点

该数据集的核心特点在于其专为代理强化学习框架MolAct设计，强调从指令到分子动作的直接映射。数据集摒弃了中间推理步骤，使得模型能够专注于学习在化学空间中进行编辑与优化的策略。其任务设计具有明确的阶段性：编辑任务覆盖了基础的官能团操作，为分子结构修改提供基础；优化任务则整合了多个关键理化与生物属性，支持多目标协同优化。这种结构不仅提升了训练效率，也为分子生成与属性预测任务提供了高质量、目标明确的监督信号。

使用方法

使用该数据集时，研究者可将其直接应用于训练如MolAct之类的代理强化学习框架，以进行分子编辑与优化。数据集中的每一条样本包含一个源分子SMILES字符串及对应的任务指令，模型需要学习如何根据指令生成目标分子。在编辑阶段，模型学习执行特定的结构变换；在优化阶段，则需平衡多个属性目标以输出改进后的分子。该数据集适用于文本生成与化学领域的交叉研究，能够支持药物发现中基于指令的分子设计与自动化优化流程的开发与评估。

背景与挑战

背景概述

在人工智能驱动的药物发现领域，分子编辑与优化是加速新药研发进程的核心环节。MolAct-Instruct数据集于2025年由Zhuo Yang等研究人员构建，旨在支持其提出的MolAct智能体强化学习框架。该数据集源自ChemCoTBench，通过提取原始分子SMILES序列与任务指令，并剔除中间思维链推理步骤，专门适配强化学习环境。其核心研究问题聚焦于通过指令驱动的方式，实现分子功能团的精准编辑与多目标属性协同优化，为自动化、智能化的分子设计提供了关键数据基础，显著推动了计算化学与AI交叉领域的发展。

当前挑战

该数据集致力于解决分子编辑与多目标属性优化这一复杂领域问题，其核心挑战在于如何平衡分子多种理化性质（如LogP、溶解度、QED及生物活性）之间的权衡，并确保生成分子在保持合成可行性的同时满足特定生物功能需求。在构建过程中，挑战主要源于数据源的转化与适配：需要从包含思维链的原始数据中精确剥离出状态-动作对，以符合强化学习的马尔可夫决策过程框架，同时确保编辑指令与优化目标的语义清晰性与化学有效性，这对数据清洗与标注的准确性提出了较高要求。

常用场景

经典使用场景

在计算化学与人工智能交叉领域，分子编辑与优化是药物发现的核心挑战之一。MolAct-Instruct数据集通过提供源分子SMILES序列与任务规范，构建了一个强化学习环境，专门用于训练智能体执行分子结构编辑与多目标属性优化。其经典使用场景聚焦于两阶段任务：第一阶段涉及官能团的增删改，第二阶段则针对LogP、溶解度、QED及生物活性等多重性质进行协同优化，为自动化分子设计提供了标准化实验平台。

衍生相关工作

围绕该数据集衍生的经典工作主要包括MolAct框架本身，其开创了将Agentic RL范式系统化应用于分子编辑的先河。后续研究在此基础上拓展了多模态分子表示、分层强化学习策略以及跨任务迁移学习等方法。这些工作共同丰富了AI for Science的技术体系，并催生了如分子生成-优化一体化平台等新兴研究方向，持续推动计算化学与机器学习深度融合。

数据集最近研究