mol_edit_data

Hugging Face2025-12-25 更新2025-12-26 收录

下载链接：

https://huggingface.co/datasets/little1d/mol_edit_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练MolAct，一个用于分子编辑和优化的Agentic RL框架。数据集来源于ChemCoTBench，提取了源分子（SMILES）和任务规范（编辑指令或优化目标），并移除了中间的Chain-of-Thought（CoT）推理步骤以适应强化学习环境。数据集分为两个阶段：第一阶段（编辑）专注于功能基团的添加、删除和替换；第二阶段（优化）专注于多目标属性优化（LogP、溶解度、QED、生物活性目标）。

This dataset is designed for training MolAct, an Agentic RL framework tailored for molecular editing and optimization. Derived from ChemCoTBench, the dataset extracts source molecules (SMILES) and task specifications (editing instructions or optimization goals), while removing the intermediate Chain-of-Thought (CoT) reasoning steps to adapt to reinforcement learning environments. The dataset is split into two stages: the first stage (Editing) focuses on the addition, deletion and substitution of functional groups; the second stage (Optimization) focuses on multi-objective property optimization covering LogP, solubility, QED and bioactivity targets.

创建时间：

2025-12-22

原始信息汇总

MolAct-Instruct 数据集概述

数据集基本信息

数据集名称：MolAct-Instruct
任务类别：文本生成、化学
语言：英语
标签：分子设计、分子编辑、智能体强化学习、药物发现

数据集描述

该数据集用于训练 MolAct，一个用于分子编辑与优化的智能体强化学习框架。数据集源自 ChemCoTBench。我们提取了源分子（SMILES）和任务规范（编辑指令或优化目标），同时移除了中间的思维链推理步骤，以适应强化学习环境。

第一阶段（编辑）：专注于官能团的添加、删除和替换。
第二阶段（优化）：专注于多目标属性优化（LogP、溶解度、QED、生物活性靶点）。

参考信息

有关框架和训练范式的更多详细信息，请访问我们的 GitHub 仓库。

GitHub：https://github.com/little1d/MolAct
ArXiv：https://arxiv.org/abs/2512.20135

引用

如果您在研究中使用 MolAct，请引用： bibtex @article{molact2025, title={MolAct: An Agentic RL Framework for Molecular Editing and Property Optimization}, author={Zhuo Yang and Yeyun Chen and Jiaqing Xie and Ben Gao and Shuaike Shen and Wanhao Liu and Liujia Yang and Beilun Wang and Tianfan Fu and Yuqiang Li}, year={2025}, eprint={2512.20135}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2512.20135} }

搜集汇总

数据集介绍

构建方式

在药物发现与分子设计领域，MolAct-Instruct数据集的构建源于对现有知识库的精心提炼。该数据集从ChemCoTBench中提取了源分子SMILES序列及任务规范，如编辑指令或优化目标，同时剔除了原有的思维链推理步骤，以适应强化学习环境的需求。构建过程分为两个阶段：编辑阶段专注于官能团的添加、删除与替换；优化阶段则致力于多目标属性优化，涵盖LogP、溶解度、QED及生物活性指标，从而为分子编辑与优化任务提供了结构化的训练基础。

特点

该数据集的核心特点在于其专为强化学习框架设计的简洁性与任务导向性。通过移除中间推理步骤，数据集直接关联分子状态与编辑指令，强化了智能体在化学空间中的决策训练。其双阶段结构不仅覆盖了分子结构的基础编辑，还延伸至复杂的多属性优化，体现了从简单修饰到综合性能提升的渐进逻辑。这种设计使得数据集能够支持端到端的分子生成与优化，为AI驱动的药物发现提供了高效且可扩展的数据资源。

使用方法

在应用层面，MolAct-Instruct数据集主要用于训练MolAct这一基于智能体强化学习的分子编辑与优化框架。研究人员可通过加载数据集中的SMILES序列与对应任务指令，构建强化学习环境，使智能体学习如何根据化学目标执行分子编辑操作。数据集支持直接用于模型训练与评估，用户可参考提供的GitHub仓库与学术论文，复现或扩展分子设计实验，从而推动自动化药物发现与分子工程的发展。

背景与挑战

背景概述

分子编辑与优化是人工智能驱动药物发现领域的核心研究方向，旨在通过算法对候选化合物的分子结构进行精准修饰，以改善其理化性质与生物活性。MolAct-Instruct数据集应运而生，由研究团队于2025年构建，其核心研究问题在于为强化学习智能体提供结构化的分子编辑指令与优化目标，从而训练出能够自主执行复杂化学变换的AI框架。该数据集源自ChemCoTBench，通过提取源分子SMILES序列与任务规范，并剥离中间思维链推理步骤，专门适配于强化学习环境，显著推动了分子设计从静态预测向动态、序列化决策的范式转变，对计算化学与自动化药物设计产生了深远影响。

当前挑战

在分子编辑与优化领域，核心挑战在于如何让AI模型理解并执行复杂的化学约束下的结构变换，同时平衡多目标属性如亲脂性、溶解度和生物活性的协同优化。MolAct-Instruct数据集旨在应对这一挑战，为智能体提供从简单官能团操作到多属性权衡的序列决策任务。在数据集构建过程中，主要困难源于如何从原有的思维链数据中有效剥离中间推理步骤，同时保留精确的编辑指令与优化目标，确保转换后的数据既能满足强化学习的马尔可夫决策过程要求，又不丢失化学任务的语义完整性与可执行性。

常用场景

经典使用场景

在计算化学与人工智能交叉领域，分子编辑与优化是药物发现的核心环节。MolAct-Instruct数据集专为训练基于强化学习的分子编辑智能体而构建，其经典使用场景聚焦于指导模型执行精确的分子结构改造。具体而言，数据集通过提供源分子SMILES序列与明确的编辑指令或优化目标，使智能体能够在虚拟环境中学习如何添加、删除或替换官能团，进而实现分子性质的定向优化，为自动化分子设计提供了标准化的训练与评估基准。

实际应用

在实际应用层面，MolAct-Instruct数据集直接服务于创新药物的早期发现阶段。基于该数据集训练的智能体系统能够协助药物化学家快速探索广阔的化学空间，针对特定靶点生成具有理想理化性质与药代动力学特征的候选分子。这不仅大幅缩短了传统试错周期，降低了研发成本，而且通过自动化、智能化的分子编辑流程，为高通量虚拟筛选与先导化合物优化提供了强有力的计算工具，具有显著的产业转化潜力。

衍生相关工作

围绕MolAct-Instruct数据集，已衍生出一系列聚焦于智能分子设计的经典研究工作。其核心框架MolAct本身便是代表性成果，它开创了将指令学习与强化学习结合用于分子编辑的范式。相关工作进一步拓展了该数据集的用途，例如将其应用于多任务分子生成、基于扩散模型的分子优化，以及结合大语言模型进行化学推理的混合系统，持续推动着AI辅助药物发现领域的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集