ChemDual

Name: ChemDual
Creator: 湘潭大学计算机学院, 湖南大学计算机科学与电子工程学院, 湖南师范大学人工智能与靶向国际传播研究院
Published: 2025-05-05 21:31:36
License: 暂无描述

arXiv2025-05-05 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.02639v1

下载链接

链接失效反馈

官方服务：

资源简介：

ChemDual是一个大规模的化学合成相关指令数据集，包含440万分子及其相应的碎片。该数据集通过打破逆合成有趣的化学子结构（BRICS）算法生成，旨在为学习通用的化学合成相关知识提供数据支持。数据集的创建过程包括数据预处理、碎片重组和模板填充。ChemDual数据集的应用领域是药物设计，旨在解决药物发现中化学反应和逆合成预测的问题。

ChemDual is a large-scale instruction dataset focused on chemical synthesis, comprising 4.4 million molecules and their corresponding fragments. This dataset is generated using the Breaking Retrosynthetically Interesting Chemical Substructures (BRICS) algorithm, aiming to provide data support for learning general chemical synthesis-related knowledge. The dataset creation process includes data preprocessing, fragment recombination, and template filling. The ChemDual dataset is applied in the field of drug design, addressing the challenges of chemical reaction and retrosynthesis prediction in drug discovery.

提供机构：

湘潭大学计算机学院, 湖南大学计算机科学与电子工程学院, 湖南师范大学人工智能与靶向国际传播研究院

创建时间：

2025-05-05

搜集汇总

数据集介绍

构建方式

在化学合成领域，高质量数据的获取往往成本高昂且效率低下。ChemDual数据集的构建巧妙地解决了这一难题，通过将分子反应与逆合成视为相关的重组与断裂过程，利用BRICS算法从2000万SMILES序列中生成440万分子-片段对。研究团队首先对ChEMBL-34数据库中的分子进行去重、有效性筛选和分子量过滤，随后采用自适应断裂策略处理长序列，保留关键虚拟原子标记，最终通过模板填充生成包含特定任务指令的大规模数据集。这种创新方法在保证数据质量的同时显著降低了获取成本。

特点

ChemDual数据集最显著的特点在于其规模性与双任务设计。440万样本量远超同类数据集，为语言模型提供了丰富的学习素材。数据集通过多尺度分词器捕捉分子结构的不同层次特征，包括虚拟原子、功能基团等16种标记类型。独特的双任务学习框架将分子断裂与重组、反应预测与逆合成作为相互强化的对偶任务，这种设计类比于自然语言处理中的双向翻译，使模型能更深入地理解化学合成的内在规律。实验表明，该框架使模型在反应预测任务中的精确匹配率提升了6.3%。

使用方法

该数据集主要支持化学合成领域的双任务学习研究。使用者可通过预训练阶段学习分子断裂与重组的通用知识，随后在微调阶段专注于反应预测与逆合成的特定任务。数据集提供标准化的SMILES序列输入格式，并包含<BOM>、<EOM>等特殊标记以区分分子与片段。研究人员可加载预训练的LLaMA模型架构，通过交叉熵损失函数优化双任务目标。值得注意的是，分子对接实验验证了生成化合物的蛋白结合亲和力，建议在药物设计场景中将输出结果与AutoDock等工具结合进行进一步验证。

背景与挑战

背景概述

ChemDual数据集由湘潭大学与湖南大学的研究团队于2025年提出，旨在解决药物发现中化学反应与逆合成预测的核心问题。该数据集构建了包含440万分子指令的大规模化学合成相关数据，通过将分子反应-逆合成视为重组-裂解的双任务过程，创新性地结合多尺度分词器与双任务学习策略。作为首个整合化学结构多尺度表征与双向任务关联的大语言模型专用数据集，ChemDual在Mol-Instruction和USPTO-50K基准测试中显著超越传统单任务模型，其生成的化合物在分子对接实验中展现出优异的蛋白结合亲和力，为计算机辅助药物设计提供了新范式。

当前挑战

在领域问题层面，ChemDual需克服化学反应的复杂机理建模与逆合成路径的模糊性这两大挑战，传统方法依赖专家经验且难以处理非典型反应类型。构建过程中面临双重困难：其一，真实化学实验数据获取成本高昂，研究团队创新采用BRICS算法生成合成相关片段，通过66.5%的全局相似度验证其有效性；其二，现有模型忽视反应与逆合成的双向关联性，ChemDual通过建立分子-片段双任务预训练与反应-逆合成双任务微调的级联框架，使模型精确匹配率提升6.3%，但片段重组时的无效SMILES生成与长序列处理仍是技术难点。

常用场景

经典使用场景

在药物发现和化学合成领域，ChemDual数据集通过构建大规模化学合成相关指令数据集，为化学反应和逆合成预测任务提供了强有力的支持。其经典使用场景包括利用大型语言模型（LLMs）进行分子结构的重组和碎片化过程建模，从而优化化学反应路径的设计和预测。通过多尺度分词器和双任务学习策略，ChemDual能够同时处理分子到反应物和反应物到分子的双向任务，显著提升了预测的准确性和效率。

实际应用

在实际应用中，ChemDual数据集被广泛用于药物设计和分子优化。例如，通过分子对接分析，ChemDual生成的化合物展现出多样且强大的蛋白质结合亲和力，为药物发现提供了潜在的候选分子。此外，其在化学合成路径设计和反应预测中的高效表现，使其成为制药企业和研究机构在加速新药研发过程中的重要工具。

衍生相关工作

ChemDual数据集的成功应用催生了一系列相关研究工作。例如，基于其双任务学习策略，研究人员开发了多种改进模型，如BioT5+和Text+Chem T5，进一步推动了化学领域大型语言模型的发展。此外，ChemDual的多尺度分词器和碎片重组方法也为其他化学信息学任务提供了新的思路，如分子生成和性质预测，丰富了化学合成研究的工具和方法库。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集