KnowMol-100K

Name: KnowMol-100K
Creator: 中国科学院计算技术研究所, 中国科学院大学 (CAS), 中国
Published: 2025-10-22 19:23:58
License: 暂无描述

arXiv2025-10-22 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/yzf1102/KnowMol-100K

下载链接

链接失效反馈

官方服务：

资源简介：

KnowMol-100K是一个包含10万个多级别分子描述的大规模数据集，旨在提升分子大型语言模型的理解能力。数据集通过从原子、官能团、分子结构和分子性质四个基本因素构建多级别注释，增加了覆盖范围和粒度。此外，还提出了化学信息分子表示策略，包括使用SELFIES代替SMILES以及为2D图设计高效的分层编码器。KnowMol-100K旨在解决现有分子大型语言模型在理解分子信息方面的局限性，如不准确识别分子公式和官能团、对子结构的解释不精确以及错误地描述化学连接和性质等问题。

KnowMol-100K is a large-scale dataset containing 100,000 multi-level molecular descriptions, aiming to enhance the understanding capabilities of molecular large language models. This dataset constructs multi-level annotations based on four fundamental factors: atoms, functional groups, molecular structures, and molecular properties, thereby expanding its coverage and granularity. Furthermore, a chemical-informed molecular representation strategy is proposed, which includes replacing SMILES with SELFIES and designing an efficient hierarchical encoder for 2D molecular graphs. KnowMol-100K is designed to address the limitations of existing molecular large language models in understanding molecular information, such as inaccurate identification of molecular formulas and functional groups, imprecise interpretation of substructures, and erroneous descriptions of chemical connectivity and properties.

提供机构：

中国科学院计算技术研究所, 中国科学院大学 (CAS), 中国

创建时间：

2025-10-22

搜集汇总

数据集介绍

构建方式

在分子科学领域，高质量数据集的构建对推动分子大语言模型发展至关重要。KnowMol-100K通过精心设计的流程，从PubChem数据库中筛选出10万个具有最大结构多样性的分子样本，采用MaxMin方法优化分子集合的覆盖范围。该数据集整合了PubChem基础数据、化学信息学工具包RDKit的功能组分析能力以及多模态大语言模型GPT-4o的文本生成优势，构建了从原子层级到理化性质的四级注释体系：原子层级通过解析分子式确定原子类型与数量；功能组层级利用BRICS算法精准识别82种常见功能基团；结构构造层级融合SMILES、IUPAC名称和分子图像生成详细结构描述；理化性质层级基于前三级注释系统分析六类关键性质。

特点

该数据集在分子表征维度展现出显著优势，其注释体系全面覆盖分子理解的四个基础要素：原子组成、功能基团、分子结构和理化性质。相较于传统PubChem描述，KnowMol-100K在关键分子特征的描述粒度上实现重大突破，分子结构描述的平均词汇量达到161.78词，远超PubChem的2.406词。数据集特别强化了极性、亲电性等薄弱环节的覆盖，相关描述词汇量分别达到58.84和32.14词，有效弥补了现有数据在分子特性表征上的不平衡性。通过专家评估验证，数据集在事实准确性、完整性和一致性方面均表现优异，整体质量评分达2.43分（满分3分）。

使用方法

该数据集为分子大语言模型的训练提供了系统化支持，研究者可基于四级注释构建两种核心预训练任务。多轮问答任务采用渐进式学习策略，从基础原子信息逐步延伸至功能基团识别、结构解析和性质分析，培养模型对分子层级的递进理解能力。描述引导分子生成任务则要求模型根据四级注释逆向构建对应分子，强化结构-性质关联认知。实际应用中，建议采用两阶段指令微调策略：预训练阶段使用低秩适应技术联合优化投影层与大语言模型，注入全面化学知识；任务特定微调阶段针对下游应用场景进行定向优化。这种训练范式显著提升了模型在分子描述生成、性质预测和分子设计等任务上的表现。

背景与挑战

背景概述

KnowMol-100K数据集由中国科学院计算技术研究所人工智能安全国家重点实验室的研究团队于2025年提出，旨在解决分子大语言模型在分子理解任务中的关键瓶颈。该数据集构建了10万条涵盖原子、官能团、分子结构和理化性质四个层次的精细分子标注，通过整合PubChem数据库、RDKit工具和GPT-4o多模态模型，显著提升了分子描述的质量与覆盖范围。其核心研究问题聚焦于弥合分子信息与文本描述之间的语义鸿沟，为分子科学领域的多模态学习奠定了重要基础，推动了药物发现与材料设计等应用的发展。

当前挑战

在分子大语言模型领域，KnowMol-100K致力于解决分子理解任务中因描述粗糙和表征策略不足导致的模型性能局限。具体挑战包括：准确识别复杂分子的官能团与空间构型、解析多层级结构间的化学连接关系，以及预测分子在极性、反应性等性质上的细微差异。数据构建过程中，需克服PubChem原始标注的覆盖不平衡与粒度粗疏问题，通过设计确定性匹配算法确保官能团标注的可靠性，并利用多源信息融合策略生成结构一致且无矛盾的分子描述，同时避免跨模态表征中的语义混淆。

常用场景

经典使用场景

在分子科学领域，KnowMol-100K数据集被广泛应用于分子大语言模型的预训练与指令微调过程。该数据集通过多层级分子注释构建了原子、官能团、分子结构与理化性质之间的语义桥梁，为模型提供了从基础化学组成到复杂分子行为的完整知识框架。在分子理解任务中，研究者利用其细粒度标注训练模型识别分子式、解析官能团分布、分析空间构型，并建立结构与性质间的因果关系。同时，在分子生成任务中，该数据集支持模型根据文本描述逆向合成目标分子，实现了从语义空间到化学结构的精准映射。

衍生相关工作

基于KnowMol-100K的创新范式，研究者开发了多项进阶工作。在模型架构方面，分层图编码器与专用分词策略被引入MolCA、UniMoT等模型，实现了多粒度分子特征融合。数据增强领域涌现出基于指令模板的分子描述生成方法，通过语义扩展提升标注多样性。在跨模态对齐任务中，研究者利用该数据集构建了分子图-文本的对比学习框架，推动了三模态表示的统一。这些衍生工作共同推动了分子智能从感知理解向创造设计的范式转变。

数据集最近研究