MolGround

Name: MolGround
Creator: 香港理工大学, 四川大学
Published: 2025-04-01 14:49:07
License: 暂无描述

arXiv2025-04-01 更新2025-04-03 收录

下载链接：

http://arxiv.org/abs/2503.23668v2

下载链接

链接失效反馈

官方服务：

资源简介：

MolGround是由香港理工大学和四川大学构建的分子接地基准数据集，包含79k问答对，旨在评估模型将分子概念与特定结构组件明确关联的参照能力。该数据集涵盖化学命名实体识别、名称结构映射、参照子结构定位、子结构关系接地和子结构频率分析等任务，是一个针对分子理解任务的细粒度接地数据集，支持模型在多个认知层次上识别、解释和推理特定分子特征的作用。

MolGround is a molecular grounding benchmark dataset developed by The Hong Kong Polytechnic University and Sichuan University. It contains 79k question-answer pairs, designed to evaluate a model's referential capability to explicitly associate molecular concepts with specific structural components. This dataset covers tasks including Chemical Named Entity Recognition, Name-structure Mapping, Referential Substructure Localization, Substructure Relation Grounding, and Substructure Frequency Analysis. As a fine-grained grounding dataset tailored for molecular understanding tasks, it enables models to identify, interpret and reason about the roles of specific molecular features across multiple cognitive levels.

提供机构：

香港理工大学, 四川大学

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

MolGround数据集的构建采用了螺旋模型（Spiral Model）的交互式方法，结合了自动化工具与人类专家的协同工作。通过开发一个基于多代理系统的原型工具，包括元检索器、基于大型语言模型（LLM）的文本解释器和结构解析器，实现了数据的自动化收集、清洗和结构化。随后，化学专家对数据进行验证、修正和筛选，确保数据的准确性和可靠性。这一过程不仅提升了数据集的规模和质量，还为分子接地任务提供了有效的探索方法。

特点

MolGround是目前最大的分子理解基准数据集，包含79k个问答对，覆盖五个细粒度分子接地任务：化学命名实体识别（CNER）、双向名称-结构映射（BNSM）、参考子结构定位（RSL）、子结构关系接地（SRG）和子结构频率分析（SFA）。该数据集强调分子概念的参考性理解，能够将分子概念与特定结构成分关联，显著提升了分子理解的解释性和泛化能力。

使用方法

MolGround数据集适用于评估模型在分子接地任务中的表现，包括化学命名实体识别、名称-结构映射、子结构定位、关系接地和频率分析。用户可以通过训练集、验证集和测试集（按80%、10%、10%的比例划分）进行模型训练和评估。此外，该数据集还可用于增强传统任务，如分子标注和ATC分类，通过整合接地结果提升模型性能。

背景与挑战

背景概述

MolGround是由香港理工大学和四川大学的研究团队于2025年提出的分子基准测试数据集，旨在填补分子理解领域中指称感知（referential perception）的研究空白。传统分子理解方法主要关注描述性感知（descriptive perception），即对分子整体特性的理解，而MolGround则聚焦于将分子概念与特定结构成分相关联的指称感知能力。该数据集包含79,000个问答对，涵盖了化学命名实体识别、名称-结构映射、指称性子结构定位等五大任务，是目前规模最大的分子理解基准测试。MolGround的建立为AI for Science运动中的分子理解研究提供了重要工具，其多智能体 grounding 原型系统在分子描述生成和ATC分类等传统任务中展现出卓越性能，甚至超越了GPT-4o等先进模型。

当前挑战

MolGround面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，分子指称理解需要解决复杂的技术难题：1) 化学实体形式多样性（如乙酰氨基酚存在IUPAC名、分子式、InChI等多种表示形式）；2) 名称-结构映射的严格性要求（微小结构差异可能导致完全不同的分子）；3) 子结构定位中的多实例干扰（如噻吩环的旋转异构体）。在构建过程方面，数据集创建面临：1) 对化学专家知识的重度依赖导致标注成本高昂；2) 分子结构的多模态特性（文本与结构间的语义鸿沟）；3) 分子描述中精细结构关系的多维性建模（化学、空间、物理等多重因素交织）。这些挑战使得现有大型语言模型在MolGround任务上的平均准确率普遍低于50%，凸显了分子指称理解这一新兴研究方向的难度。

常用场景

经典使用场景

MolGround数据集在分子科学和人工智能交叉领域具有广泛的应用价值，尤其在分子结构解析和分子语言理解任务中表现突出。该数据集通过79k个问答对，涵盖了化学命名实体识别、名称-结构映射、参照性子结构定位、子结构关系接地和子结构频率分析等五大任务，为研究人员提供了一个全面的分子接地基准。在分子描述生成和分子分类等任务中，MolGround通过其精细的分子结构标注，显著提升了模型的性能和解释性。

解决学术问题

MolGround数据集解决了分子科学中一个长期存在的关键问题：如何将分子概念与其具体的结构成分关联起来。传统的分子理解方法主要关注描述性层面，而忽视了参照性层面，即分子概念与具体结构成分（如原子、功能基团、环等）的关联。MolGround通过引入分子接地任务，填补了这一空白，为分子理解研究提供了新的视角和方法。该数据集不仅提升了分子理解的精细度和解释性，还为分子性质预测、分子生成和反应预测等任务提供了新的研究思路。

衍生相关工作

MolGround数据集的推出催生了一系列相关研究工作。例如，基于该数据集的多智能体接地原型系统在分子接地任务中表现优异，超越了包括GPT-4o在内的现有模型。此外，MolGround的接地输出已被成功整合到传统任务中，如分子描述生成和ATC分类，显著提升了这些任务的性能。相关研究还探索了分子接地在视觉-语言模型中的应用，借鉴了视觉接地技术的成功经验，进一步推动了分子理解领域的发展。这些衍生工作不仅扩展了MolGround的应用范围，还为分子科学和人工智能的交叉研究提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集