MolGround
收藏arXiv2025-04-01 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.23668v2
下载链接
链接失效反馈官方服务:
资源简介:
MolGround是由香港理工大学和四川大学构建的分子接地基准数据集,包含79k问答对,旨在评估模型将分子概念与特定结构组件明确关联的参照能力。该数据集涵盖化学命名实体识别、名称结构映射、参照子结构定位、子结构关系接地和子结构频率分析等任务,是一个针对分子理解任务的细粒度接地数据集,支持模型在多个认知层次上识别、解释和推理特定分子特征的作用。
MolGround is a molecular grounding benchmark dataset developed by The Hong Kong Polytechnic University and Sichuan University. It contains 79k question-answer pairs, designed to evaluate a model's referential capability to explicitly associate molecular concepts with specific structural components. This dataset covers tasks including Chemical Named Entity Recognition, Name-structure Mapping, Referential Substructure Localization, Substructure Relation Grounding, and Substructure Frequency Analysis. As a fine-grained grounding dataset tailored for molecular understanding tasks, it enables models to identify, interpret and reason about the roles of specific molecular features across multiple cognitive levels.
提供机构:
香港理工大学, 四川大学
创建时间:
2025-03-31
搜集汇总
数据集介绍

构建方式
MolGround数据集的构建采用了螺旋模型(Spiral Model)的交互式方法,结合了自动化工具与人类专家的协同工作。通过开发一个基于多代理系统的原型工具,包括元检索器、基于大型语言模型(LLM)的文本解释器和结构解析器,实现了数据的自动化收集、清洗和结构化。随后,化学专家对数据进行验证、修正和筛选,确保数据的准确性和可靠性。这一过程不仅提升了数据集的规模和质量,还为分子接地任务提供了有效的探索方法。
特点
MolGround是目前最大的分子理解基准数据集,包含79k个问答对,覆盖五个细粒度分子接地任务:化学命名实体识别(CNER)、双向名称-结构映射(BNSM)、参考子结构定位(RSL)、子结构关系接地(SRG)和子结构频率分析(SFA)。该数据集强调分子概念的参考性理解,能够将分子概念与特定结构成分关联,显著提升了分子理解的解释性和泛化能力。
使用方法
MolGround数据集适用于评估模型在分子接地任务中的表现,包括化学命名实体识别、名称-结构映射、子结构定位、关系接地和频率分析。用户可以通过训练集、验证集和测试集(按80%、10%、10%的比例划分)进行模型训练和评估。此外,该数据集还可用于增强传统任务,如分子标注和ATC分类,通过整合接地结果提升模型性能。
背景与挑战
背景概述
MolGround是由香港理工大学和四川大学的研究团队于2025年提出的分子基准测试数据集,旨在填补分子理解领域中指称感知(referential perception)的研究空白。传统分子理解方法主要关注描述性感知(descriptive perception),即对分子整体特性的理解,而MolGround则聚焦于将分子概念与特定结构成分相关联的指称感知能力。该数据集包含79,000个问答对,涵盖了化学命名实体识别、名称-结构映射、指称性子结构定位等五大任务,是目前规模最大的分子理解基准测试。MolGround的建立为AI for Science运动中的分子理解研究提供了重要工具,其多智能体 grounding 原型系统在分子描述生成和ATC分类等传统任务中展现出卓越性能,甚至超越了GPT-4o等先进模型。
当前挑战
MolGround面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,分子指称理解需要解决复杂的技术难题:1) 化学实体形式多样性(如乙酰氨基酚存在IUPAC名、分子式、InChI等多种表示形式);2) 名称-结构映射的严格性要求(微小结构差异可能导致完全不同的分子);3) 子结构定位中的多实例干扰(如噻吩环的旋转异构体)。在构建过程方面,数据集创建面临:1) 对化学专家知识的重度依赖导致标注成本高昂;2) 分子结构的多模态特性(文本与结构间的语义鸿沟);3) 分子描述中精细结构关系的多维性建模(化学、空间、物理等多重因素交织)。这些挑战使得现有大型语言模型在MolGround任务上的平均准确率普遍低于50%,凸显了分子指称理解这一新兴研究方向的难度。
常用场景
经典使用场景
MolGround数据集在分子科学和人工智能交叉领域具有广泛的应用价值,尤其在分子结构解析和分子语言理解任务中表现突出。该数据集通过79k个问答对,涵盖了化学命名实体识别、名称-结构映射、参照性子结构定位、子结构关系接地和子结构频率分析等五大任务,为研究人员提供了一个全面的分子接地基准。在分子描述生成和分子分类等任务中,MolGround通过其精细的分子结构标注,显著提升了模型的性能和解释性。
解决学术问题
MolGround数据集解决了分子科学中一个长期存在的关键问题:如何将分子概念与其具体的结构成分关联起来。传统的分子理解方法主要关注描述性层面,而忽视了参照性层面,即分子概念与具体结构成分(如原子、功能基团、环等)的关联。MolGround通过引入分子接地任务,填补了这一空白,为分子理解研究提供了新的视角和方法。该数据集不仅提升了分子理解的精细度和解释性,还为分子性质预测、分子生成和反应预测等任务提供了新的研究思路。
衍生相关工作
MolGround数据集的推出催生了一系列相关研究工作。例如,基于该数据集的多智能体接地原型系统在分子接地任务中表现优异,超越了包括GPT-4o在内的现有模型。此外,MolGround的接地输出已被成功整合到传统任务中,如分子描述生成和ATC分类,显著提升了这些任务的性能。相关研究还探索了分子接地在视觉-语言模型中的应用,借鉴了视觉接地技术的成功经验,进一步推动了分子理解领域的发展。这些衍生工作不仅扩展了MolGround的应用范围,还为分子科学和人工智能的交叉研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



