M2S

Name: M2S
Creator: IBM Research, ETH Zurich, INSAIT
Published: 2025-03-20 20:40:38
License: 暂无描述

arXiv2025-03-20 更新2025-03-25 收录

下载链接：

http://arxiv.org/abs/2503.16096v1

下载链接

链接失效反馈

官方服务：

资源简介：

M2S数据集是一个经过人工注释的多模态Markush结构数据集，来源于专利文档。该数据集旨在促进Markush结构识别的研究，包含真实的视觉和文本定义的Markush结构。数据集的构建旨在解决化学领域中，自动化提取化学文献中的Markush结构这一挑战，以加速材料科学和药物开发等领域的发现过程。

提供机构：

IBM Research, ETH Zurich, INSAIT

创建时间：

2025-03-20

搜集汇总

数据集介绍

构建方式

M2S数据集的构建采用了多模态方法，结合视觉与文本信息，通过Vision-Text-Layout编码器和光学化学结构识别（OCSR）视觉编码器联合编码输入图像及其文本。编码后的表示通过文本解码器自回归生成Markush结构的序列图表示及其变量组定义表。由于缺乏真实世界的训练数据，研究团队开发了一个合成数据生成流程，以产生多样化的Markush结构图像和文本描述。此外，M2S作为首个真实世界Markush结构的标注基准数据集，为这一复杂任务的研究提供了重要资源。

特点

M2S数据集的特点在于其多模态性质，能够同时处理Markush结构的视觉和文本定义。数据集包含103个来自专利文档的Markush结构图像及其文本描述，涵盖了广泛的化学结构模板和变量组定义。其独特的合成数据生成流程确保了数据多样性，包括不同的绘制风格和文本描述格式。此外，M2S支持复杂的Markush结构特征，如变量组、频率变化指示器和位置变化指示器，为化学信息提取任务提供了全面的基准。

使用方法

M2S数据集的使用方法包括通过多模态模型联合处理输入图像和文本，生成Markush结构的序列图表示和变量组定义表。研究人员可以利用该数据集训练和评估模型在Markush结构识别任务上的性能。具体步骤包括：输入Markush结构图像及其OCR文本，通过Vision-Text-Layout编码器和OCSR编码器联合编码，最终通过文本解码器生成结构表示。该数据集特别适用于化学专利文档分析、先验艺术搜索和化学结构数据库构建等应用场景。

背景与挑战

背景概述

M2S数据集由IBM Research、ETH Zurich和INSAIT的研究团队于2025年推出，旨在解决化学专利文献中Markush结构的多模态识别难题。作为首个标注真实Markush结构的基准数据集，M2S填补了化学信息提取领域的关键空白，为药物研发和材料科学中的先验技术检索提供了重要支持。该数据集包含103个来自USPTO、EPO和WIPO专利的手动标注样本，通过结合视觉骨架图和文本 substituent 表格的双模态表示，显著推动了化学文档理解技术的发展。

当前挑战

M2S数据集面临的核心挑战体现在两个维度：在领域问题层面，Markush结构的组合爆炸特性导致骨架图样式和文本描述格式存在巨大变异，需要模型同时处理位置变异指示符、频率变异指示符等复杂特征；在构建过程中，真实数据标注面临化学专业知识门槛高、专利图像质量参差不齐的困难，研究团队通过开发合成数据生成管道（包含CDK渲染和LLM文本增强）来缓解数据稀缺问题，但合成数据与真实专利文档间的领域差异仍影响模型泛化性能。

常用场景

经典使用场景

在化学专利文献分析领域，M2S数据集为研究者提供了首个真实世界的多模态Markush结构标注基准。该数据集通过整合视觉分子骨架图像与文本变量定义，支持跨模态联合建模研究，典型应用于专利文档中的结构模板自动识别任务。其独特的标注体系解决了传统方法仅能处理单一模态（纯文本或纯图像）的局限性，为开发端到端的Markush结构识别系统提供了关键训练与评估资源。

解决学术问题

M2S数据集有效攻克了化学信息提取中的核心难题：多模态Markush结构的联合解析。通过提供精确对齐的分子骨架图像、OCR文本单元和取代基表格标注，该数据集支持开发能够同时理解化学结构图示与文本变量描述的算法。这显著推进了药物研发和材料科学中先验技术检索的自动化水平，解决了传统专利分析依赖人工标注的瓶颈问题，为构建可扩展的Markush结构数据库奠定了算法基础。

衍生相关工作

M2S数据集催生了多项化学文档理解的创新研究：1）基于Vision-Text-Layout编码器的多模态融合架构（如MarkushGrapher）；2）合成数据生成管线在低资源化学领域的迁移应用；3）专利图像特异性OCR模型的优化工作。这些衍生研究显著提升了化学结构识别在USPTO-Markush等基准上的性能，其中最优模型在CXSMILES精确匹配指标上较传统OCSR方法提升达27个百分点。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集