IP5-M; USPTO-MOL-M

Name: IP5-M; USPTO-MOL-M
Creator: IBM研究院; 苏黎世联邦理工学院
Published: 2026-03-30 23:11:17
License: 暂无描述

arXiv2026-03-30 更新2026-04-01 收录

下载链接：

https://github.com/DS4SD/MarkushGrapher

下载链接

链接失效反馈

官方服务：

资源简介：

IP5-M是由IBM研究院与苏黎世联邦理工学院联合构建的化学结构多模态识别基准数据集，包含从IP5专利局文件中手工标注的真实Markush结构。USPTO-MOL-M则是通过自动管道从USPTO提供的MOL文件中提取的大规模训练数据集，包含23.5万条图像-CXSMILES对，涵盖2010至2025年的专利数据。这些数据集通过融合视觉、文本和布局信息，支持化学结构识别模型的训练与评估，主要应用于化学专利分析、分子检索和药物发现等领域，旨在解决化学文献中复杂Markush结构的自动化识别难题。

IP5-M is a benchmark dataset for multimodal recognition of chemical structures, jointly developed by IBM Research and ETH Zurich. It contains manually annotated real Markush structures extracted from IP5 patent office documents. USPTO-MOL-M is a large-scale training dataset extracted from MOL files provided by the USPTO via an automated pipeline, containing 235,000 image-CXSMILES pairs and covering patent data from 2010 to 2025. These two datasets support the training and evaluation of chemical structure recognition models by fusing visual, textual, and layout information. They are mainly applied in fields such as chemical patent analysis, molecular retrieval, and drug discovery, aiming to address the challenge of automated recognition of complex Markush structures in chemical literature.

提供机构：

IBM研究院; 苏黎世联邦理工学院

创建时间：

2026-03-30

原始信息汇总

MarkushGrapher 2.0 数据集概述

数据集基本信息

数据集名称: MarkushGrapher 2.0 Datasets
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/docling-project/MarkushGrapher-2-Datasets
关联模型: MarkushGrapher 2.0
关联论文:
- MarkushGrapher-2: https://arxiv.org/abs/2603.28550
- MarkushGrapher: https://arxiv.org/abs/2503.16096

数据集目的与用途

该数据集用于训练和评估MarkushGrapher 2.0模型，这是一个端到端多模态模型，旨在从化学文档图像中识别分子结构和Markush结构。模型联合编码视觉、文本和布局模态，以自回归方式生成CXSMILES表示和取代基表。

核心数据集构成

训练数据

训练阶段	数据集名称	数据量	数据类型	来源/备注
Phase 1 (Adaptation)	MolScribe USPTO	243k	真实数据 (图像-SMILES对)	https://huggingface.co/yujieq/MolScribe/blob/main/uspto_mol.zip
Phase 2 (Fusion)	Synthetic CXSMILES	235k	合成数据	https://huggingface.co/datasets/docling-project/MarkushGrapher-Datasets/viewer/markushgrapher-synthetic-training
Phase 2 (Fusion)	MolParser	91k	真实数据 (已转换为CXSMILES)	https://huggingface.co/datasets/UniParser/MolParser-7M/viewer/sft_real
Phase 2 (Fusion)	USPTO-MOL-M	54k	真实数据 (从MOL文件自动提取)	https://huggingface.co/datasets/docling-project/MarkushGrapher-2-Datasets/viewer/uspto-mol-m-54k

基准测试数据集

Markush结构识别基准

M2S: 103个样本，包含取代基表的真实世界多模态Markush结构。
USPTO-M: 74个样本，真实世界Markush结构图像。
WildMol-M: 10k个样本，大规模半手动标注的Markush结构。
IP5-M: 1,000个样本（新增），从IP5专利局（USPTO, JPO, KIPO, CNIPA, EPO）的专利文档（1980–2025）中手动标注的Markush结构。

分子结构识别（OCSR）基准

USPTO: 5,719个样本
JPO: 450个样本
UOB: 5,740个样本
WildMol: 10k个样本

数据生成与来源

合成数据集使用MarkushGenerator生成。
新的训练数据管道从USPTO MOL文件（2010–2025）自动构建大规模真实世界Markush训练数据。

性能表现摘要

Markush结构识别（CXSMILES准确率）

| 模型 | M2S | USPTO-M | WildMol-M | IP5-M | |---|---|---|---|---|---| | MolParser-Base | 39 | 30 | 38.1 | 47.7 | | MolScribe | 21 | 7 | 28.1 | 22.3 | | GPT-5 | 3 | — | — | — | | DeepSeek-OCR | 0 | 0 | 1.9 | 0.0 | | MarkushGrapher 1.0 | 38 | 32 | — | — | | MarkushGrapher 2.0 | 56 | 55 | 48.0 | 53.7 |

分子结构识别（SMILES准确率）

| 模型 | WildMol | JPO | UOB | USPTO | |---|---|---|---|---|---| | MolParser-Base | 76.9 | 78.9 | 91.8 | 93.0 | | MolScribe | 66.4 | 76.2 | 87.4 | 93.1 | | MolGrapher | 45.5 | 67.5 | 94.9 | 91.5 | | MarkushGrapher 2.0 | 68.4 | 71.0 | 96.6 | 89.8 |

数据下载与使用

bash huggingface-cli download docling-project/MarkushGrapher-2-Datasets --local-dir ./data/hf --repo-type dataset

搜集汇总

数据集介绍

构建方式

在化学信息学领域，构建高质量的多模态数据集是推动Markush结构自动识别的关键。IP5-M与USPTO-MOL-M数据集的构建采用了系统化的数据采集与标注流程。IP5-M作为人工标注的基准数据集，其样本来源于IP5专利局（包括美国、日本、韩国、中国和欧洲专利局）在1980年至2025年间公开的专利文档，通过专家手动标注了化学结构图像及其对应的文本描述，确保了标注的准确性与一致性。USPTO-MOL-M则是一个大规模训练数据集，通过自动化流程从美国专利商标局提供的MOL文件中提取图像与CXSMILES表示对，并经过数据清洗与格式转换，重构了位置变异指示符、频率变异指示符等Markush特征，为模型训练提供了丰富的真实世界样本。

使用方法

该数据集主要服务于化学文档理解与多模态机器学习研究。在模型训练阶段，研究者可将USPTO-MOL-M中的图像-CXSMILES对作为输入-输出样本，用于训练端到端的Markush结构识别模型，如图像编码器与文本解码器的联合优化。针对多模态特征融合，数据集的文本描述与布局信息可用于训练视觉-文本-布局编码器，提升模型对化学图像中文字与图形关联的理解能力。在模型评估与基准测试中，IP5-M作为人工标注的黄金标准，可用于量化模型在CXSMILES预测、取代基表格识别等任务上的准确率与F1分数，为不同算法的性能比较提供可靠依据。此外，数据集支持对模型在合成数据与真实数据上的泛化能力进行系统性分析。

背景与挑战

背景概述

在化学信息学领域，从科学文献中自动提取化学结构是实现大规模知识整合与加速发现的关键。传统方法通常独立处理图像或文本中的分子表示，但对于结合视觉与文本信息的马库什结构识别，其精度与自动化处理能力仍显不足。为此，IBM Research与苏黎世联邦理工学院的研究团队于2026年提出了IP5-M与USPTO-MOL-M数据集，作为MarkushGrapher-2模型的核心支撑。这些数据集旨在解决多模态马库什结构识别这一核心研究问题，通过提供大规模真实世界的标注样本，推动化学文档理解向端到端自动化方向发展，对专利分析、药物发现等领域具有深远影响。

当前挑战

该数据集所针对的马库什结构识别任务面临多重挑战。在领域问题层面，马库什结构的图像绘制标准多样，且文本描述缺乏统一规范，常包含条件式或递归定义，导致模型难以准确解析结构与取代基的对应关系。在构建过程中，主要挑战在于真实世界标注数据的稀缺性。现有专利文档中的马库什结构仅存在于少数专有数据库中，且标注需融合化学图像、文本与布局信息，人工标注成本极高。此外，从USPTO提供的MOL文件自动生成训练数据时，需处理文件格式不一致、视觉细节缺失以及位置变异指示符重建等复杂问题，对数据管线的鲁棒性提出严峻考验。

常用场景

经典使用场景

在化学信息学与专利分析领域，IP5-M与USPTO-MOL-M数据集的核心应用场景在于训练和评估多模态化学结构识别模型。这些数据集专门针对Markush结构——一种结合图像骨架与文本取代基描述的复杂化学表示形式，为模型提供了从真实专利文档中提取的标注样本。通过提供图像、文本与布局的联合标注，它们使得模型能够学习如何准确解析化学结构图像中的变量基团、位置变异指示符以及频率变异指示符，进而实现从非结构化文档到机器可读格式的端到端转换。

解决学术问题

该数据集有效解决了化学文献大规模自动化处理中的关键学术难题。传统方法通常独立处理化学结构的图像或文本描述，难以精确解析多模态的Markush结构，导致专利分析中的先有技术检索与自由实施评估存在瓶颈。IP5-M与USPTO-MOL-M通过提供大规模、高质量的真实世界标注数据，支持开发能够联合理解视觉、文本与布局信息的端到端模型，显著提升了多模态Markush结构识别的精度与鲁棒性，填补了该领域训练数据稀缺的空白。

实际应用

在实际应用中，该数据集支撑的模型技术已深入渗透至药物发现与材料科学的研究流程。化学专利文档中蕴含海量的Markush结构，它们以紧凑形式描述了相关分子家族。利用基于该数据集训练的识别系统，研究人员能够自动化地从专利文献中提取化学结构信息，构建可搜索的分子数据库，从而加速候选化合物的筛选与优化过程。这不仅提升了专利分析的效率，也为机器学习模型提供了高质量的训练数据，推动了跨学科的知识发现与创新。

数据集最近研究