IP5-M; USPTO-MOL-M
收藏MarkushGrapher 2.0 数据集概述
数据集基本信息
- 数据集名称: MarkushGrapher 2.0 Datasets
- 托管平台: Hugging Face
- 数据集地址: https://huggingface.co/datasets/docling-project/MarkushGrapher-2-Datasets
- 关联模型: MarkushGrapher 2.0
- 关联论文:
- MarkushGrapher-2: https://arxiv.org/abs/2603.28550
- MarkushGrapher: https://arxiv.org/abs/2503.16096
数据集目的与用途
该数据集用于训练和评估MarkushGrapher 2.0模型,这是一个端到端多模态模型,旨在从化学文档图像中识别分子结构和Markush结构。模型联合编码视觉、文本和布局模态,以自回归方式生成CXSMILES表示和取代基表。
核心数据集构成
训练数据
| 训练阶段 | 数据集名称 | 数据量 | 数据类型 | 来源/备注 |
|---|---|---|---|---|
| Phase 1 (Adaptation) | MolScribe USPTO | 243k | 真实数据 (图像-SMILES对) | https://huggingface.co/yujieq/MolScribe/blob/main/uspto_mol.zip |
| Phase 2 (Fusion) | Synthetic CXSMILES | 235k | 合成数据 | https://huggingface.co/datasets/docling-project/MarkushGrapher-Datasets/viewer/markushgrapher-synthetic-training |
| Phase 2 (Fusion) | MolParser | 91k | 真实数据 (已转换为CXSMILES) | https://huggingface.co/datasets/UniParser/MolParser-7M/viewer/sft_real |
| Phase 2 (Fusion) | USPTO-MOL-M | 54k | 真实数据 (从MOL文件自动提取) | https://huggingface.co/datasets/docling-project/MarkushGrapher-2-Datasets/viewer/uspto-mol-m-54k |
基准测试数据集
Markush结构识别基准
- M2S: 103个样本,包含取代基表的真实世界多模态Markush结构。
- USPTO-M: 74个样本,真实世界Markush结构图像。
- WildMol-M: 10k个样本,大规模半手动标注的Markush结构。
- IP5-M: 1,000个样本(新增),从IP5专利局(USPTO, JPO, KIPO, CNIPA, EPO)的专利文档(1980–2025)中手动标注的Markush结构。
分子结构识别(OCSR)基准
- USPTO: 5,719个样本
- JPO: 450个样本
- UOB: 5,740个样本
- WildMol: 10k个样本
数据生成与来源
- 合成数据集使用MarkushGenerator生成。
- 新的训练数据管道从USPTO MOL文件(2010–2025)自动构建大规模真实世界Markush训练数据。
性能表现摘要
Markush结构识别(CXSMILES准确率)
| 模型 | M2S | USPTO-M | WildMol-M | IP5-M | |---|---|---|---|---|---| | MolParser-Base | 39 | 30 | 38.1 | 47.7 | | MolScribe | 21 | 7 | 28.1 | 22.3 | | GPT-5 | 3 | — | — | — | | DeepSeek-OCR | 0 | 0 | 1.9 | 0.0 | | MarkushGrapher 1.0 | 38 | 32 | — | — | | MarkushGrapher 2.0 | 56 | 55 | 48.0 | 53.7 |
分子结构识别(SMILES准确率)
| 模型 | WildMol | JPO | UOB | USPTO | |---|---|---|---|---|---| | MolParser-Base | 76.9 | 78.9 | 91.8 | 93.0 | | MolScribe | 66.4 | 76.2 | 87.4 | 93.1 | | MolGrapher | 45.5 | 67.5 | 94.9 | 91.5 | | MarkushGrapher 2.0 | 68.4 | 71.0 | 96.6 | 89.8 |
数据下载与使用
bash huggingface-cli download docling-project/MarkushGrapher-2-Datasets --local-dir ./data/hf --repo-type dataset

- 1MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical StructuresIBM研究院; 苏黎世联邦理工学院 · 2026年



