RxnCaption-11k

Hugging Face2025-10-31 更新2025-11-01 收录

下载链接：

https://huggingface.co/datasets/songjhPKU/RxnCaption-11k

下载链接

链接失效反馈

官方服务：

资源简介：

RxnCaption-11k数据集是一个专门为化学反应图解析设计的大型数据集，包含从科学文献PDF中提取的化学反应图像及其详细标注信息，旨在支持化学信息学、文献分析和计算机视觉等领域的研究。

The RxnCaption-11k dataset is a large-scale dataset specifically designed for chemical reaction diagram parsing. It contains chemical reaction images extracted from scientific literature PDFs and their detailed annotation information, aiming to support research in fields such as chemoinformatics, scientific literature analysis, and computer vision.

创建时间：

2025-10-28

原始信息汇总

RxnCaption-11k 数据集概述

数据集简介

RxnCaption-11k 数据集是一个专门为化学反应图解析设计的大规模数据集，包含从科学文献PDF中提取的化学反应图像及详细标注。该数据集旨在支持化学信息学、文档分析和计算机视觉领域的研究。

数据集统计

图像总数：10,512张
- 训练集：10,112张图像
- 测试集：400张图像
反应总数：27,545个反应
- 训练集：24,716个反应
- 测试集：2,829个反应
数据来源：科学文献PDF文件
图像格式：PNG
标注总数：约79,167个标注实例

数据集结构

rxncaption-11k/ ├── train_set/ │ ├── ground_truth.json # 训练集标注文件 │ └── images/ # 训练集图像目录 └── test_set/ ├── ground_truth.json # 测试集标注文件 └── images/ # 测试集图像目录

标注类别定义

数据集定义了4个主要类别，每个类别包含多个细粒度属性：

1. 结构 - category_id: 1

P-reactants：反应物分子结构
P-product：产物分子结构
P-reaction conditions：反应条件分子结构

2. 文本 - category_id: 2

T-reaction conditions：反应条件文本
T-reactants：反应物文本
T-product：产物文本

3. 标识符 - category_id: 3

化学标识符和编号

4. 补充信息 - category_id: 4

其他补充信息

标注统计

属性类型	标注数量	百分比
T-reaction conditions	34,947	44.1%
P-reactants	18,420	23.3%
P-product	17,975	22.7%
T-reactants	3,422	4.3%
T-product	1,776	2.2%
P-reaction conditions	1,627	2.1%

数据格式

图像文件命名

图像文件名采用哈希值（SHA-256，前8个十六进制字符）。示例：a1b2c3d4.png

标注文件格式（ground_truth.json）

标注文件遵循COCO格式，包含以下主要字段：

json { "licenses": [...], "info": { "description": "A dataset for chemical visual diagram analysis", "version": "v1", "year": "2025" }, "categories": [ {"id": 1, "name": "structure"}, {"id": 2, "name": "text"}, {"id": 3, "name": "identifier"}, {"id": 4, "name": "supplement"} ], "images": [ { "id": 2, "class": "figure", "confidence": 0.9148465991020203, "bbox": [x1, y1, x2, y2], "original_id": 0, "width": 1008.7104797363281, "height": 471.88232421875, "file_name": "ays765k9.png", "bboxes": [ { "id": 0, "bbox": [x, y, width, height], "category_id": 1, "category": "P", "attribute": "P-reactants", "region_id": ["akzkPsql"] } ] } ] }

标注字段描述

id：唯一标注标识符
bbox：边界框坐标 [x1, y1, x2, y2] 用于图像级bbox，[x, y, width, height] 用于bboxes列表
category_id：类别ID（1-4）
category：类别缩写（P=结构，T=文本）
attribute：特定属性名称
region_id：区域标识符列表

应用场景

该数据集适用于以下研究任务：

化学结构识别：识别和定位化学反应中的分子结构
文本信息提取：从化学图中提取文本信息
反应条件分析：识别和分析反应条件
文档理解：理解科学文献中的化学信息
多模态学习：结合视觉和文本信息进行化学分析

数据质量

所有图像均来自高质量科学文献
标注经过专业验证确保准确性
包含各种化学反应类型和复杂度的样本
支持细粒度化学信息分析

许可证

该数据集采用知识共享署名-非商业性使用 4.0 国际许可证（CC BY-NC 4.0）。

使用条款

您可以：

共享 — 以任何媒介或格式复制和重新分发材料
演绎 — 重混、转换和基于材料进行创作

在以下条件下：

署名 — 您必须给出适当的署名，提供指向此许可证的链接，并指明是否对原始内容作了更改。您可以用任何合理的方式来署名，但不得以任何方式暗示许可方认可您或您的使用。
非商业性使用 — 您不得将本材料用于商业目的。未经许可方明确许可，禁止商业使用。

联系方式

如有问题或建议，请联系：songjiahe@pjlab.org.cn

最后更新：2025年

搜集汇总

数据集介绍

构建方式

在化学信息学领域，RxnCaption-11k数据集的构建体现了对科学文献深度挖掘的严谨性。该数据集从学术期刊PDF文件中系统提取了10,512幅化学反应图像，涵盖27,545个独立反应实例。构建过程采用专业标注流程，对图像中的化学结构与文本信息进行精细划分，形成包含结构、文本、标识符和补充信息四大类别的标注体系。所有标注数据均经过质量验证，确保化学反应的视觉元素与语义信息准确对应，为多模态分析奠定坚实基础。

特点

该数据集在化学视觉分析领域展现出显著的专业特性。其核心优势在于覆盖了丰富的反应类型与复杂程度，包含79,167个标注实例，其中反应条件文本标注占比达44.1%，分子结构标注合计超过68%。数据集采用分层标注策略，既包含整体图像级边界框，又提供细粒度的区域标识，支持从宏观到微观的多层次分析。图像文件采用标准化哈希命名，配合遵循COCO格式的结构化标注，确保了数据的一致性与可追溯性。

使用方法

针对化学文档智能分析需求，该数据集提供了清晰的使用路径。研究人员可通过加载标准格式的标注文件与对应图像，开展化学结构识别、文本信息抽取等核心任务。数据集已预设训练集与测试集划分，支持端到端的模型训练与评估流程。具体实施时，用户可依据标注文件中的边界框坐标与类别属性，构建针对分子结构检测或反应条件解析的专用模型，亦可结合多模态学习方法，探索视觉与文本特征的协同分析。

背景与挑战

背景概述

化学信息学领域长期面临从科学文献中高效提取反应信息的挑战，RxnCaption-11k数据集应运而生。该数据集由研究团队于2025年构建，包含从科学文献PDF中提取的10,512张化学反应图像及79,167条精细标注，涵盖27,545个化学反应实例。通过定义结构、文本、标识符和补充信息四大类别，该数据集为化学反应图解解析建立了标准化基准，显著推进了化学文档分析与计算机视觉的交叉研究。

当前挑战

在化学图解解析领域，该数据集需解决分子结构识别与文本信息提取的双重挑战，包括反应物产物结构定位、条件文本语义理解等复杂任务。构建过程中面临科学文献图像质量差异大、化学符号专业性强导致的标注复杂度高，以及多模态数据对齐困难等技术瓶颈，这些因素共同构成了数据集开发的核心难点。

常用场景

经典使用场景

在化学信息学与文档分析领域，RxnCaption-11k数据集为化学反应图像解析提供了重要支撑。该数据集通过从科学文献PDF中提取的万余张反应图像及其精细标注，成为训练深度学习模型识别分子结构、反应条件文本等关键要素的核心资源。研究人员可基于此构建端到端的化学图解分析系统，实现从图像到结构化化学信息的自动转换，为化学知识的数字化处理奠定基础。

衍生相关工作

基于该数据集已衍生出多项经典研究工作。在化学结构识别方向，研究者开发了融合视觉与文本特征的多模态网络架构；在反应条件提取领域，出现了结合目标检测与序列标注的混合模型；此外，该数据集还催生了多个专注于化学文档理解的基准测试任务，推动了化学人工智能评估标准的建立。这些工作共同构成了化学视觉信息处理的技术体系。

数据集最近研究