RxnCaption-11k
收藏RxnCaption-11k 数据集概述
数据集简介
RxnCaption-11k 数据集是一个专门为化学反应图解析设计的大规模数据集,包含从科学文献PDF中提取的化学反应图像及详细标注。该数据集旨在支持化学信息学、文档分析和计算机视觉领域的研究。
数据集统计
- 图像总数:10,512张
- 训练集:10,112张图像
- 测试集:400张图像
- 反应总数:27,545个反应
- 训练集:24,716个反应
- 测试集:2,829个反应
- 数据来源:科学文献PDF文件
- 图像格式:PNG
- 标注总数:约79,167个标注实例
数据集结构
rxncaption-11k/ ├── train_set/ │ ├── ground_truth.json # 训练集标注文件 │ └── images/ # 训练集图像目录 └── test_set/ ├── ground_truth.json # 测试集标注文件 └── images/ # 测试集图像目录
标注类别定义
数据集定义了4个主要类别,每个类别包含多个细粒度属性:
1. 结构 - category_id: 1
- P-reactants:反应物分子结构
- P-product:产物分子结构
- P-reaction conditions:反应条件分子结构
2. 文本 - category_id: 2
- T-reaction conditions:反应条件文本
- T-reactants:反应物文本
- T-product:产物文本
3. 标识符 - category_id: 3
- 化学标识符和编号
4. 补充信息 - category_id: 4
- 其他补充信息
标注统计
| 属性类型 | 标注数量 | 百分比 |
|---|---|---|
| T-reaction conditions | 34,947 | 44.1% |
| P-reactants | 18,420 | 23.3% |
| P-product | 17,975 | 22.7% |
| T-reactants | 3,422 | 4.3% |
| T-product | 1,776 | 2.2% |
| P-reaction conditions | 1,627 | 2.1% |
数据格式
图像文件命名
图像文件名采用哈希值(SHA-256,前8个十六进制字符)。
示例:a1b2c3d4.png
标注文件格式(ground_truth.json)
标注文件遵循COCO格式,包含以下主要字段:
json { "licenses": [...], "info": { "description": "A dataset for chemical visual diagram analysis", "version": "v1", "year": "2025" }, "categories": [ {"id": 1, "name": "structure"}, {"id": 2, "name": "text"}, {"id": 3, "name": "identifier"}, {"id": 4, "name": "supplement"} ], "images": [ { "id": 2, "class": "figure", "confidence": 0.9148465991020203, "bbox": [x1, y1, x2, y2], "original_id": 0, "width": 1008.7104797363281, "height": 471.88232421875, "file_name": "ays765k9.png", "bboxes": [ { "id": 0, "bbox": [x, y, width, height], "category_id": 1, "category": "P", "attribute": "P-reactants", "region_id": ["akzkPsql"] } ] } ] }
标注字段描述
- id:唯一标注标识符
- bbox:边界框坐标 [x1, y1, x2, y2] 用于图像级bbox,[x, y, width, height] 用于bboxes列表
- category_id:类别ID(1-4)
- category:类别缩写(P=结构,T=文本)
- attribute:特定属性名称
- region_id:区域标识符列表
应用场景
该数据集适用于以下研究任务:
- 化学结构识别:识别和定位化学反应中的分子结构
- 文本信息提取:从化学图中提取文本信息
- 反应条件分析:识别和分析反应条件
- 文档理解:理解科学文献中的化学信息
- 多模态学习:结合视觉和文本信息进行化学分析
数据质量
- 所有图像均来自高质量科学文献
- 标注经过专业验证确保准确性
- 包含各种化学反应类型和复杂度的样本
- 支持细粒度化学信息分析
许可证
该数据集采用知识共享署名-非商业性使用 4.0 国际许可证(CC BY-NC 4.0)。
使用条款
您可以:
- 共享 — 以任何媒介或格式复制和重新分发材料
- 演绎 — 重混、转换和基于材料进行创作
在以下条件下:
- 署名 — 您必须给出适当的署名,提供指向此许可证的链接,并指明是否对原始内容作了更改。您可以用任何合理的方式来署名,但不得以任何方式暗示许可方认可您或您的使用。
- 非商业性使用 — 您不得将本材料用于商业目的。未经许可方明确许可,禁止商业使用。
联系方式
如有问题或建议,请联系:songjiahe@pjlab.org.cn
最后更新:2025年




