RxnCaption-11k
收藏arXiv2025-11-04 更新2025-11-19 收录
下载链接:
https://hf-mirror.com/datasets/songjhPKU/RxnCaption-11k
下载链接
链接失效反馈官方服务:
资源简介:
RxnCaption-11k数据集是由上海人工智能实验室创建的,用于化学反应图解析的大规模数据集。该数据集由真实文献中的化学反应图组成,数据集包含24716个化学反应。数据集通过先进的分子检测器MolYOLO进行标注,包括分子边界框和索引。RxnCaption-11k数据集比之前的真实世界文献基准数据集大一个数量级,并具有四个布局原型平衡的测试子集。
提供机构:
上海人工智能实验室 Shanghai Artificial Intelligence Laboratory
创建时间:
2025-11-04
搜集汇总
数据集介绍

构建方式
在化学信息学领域,面对大量非结构化反应图像数据难以直接用于机器学习训练的挑战,RxnCaption-11k数据集通过系统化的构建流程实现了高质量标注。该数据集从约3000篇有机化学文献中提取图表级图像,采用四阶段标注流程:首先基于专业标注的21.9万个分子边界框完成结构标注,继而通过不规则多边形标注每个化学反应区域,随后按照RxnScribe规范对反应组分进行角色标注,最终结合Gemini-2.5 Pro的OCR技术与人工校验实现文本内容提取。这种多模态标注策略确保了数据集在保持真实文献来源的同时,具备机器可读的标准化特征。
特点
作为当前最大规模的实景化学反应图解解析数据集,RxnCaption-11k展现出显著的规模优势与质量特征。其包含10,112张训练图像和24,716个化学反应,体量达到同类数据集的十倍规模,有效解决了传统数据稀缺问题。数据集涵盖单线型、多线型、树状和环状四种典型反应布局,通过均衡采样策略避免了类别偏差。t-SNE可视化分析表明,该数据集与真实文献数据分布高度契合,而合成数据集则存在明显域偏移,这种真实性保障了模型在真实场景中的泛化能力,为化学反应解析研究提供了可靠的基准平台。
使用方法
该数据集专为视觉语言模型在化学反应解析任务上的训练与评估设计。使用时首先通过专用分子检测器MolYOLO对输入图像进行分子边界框与索引标注,生成预标注图像作为视觉提示。随后将标注后的图像输入大型视觉语言模型,引导模型通过自然语言描述完成反应解析任务。模型需要输出包含反应物、条件和产物的结构化JSON数据,其中分子组件通过索引引用,文本组件直接提取内容。这种基于视觉提示的引导策略充分发挥了语言模型的核心能力,使化学反应解析转化为图像描述任务,显著提升了结构化信息提取的准确性与效率。
背景与挑战
背景概述
RxnCaption-11k数据集由上海人工智能实验室联合多所高校于2025年提出,旨在解决化学文献中反应图像数据难以被机器学习模型解析的瓶颈问题。该数据集聚焦于化学反应图解析任务,通过将传统坐标预测驱动的解析过程重构为视觉提示引导的图像描述任务,显著提升了大型视觉语言模型在化学信息提取中的性能。作为当前规模最大的真实文献反应图数据集,其数据量较先前基准提升了一个数量级,为化学人工智能研究提供了关键的数据支撑。
当前挑战
该数据集面临的挑战主要体现在领域问题与构建过程两个维度。在领域层面,化学反应图解析需克服分子结构检测、反应角色分配与空间关系理解的复杂性,同时需处理文本与图像模态的异构信息融合。构建过程中,真实文献图像的布局多样性、标注一致性以及大规模高质量数据的采集与验证成为主要难点,特别是针对树状与环状反应布局的平衡采样与精准标注需要专业化学知识的深度参与。
常用场景
经典使用场景
在化学信息学领域,RxnCaption-11k数据集为反应图解析任务提供了大规模真实文献标注基准。其最经典的应用场景在于训练和评估视觉语言模型对化学反应图像的结构化解析能力,通过将分子检测与自然语言描述相结合,模型能够从复杂的科学图表中精确提取反应物、条件和产物等关键成分。
实际应用
在实际应用层面,RxnCaption-11k支撑的解析技术已广泛应用于药物研发与材料科学领域。制药企业通过自动化提取海量文献中的反应路径,加速了化合物合成路线的设计与优化;学术机构则利用其构建可检索的化学反应数据库,显著提升了科研数据再利用效率,为智能实验室系统的开发奠定了数据基础。
衍生相关工作
基于该数据集衍生的经典工作包括分子检测模型MolYOLO的优化与多模态框架RxnCaption-VL的开发。这些成果进一步催生了跨模态化学知识提取的研究方向,例如将反应解析与逆合成分析相结合的综合系统,以及面向复杂反应网络的自动化推理平台,持续拓展着人工智能在化学领域的应用边界。
以上内容由遇见数据集搜集并总结生成



