RxnBench-Doc

Hugging Face2025-12-08 更新2025-12-09 收录

下载链接：

https://huggingface.co/datasets/UniParser/RxnBench-Doc

下载链接

链接失效反馈

官方服务：

资源简介：

RxnBench-Doc是一个用于评估化学文献多模态理解的基准数据集，包含540个多选问题，旨在测试博士级别的有机化学反应理解能力。这些问题经过多轮专家评审，确保清晰性、一致性和科学严谨性。数据集涵盖两种主要任务类型：上下文推理（需要整合来自反应图像、表格和文本的多模态信息）和结构推理（专注于分子和Markush结构、反应组分及机理推理相关问题）。数据集提供英文和中文版本，评估方法包括将PDF文档渲染为图像序列，并使用多模态大语言模型（MLLM）进行答案提取和比较。

创建时间：

2025-11-24

原始信息汇总

RxnBench-Doc 数据集概述

数据集基本信息

数据集名称: RxnBench-Doc
发布方: UniParser
许可证: CC BY-NC-SA 4.0
任务类别: 视觉问答
支持语言: 英语、中文
标签: 化学

数据集内容与结构

数据描述: RxnBench-Doc 是一个文档级问答基准，包含540个多项选择题，旨在评估对有机化学反应文本和多模态背景的博士级理解。所有问题均经过多轮专家评审，以确保清晰性、一致性和科学严谨性。
版本: 提供英文和中文版本。
数据文件:
- 英文版本: rxnbench_doc.en.jsonl
- 中文版本: rxnbench_doc.zh.jsonl

任务类型

上下文推理: 需要整合来自多模态源（如反应图像、表格和文本）的信息来回答问题。
结构推理: 专注于与分子和Markush结构、反应组分及机理推理相关的问题。

评估方法

输入处理: 将PDF格式文档以144 dpi渲染为图像序列，作为多模态大模型的输入。问题中的 <answer> 标签作为占位符，被 images 列表中的相应图像替换，形成交错的视觉-语言提示。
答案提取: 使用GPT-4o从模型的原始输出中提取最终的多项选择答案（A–E），并将“None of the above”等陈述映射到选项E。
评分标准: 将提取的答案与真实答案进行比较，任何缺失或多余的选择均计为错误。报告英文和中文版本的绝对准确率。
代码仓库: https://github.com/uni-parser/RxnBench

基准排行榜

排行榜展示了多个模型在RxnBench-Doc英文版、中文版、上下文推理（英文）和结构推理（英文）任务上的表现，并计算了总体得分。表现最佳的模型包括Gemini-3-Pro-preview和Gemini-2.5-Pro。

引用

相关论文即将发布。

搜集汇总

数据集介绍

构建方式

在有机化学文献理解领域，RxnBench-Doc数据集通过精心设计的流程构建而成。其核心包含540道博士级别的多项选择题，这些问题均源自真实的化学文献文档，并融合了文本、反应图像、表格及分子结构等多模态信息。为确保科学严谨性，所有题目均经过多轮专家评审，以验证其清晰度、一致性与学术深度。数据集最终以英文和中文双语版本发布，分别存储为结构化的JSONL文件，为后续评估提供了标准化的基础。

特点

该数据集显著特点在于其深度结合了化学领域的多模态理解需求。题目设计涵盖上下文推理与结构推理两大类型，前者要求模型综合文本、图像与表格信息进行推断，后者则专注于分子结构、Markush结构及反应机理的逻辑分析。数据集以高分辨率图像序列呈现原始文献，模拟真实科研场景中的文档阅读过程，并通过严格的评估机制，如使用GPT-4o解析模型输出并与标准答案比对，确保了评测结果的可靠性与可比性。

使用方法

使用RxnBench-Doc时，研究者需将化学文献PDF渲染为144 DPI的图像序列，作为多模态大模型的视觉输入。问题中的`<answer>`标签会被对应图像替换，形成交错排列的视觉-语言提示。模型生成答案后，通过自动化流程提取多项选择选项（A至E），并与标注的真实答案进行对比，任何缺失或多余的选择均被视为错误。最终可计算英文与中文版本各自的绝对准确率，从而系统评估模型在复杂化学文献理解任务上的性能。

背景与挑战

背景概述

在化学信息学与人工智能交叉领域，对专业文献的深度理解长期面临挑战。RxnBench-Doc数据集由UniParser团队创建，旨在评估模型对有机化学反应文献的多模态理解能力。该数据集包含540个博士级多选问题，涵盖文本与图像等多种模态，经过多轮专家评审以确保科学严谨性。其核心研究问题聚焦于文档级问答，推动大语言模型在复杂科学推理任务中的应用，对化学教育、药物研发及自动化文献分析等领域具有显著影响力。

当前挑战

该数据集致力于解决化学文献多模态理解这一核心领域问题，其挑战在于模型需整合反应图像、表格与文本等异构信息进行上下文推理与结构推理，这对模型的跨模态对齐与专业知识泛化能力提出极高要求。在构建过程中，挑战主要来自确保问题的科学准确性与清晰度，需经过多轮专家评审以消除歧义；同时，将PDF文档渲染为图像序列并构建中英文双语版本，涉及数据处理的一致性与跨语言对齐的复杂性，这些因素共同构成了数据集构建的技术壁垒。

常用场景

经典使用场景

在化学信息学与人工智能交叉领域，RxnBench-Doc数据集为评估多模态大语言模型在复杂科学文献理解上的能力提供了基准。其经典使用场景聚焦于文档级问答任务，要求模型整合有机化学反应文献中的文本、图像、表格及分子结构等多模态信息，以回答具有博士水平深度的多选问题。该场景模拟了化学研究者从学术论文中提取关键知识并进行推理的实际过程，对模型在跨模态语义融合与高层次科学推理方面提出了严峻挑战。

衍生相关工作

围绕RxnBench-Doc数据集，已衍生出一系列专注于化学多模态理解的经典研究工作。例如，与其配套的RxnVQA基准专注于单张反应图像的可视问答，形成了从微观到宏观的评估体系。众多研究团队利用该数据集对Gemini、GPT、Qwen等前沿模型进行了系统性评测，相关成果推动了模型架构的改进，特别是在增强化学领域先验知识注入与跨模态对齐方面。这些工作共同构筑了化学文档智能理解的研究脉络。

数据集最近研究