RxnBench
收藏Hugging Face2025-09-07 更新2025-09-08 收录
下载链接:
https://huggingface.co/datasets/AI4Industry/RxnBench
下载链接
链接失效反馈官方服务:
资源简介:
RxnBench是一个包含1525个博士学位级别的有机化学反应理解的多项选择题的视觉问答(VQA)基准数据集。该数据集由305个科学图表构成,每个图表都有5个经过专家设计且经过严格审查的问题,涵盖了对有机反应图像的描述、反应内容的提取、分子或Markush结构的识别以及反应机制的确定等多种类型。数据集包含英文和中文两个版本。
创建时间:
2025-09-06
原始信息汇总
RxnBench 数据集概述
数据集基本信息
- 名称:RxnBench
- 任务类型:视觉问答(Visual Question Answering)
- 语言:英语(en)、中文(zh)
- 许可证:MIT
- 标签:化学(chemistry)
数据内容
- 来源:305个来自高影响力OpenAssess期刊的科学图表
- 问题数量:1,525个多项选择题(MCQs)
- 难度级别:博士级有机化学反应理解
- 问题类型:化学反应图像描述、反应内容提取、分子或Markush结构识别、机理确定
数据结构
特征字段
image:图像question:问题文本choices:选项序列answer:答案索引meta_info:元信息结构title:标题journal:期刊名称doi:DOI标识url:URL地址
数据划分
| 划分 | 样本数量 | 数据大小(字节) |
|---|---|---|
| en | 1,525 | 511,040,465.75 |
| zh | 1,525 | 510,708,453.75 |
技术规格
- 下载大小:218,600,714字节
- 数据集大小:1,021,748,919.5字节
基准测试结果
模型性能排名(前五名)
英文版本(RxnBench-En)
- GPT-5-mini(0.9108)
- Gemini-2.5-Pro(0.9095)
- Seed1.5-VL-Think(0.9056)
- GPT o3(0.9056)
- GPT o4 mini(0.9062)
中文版本(RxnBench-Zh)
- Gemini-2.5-Pro(0.9423)
- Seed1.5-VL-Think(0.9161)
- GPT-5-mini(0.9128)
- GPT o3(0.9115)
- GPT o4 mini(0.9075)
基准参考值
- 随机选择准确率:0.2500
- 选择最长答案准确率:英文0.4262,中文0.4525
搜集汇总
数据集介绍

构建方式
在化学信息学领域,RxnBench数据集的构建体现了严谨的科学方法论。该数据集源自305幅选自高影响力OpenAssess期刊的科学图表,由领域专家针对每幅有机化学反应图精心设计五道多项选择题。这些题目经过多轮严格评审与修订,确保其科学准确性与表述清晰度,涵盖反应图像描述、内容提取、分子识别及反应机制推断等多维度认知任务。
特点
作为博士级有机化学反应理解的视觉问答基准,RxnBench具备显著的跨语言与多模态特性。数据集包含1,525道中英文双语题目,每道题均融合图像与文本信息,要求模型同时具备化学视觉解析与语义推理能力。其问题设计深度考察有机化学基础知识、多模态上下文推理及化学逻辑思维,为评估前沿多模态大模型提供了专业且具有挑战性的测试平台。
使用方法
研究者可通过加载标准化的图像-问题-选项-答案四元组进行模型评估。数据集支持端到端的多模态推理测试,用户可输入反应图像与对应问题,通过比对模型输出与标注答案计算准确率。该基准已构建完整中英文双版本评测体系,支持对开源与闭源模型进行跨语言性能对比,为化学人工智能领域的模型优化提供量化依据。
背景与挑战
背景概述
RxnBench作为化学信息学与多模态机器学习交叉领域的前沿数据集,由科研团队于2024年构建,旨在推动有机化学反应图像理解的研究进程。该数据集从高影响力开源期刊中精选305幅科学图表,由领域专家设计1525道博士级多选题,涵盖反应机理解析、分子结构识别及反应内容提取等核心研究问题。其双语版本(英文与中文)的发布为化学视觉问答任务设立了新标准,对促进多模态大语言模型在专业科学领域的应用具有里程碑意义。
当前挑战
该数据集主要挑战在于解决化学视觉问答中专业符号理解与多模态推理的复杂性:需精准解析反应机理图中空间结构、化学键变化及反应条件等隐含信息,同时要求模型具备跨文本与图像的特征融合能力。构建过程中面临专家标注成本高昂、科学图表异构性强(如Markush结构多样性)以及中英双语术语对齐等难题,需通过多轮专家评审确保问题科学性与语言一致性。
常用场景
经典使用场景
在化学信息学与人工智能交叉领域,RxnBench作为视觉问答基准数据集,专门用于评估多模态大语言模型对有机化学反应图像的理解能力。其经典使用场景涵盖博士级有机化学反应的多模态推理,模型需结合反应示意图与文本描述,完成反应机理识别、分子结构解析以及Markush结构识别等复杂任务,有效检验模型在专业领域的视觉-语言协同理解水平。
解决学术问题
该数据集解决了化学人工智能领域中多模态模型缺乏专业领域评估基准的核心问题,为有机化学反应图像的理解提供了标准化测试框架。通过构建高质量的多选题库,它显著推进了模型在化学知识推理、跨模态语义对齐及专业符号识别等方面的研究,填补了专业科学可视化问答评估体系的空白,对促进化学与人工智能的深度融合具有里程碑意义。
衍生相关工作
该数据集的发布催生了一系列经典研究工作,包括多模态化学大模型(如ChemVLP、MolT5等)的性能优化与评估框架创新。基于RxnBench的评测结果,研究者开发了针对化学视觉问答的专用推理模块与注意力机制,并促进了跨语言化学模型(如中英文双语处理模型)的发展,为化学人工智能领域的模型迭代与理论突破提供了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



