SciVQR

Name: SciVQR
Creator: 中国科学院·自动化研究所; 中国科学院大学·人工智能学院; OPPO人工智能中心
Published: 2026-05-11 16:38:22
License: 暂无描述

arXiv2026-05-11 更新2026-05-12 收录

下载链接：

https://github.com/CASIA-IVA-Lab/SciVQR

下载链接

链接失效反馈

官方服务：

资源简介：

SciVQR是由中国科学院自动化研究所等机构构建的多模态科学推理基准数据集，旨在全面评估大语言模型在跨学科复杂场景下的综合推理能力。该数据集包含3,254道精心筛选的题目，涵盖数学、物理、化学、地理、天文和生物六大核心科学领域的54个子学科，题目源自高中至研究生阶段的考试、竞赛及教材，并依据难度划分为三个等级。数据集的构建过程经历了多阶段质量管控，包括原始数据收集、专家标注、图像标准化处理以及自动与人工结合的重复项剔除与分类标注。该数据集主要应用于推动多模态大模型在科学推理领域的发展，通过提供兼具视觉理解与深度推理需求的挑战性任务，旨在解决现有模型在跨学科知识融合与多步骤可追溯推理方面的能力瓶颈。

提供机构：

中国科学院·自动化研究所; 中国科学院大学·人工智能学院; OPPO人工智能中心

创建时间：

2026-05-11

原始信息汇总

数据集概述：SciVQR

SciVQR 是一个多学科多模态基准数据集，旨在评估高级科学推理能力。它覆盖6个核心科学领域：数学、物理学、化学、地理学、天文学和生物学，并包含54个子领域。

核心特点

多模态输入：包含特定领域的图像（如公式、图表、示意图），要求模型结合视觉理解与推理。
任务类型：从基础事实回忆到复杂的多步推理，包含多项选择题和开放式自由回答。
专家解答：约46%的问题附有专家撰写的详细解答过程（solution traces）。
推理评估：除最终答案外，还对思维链（CoT）推理质量进行细粒度评估，涵盖5个维度：忠实度、信息量、冗余度、幻觉和缺失步骤。

数据集规模

总计 3,254 个多模态问题。
46%的问题带有专家编写的解答。

获取方式

数据集托管在 Hugging Face 上，可通过 datasets 库加载： python from datasets import load_dataset dataset = load_dataset("l205/SciVQR", split="train")

评测框架（代码存储在GitHub仓库）

仓库提供三个核心评测脚本：

evaluate_multichoice.py：基于规则和符号等价性评估多项选择题。
evaluate_open.py：使用LLM作为评判员评估开放式问题。
evaluate_reasoning.py：对CoT推理质量进行5维度细粒度评估。

许可协议

数据集采用 MIT 许可证。

背景与目标

现有基准难以捕捉科学推理的复杂性和可追溯性，SciVQR旨在填补这一空白，通过多领域、多模态和多步推理任务，评估多模态大语言模型在科学智能方面的真实水平。

搜集汇总

数据集介绍

构建方式

SciVQR数据集的构建经历了严谨的多阶段流程。首先，研究团队从数学、物理、化学、地理、天文学和生物学六个核心学科中，广泛收集了涵盖54个子领域的科学问题来源，包括高中至研究生水平的考试、教科书及学术竞赛，并优先选取富含图像的资源以确保多模态特性。随后，超过20名研究生依据版权规范进行人工标注，通过OCR技术提取文本并标准化图像为PNG格式，形成约5000个初始问答对。最后，经过低分辨率图像与文本错误过滤、基于词法重叠与莱文斯坦距离的重复剔除，以及借助GPT-4V进行子领域分类并辅以人工复核的三阶段质量控制，最终保留了3254个高质量的科学视觉问答实例，其中45.8%的问题配有专家撰写的详细解题步骤。

特点

SciVQR数据集在科学推理评估领域展现出显著优势。其核心特点在于覆盖了数学、物理学、化学、天文学、地理学和生物学六大基础学科的54个子领域，实现了前所未有的学科广度。在难度设计上，数据集包含了从高中基础到研究生水平的三个难度层级，避免了性能饱和。尤为突出的是，46%的问题附带了专家撰写的详细解题过程，这不仅服务于最终答案的正确性评判，更实现了对模型推理链条忠实性、完整性、信息量及幻觉程度等维度的细粒度分析。此外，数据集包含英文与中文双语问题，支持多语言研究，并涵盖了方程式、图表、化学结构图等多样化的科学图像格式，全面挑战模型的视觉理解与深度推理整合能力。

使用方法

SciVQR数据集主要用于评估多模态大语言模型在科学推理任务上的综合表现。用户可直接从公开的代码仓库下载数据集，在零样本设置下，将图像与文本问题输入模型，要求其生成答案。为深入分析推理过程，数据集支持两种评估模式：一是标准的问答模式，仅评判最终答案的正确性；二是链式思维推理模式，通过对比模型生成的推理步骤与专家提供的标准解题过程，从忠实性、信息量、冗余度、幻觉和缺失步骤五个维度进行多维度打分。数据集支持对模型在不同学科、不同难度层级以及不同语言（中英双语）上的性能进行差异化分析，为理解模型在复杂多模态推理中的优势与局限提供了全面工具。

背景与挑战

背景概述

大型多模态语言模型在科学推理领域的能力评估，已成为人工智能研究的前沿议题。为填补现有基准在学科覆盖、难度层级与推理过程可追溯性方面的空白，中国科学院自动化研究所联合中国科学院大学与OPPO AI中心，于2026年推出了SciVQR这一综合性的多学科多模态科学推理基准。该基准由Longteng Guo、Xuanxu Lin等人主导构建，涵盖数学、物理、化学、地理、天文学、生物学六大核心学科的54个子领域，包含3254道源自高中至研究生水平的考题，其中46%的题目配备了专家撰写的详细解题步骤。SciVQR不仅评价模型的最终答案，更深入分析其推理链的质量，旨在推动多模态大模型向真正科学智能的方向演进。

当前挑战

SciVQR基准所应对的核心挑战，在于多模态科学推理本身的复杂性。首先，领域问题要求模型在跨学科范畴内进行多步推理，例如同时理解分子结构图与化学反应方程式，且数学与物理等学科因依赖定量分析与严谨推导，成为所有模型面临的最大瓶颈。其次，数据集构建过程中遭遇多重困难：需从各国竞赛、教材与考试中筛选视觉信息不可或缺的题目，确保图像与问题的一一对应；在质量控制环节，须借助人工与LLM联合进行图像分辨率核查、文本纠误及基于编辑距离的重复问题剔除，并利用GPT-4V完成初步子领域分类后再由专家逐一校验。这些步骤共同构成了SciVQR作为挑战性基准的坚实基础。

常用场景

经典使用场景

SciVQR最经典的使用场景是作为评估多模态大语言模型（MLLMs）在科学推理能力上的综合性基准。该数据集涵盖了数学、物理、化学、地理、天文学和生物学六大核心科学领域的54个子方向，囊括从基础事实回忆到研究生级别的多步推理问题，并包含方程、图表、化学结构、地质示意图及生物插图等学科特有的视觉素材。研究者通过让模型回答这些视觉化的科学问题，能够系统测试其在细粒度视觉理解、深度学科知识调用以及复杂逻辑推演方面的综合表现。约46%的问题配有专家撰写的详细解答过程，为进一步剖析模型的推理链条提供了不可多得的分析基础。

衍生相关工作

SciVQR的发布催生了一系列具有启发意义的衍生工作。在模型优化层面，研究者借鉴该数据集的难度分层与解答溯源设计，开发出如Visual-RFT和VLM-R1等强调感知-推理协同的强化学习训练框架，显著提升了开源模型在数学和物理等推理密集型学科上的表现。在评估方法论方面，涌现出基于SciVQR的CoT质量自动评分模型，能够依据忠实度和完备性等指标对模型输出的推理过程进行量规式打分，推动评估从答案正确性迈向推理结构保真度的新范式。此外，该数据集还促进了跨学科推理增强技术的探索，例如融合知识图谱和形式逻辑的新架构，以应对SciVQR中需要综合运用多领域知识的复杂问题。

数据集最近研究