SciVQA

Hugging Face2025-03-29 更新2025-03-30 收录

下载链接：

https://huggingface.co/datasets/katebor/SciVQA

下载链接

链接失效反馈

官方服务：

资源简介：

SciVQA数据集是一个用于科学视觉问答共享任务的数据集，包含从ACL汇编和arXiv上可用的英文科学出版物中提取的3000个真实世界图表图像。这些图表图像是从两个预先存在的数据集ACL-Fig和SciGraphQA中收集的，每个图像都有7个自动注释的问答对，并经过手动验证。数据集总共包含21000个问答对，所有问答对的语言都是英文。数据集分为训练集、验证集和测试集，每个图像都有关联的元数据，包括唯一的实例ID、图像文件名、图表ID、标题文本、图表类型等。

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

SciVQA数据集构建过程体现了跨学科研究的严谨性，其核心素材源自ACL Anthology和arXiv两大权威学术平台的科学文献插图。研究团队通过系统化采集ACL-Fig和SciGraphQA现有数据集中的3000幅科研图表，采用Gemini 1.5-flash模型进行自动化标注，每幅图像生成7组问答对后，再由计算语言学背景的研究生进行人工校验，最终形成包含21000组QA对的标准化语料库。数据构建过程中严格遵循学术规范，对每幅图表配套14项结构化元数据，包括图表类型、复合特征、问题分类等关键维度。

使用方法

研究者可通过解压图像压缩包并加载对应JSON元数据文件快速构建多模态输入管道。数据集采用标准化的任务配置，支持视觉问答任务的端到端训练，其中问题类型标签可用于构建多任务学习框架。验证集特别适用于评估模型对科研图表中视觉元素与文本信息的关联理解能力。对于进阶研究，建议利用figure_type和compound等元数据字段进行样本筛选或分层评估，arxiv分类字段则支持学科特异性分析。测试集暂未发布的设计为后续举办学术竞赛留有空间。

背景与挑战

背景概述

SciVQA数据集是专为科学视觉问答（Visual Question Answering, VQA）任务设计的语料库，由学术文档处理领域的权威机构在2025年发布。该数据集整合了来自ACL Anthology和arXiv的3000幅科学文献图表，并基于Gemini 1.5-flash模型自动生成21000个问答对，经计算语言学背景的研究生人工校验。其核心研究目标是推动多模态推理技术在学术图表理解中的应用，通过融合视觉元素与文本信息，解决科学文献中复杂图表的结构化解析难题。该数据集作为ACL 2025 Scholarly Document Processing workshop的基准任务，为跨模态表示学习领域提供了重要的评估框架。

当前挑战

SciVQA面临的领域挑战主要集中在科学图表的多模态语义理解上，包括对复合图表中嵌套子图的关联推理、非标准可视化形式（如箱线图、混淆矩阵）的跨模态对齐，以及开放域问答中的逻辑一致性验证。数据构建过程中需克服标注复杂性，例如处理图表类型多样性导致的标注范式差异，平衡自动生成问答对与人工校验的效率矛盾，以及确保视觉属性（颜色、方向等）与文本描述的精确映射。测试集暂未公开的设计也增加了模型泛化能力评估的不确定性。

常用场景

经典使用场景

在科学文献处理领域，SciVQA数据集为视觉问答任务提供了丰富的实验材料。该数据集包含从ACL Anthology和arXiv中提取的3000张真实科学图表，每张图表配有7个经过人工验证的问答对，总计21000个样本。研究者通过该数据集可训练模型理解图表中的视觉信息与文本信息的关联性，尤其适用于多模态学习场景下的模型性能评估。

解决学术问题

SciVQA有效解决了科学图表理解中的关键挑战，包括跨模态语义对齐、复杂图表结构解析以及专业领域知识融合等问题。通过标注体系区分封闭式/开放式问题、可回答/不可回答问题等类型，该数据集为评估模型在科学场景下的细粒度推理能力提供了标准化基准，推动了文档智能领域的研究进展。

实际应用

该数据集已成功应用于学术搜索引擎增强、科研辅助系统开发等实际场景。基于SciVQA训练的模型可自动解析论文图表内容，为研究者提供精准的图表问答服务。在科学知识图谱构建中，这些模型能有效提取图表中的结构化数据，显著提升学术文献的机器可读性。

数据集最近研究