SpecVQA

Name: SpecVQA
Creator: DP Technology
Published: 2026-04-30 23:51:10
License: 暂无描述

arXiv2026-04-30 更新2026-05-02 收录

下载链接：

https://huggingface.co/datasets/UniParser/SpecVQA

下载链接

链接失效反馈

官方服务：

资源简介：

SpecVQA是由DP Technology团队构建的专业科学光谱视觉问答基准数据集，涵盖核磁共振（NMR）、红外光谱（IR）等7类代表性光谱类型，包含从同行评议文献中精选的620张图表及3100组专家标注的问答对。该数据集通过自适应采样和插值重建技术优化高密度光谱数据的token效率，支持多模态大模型在科学光谱理解任务中的评估，涉及直接信息提取和领域知识推理两大应用场景，为科学图像分析与跨模态推理研究提供了标准化测试平台。

提供机构：

DP Technology

创建时间：

2026-04-30

原始信息汇总

SpecVQA：科学图像频谱理解与视觉问答基准数据集

数据集概述

SpecVQA 是一个专注于科学图像中频谱理解与视觉问答（VQA）的专家精选基准数据集，旨在评估多模态大语言模型（MLLMs）在科学频谱解释中的关键失败模式。

数据集规模

光谱图像数量：620 张，从 2 万张候选图中由博士团队专家手工筛选
问答对数量：3,100 对，每张图由领域专家设计 5 个问答对
语言版本：中文版和英文版

涵盖的频谱类型（7种）

频谱类型	全称
NMR	核磁共振波谱
IR	红外吸收光谱
XRD	X射线衍射谱
Raman	拉曼光谱
MS	质谱
UV-Vis	紫外-可见分光光谱
XPS	X射线光电子能谱

问答任务分类

类别1（L0）：描述性问题

信息提取：提取标题、标签、图例、x/y轴信息
数值定位：定位最大值/最小值点、峰值位置或范围
模式识别：识别满足特定条件的实体
布局理解：分析多面板子图
分类：对特征（如峰形）进行分类

类别2（L1）：推理问题

比较：比较多个实体并得出结论
计数：确定满足特定条件的元素数量
计算：对图中数据进行计算
趋势分析：预测峰形或趋势变化
因果分析：分析图中反映的科学问题

评估方法

任务类型：视觉问答（VQA）
评估方式：GPT-o4-mini 作为裁判，将模型预测与真实答案进行评分
容错机制：数值答案允许 5% 的误差范围
性能指标：准确率（Accuracy）

排行榜（Top 10）

排名	模型	Think	权重	英文平均	中文平均	总体
1	Gemini-3-Flash-Preview	√	Proprietary	0.7771	0.7974	0.7872
2	Gemini-3-Pro-Preview	√	Proprietary	0.7739	0.7835	0.7787
3	Gemini-2.5-Pro	√	Proprietary	0.7565	0.7664	0.7615
4	Gemini-2.5-Flash	√	Proprietary	0.7219	0.7329	0.7274
5	GPT-5(high)	√	Proprietary	0.6988	0.7131	0.7059
6	GPT-o4mini	√	Proprietary	0.6990	0.7117	0.7054
7	GPT-5(medium)	√	Proprietary	0.6950	0.7127	0.7039
8	GPT-o3	√	Proprietary	0.7026	0.7035	0.7031
9	GPT-5(low)	√	Proprietary	0.6897	0.7026	0.6961
10	GPT-5.1	×	Proprietary	0.6561	0.6594	0.6578

许可协议

许可证：CC-BY-NC-4.0（非商业性使用）
任务类别：视觉问答（visual-question-answering）
语言：中文（zh）、英文（en）

搜集汇总

数据集介绍

构建方式

在科学图像理解领域，光谱图作为一种信息密集型的非结构化数据，对多模态大模型构成了独特挑战。为填补现有基准在科学光谱推理评估上的空白，SpecVQA数据集应运而生。其构建遵循严谨的多阶段流程：首先，从高被引的同行评议期刊及开放获取文献中自动化获取图文对，通过关键词匹配与文献来源交叉验证，确保数据权威性与领域覆盖面；随后，经由领域专家主导的半自动筛选与正则化方法，从60,000个图文对中精选出20,000个高质量光谱-标签对，并以此为基础，进一步由专家团队手工甄别出620幅具有代表性的光谱图像；最终，结合大模型蒸馏与专家人工重标注，针对每幅图像生成并精炼5个问答对，形成3,100个高质量问答对，涵盖描述性与推理性两类认知层级。

特点

SpecVQA数据集的特点鲜明而深刻。其核心在于聚焦于七种科学分析中最为关键的光谱类型，包括核磁共振、红外吸收光谱、X射线衍射等，确保评估结果直接关联实际科研需求。不同于仅关注图像元素提取的通用视觉问答基准，SpecVQA要求模型不仅具备精确的数值读取能力，如准确定位峰位与积分面积，更需掌握深厚的领域知识以完成机理推理，如解析光谱指纹与化学环境的对应关系。此外，数据集在构建中刻意纳入了低分辨率图像，以模拟真实应用场景下的视觉鲁棒性挑战。尤为突出的是，它首创性地引入了底层任务评估，通过自适应采样与插值重建策略大幅压缩表征光谱曲线的token长度，为多模态大模型高效处理高密度科学数据开辟了新路径。

使用方法

使用SpecVQA评估多模态大模型时，研究者可遵循明确且结构化的流程。该基准包含两大部分：科学视觉问答任务与底层图谱重建任务。在问答任务中，模型需基于光谱图像视觉特征与内嵌领域知识，回答区分描述性与推理性两个层级的开放性问题，答案形式为数字或短语，由GPT-o4-mini依据预设容差（5个百分点）进行自动化评分。底层任务则要求模型从复合可视化图像中精准定位子图，并以严格的有序坐标对格式（如<line>x1,y1],[x2,y2...</line>）抽取出高密度的光谱曲线数据点。对于微调应用，论文提供了完整的监督微调参数配置建议，包括冻结视觉塔与多模态投影器以保持预训练表征鲁棒性，并推荐使用完整的SpecVQA训练集（含20,000张图像的底层数据及问答对）对如Qwen3-VL-4B等轻量级骨干网络进行领域适配，以验证所提采样策略的有效性。

背景与挑战

背景概述

光谱图像作为科学研究中普遍存在且信息密度极高的视觉数据形式，在化学、材料学及物理学等领域承载着关键的实验证据。然而，当前主流多模态大语言模型在处理这类具有非结构化、领域特异性特征的科学图像时，表现出显著的局限性。为系统评估与推动模型在科学光谱理解方面的能力，由DP Technology的Jialu Shen、Han Lyu等研究团队于2026年构建了SpecVQA基准数据集。该数据集从同行评审文献中精心筛选出620张涵盖七种代表性光谱类型（如NMR、IR、XRD等）的图片，并配以3100对专家标注的问答对，旨在评估模型在直接信息提取与领域特定推理两个层面的表现，为多模态模型向专业科学分析领域拓展奠定了重要基准。

当前挑战

SpecVQA所聚焦的挑战涵盖两个层面。在领域问题层面，现有MLLMs在科学光谱理解中存在三项核心缺陷：一是细微特征定位失准，难以准确辨识杂质峰、化学位移等细节；二是定量提取不精确，在读取轴数值、积分比与吸收波长等关键指标时频现差错；三是机理推理存在逻辑漏洞，连接视觉证据与科学原理时易于产生错误的结构推断或相鉴定。在基准构建过程中，研究团队面临的数据挑战同样严峻：高分辨率光谱曲线包含数千数据点，直接处理将导致大量token占用以致计算负担过重或序列截断；为此，团队提出自适应关键点采样与插值重建策略，在保持曲线科学保真度的前提下将视觉token长度压缩至原始数据的6.7%，有效缓解了长序列瓶颈。

常用场景

经典使用场景

在科学图像理解与视觉问答领域，SpecVQA被设计为一个专业化的基准，用于评估多模态大语言模型在科学谱图上的性能。其最经典的使用场景是作为评测平台，检验模型对七类核心科学谱图——涵盖核磁共振、红外吸收光谱、X射线衍射、拉曼光谱、质谱、紫外-可见光谱及X射线光电子能谱——的视觉理解与知识驱动的推理能力。研究者通过该数据集中的描述性与推理性问答对，系统性地考察模型在精细特征定位、数值定量提取以及科学机理逻辑推断等维度的表现，为多模态模型在专业科学图像分析领域的进展测量提供了不可或缺的标尺。

解决学术问题

SpecVQA直面当前多模态大语言模型在处理高密度、非结构化科学谱图时暴露的三大核心学术挑战：精细特征误定位、定量数值提取失准以及科学机理推理缺陷。此前通用视觉问答数据集与图表问答基准主要关注日常场景或低密度离散点的数据检索，无法诊断模型在谱图理解中的深层局限。该数据集通过620张来自同行评议文献的高质量谱图及3100个专家注释问答对，构建起一个定量评估框架，填补了从直观信息抽取到领域特定推理的能力评估空白，促使研究社区向构建真正具备谱图专家级视觉智能的多模态系统迈进。

衍生相关工作

SpecVQA的提出催生了一系列值得关注的衍生研究工作。在其底层曲线重建子任务中，研究者开发了高效数据采样与插值重建策略，通过自适应关键点采样结合Savitzky–Golay滤波与Ramer–Douglas–Peucker算法，将高密度谱图的数据点压缩至原始规模的6.7%，同时保持近乎完美的几何保真度。这一技术直接缓解了长序列数据导致的大模型显存与截断瓶颈，使得基于谱图的微调变得切实可行。此外，该基准还激发了跨模态模型针对科学曲线特征的专门优化，将来自图表数据提取的传统方法如ChartOCR与Plot2Spectra扩展至更为复杂的嵌入式子谱图场景，推动科学视觉语言建模走向专业化、高精度化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集