CSVQA
收藏github2025-06-06 更新2025-06-07 收录
下载链接:
https://github.com/SkyworkAI/CSVQA
下载链接
链接失效反馈官方服务:
资源简介:
中文STEM视觉问答(CSVQA)基准建立了一个严格的多模态评估框架,专门设计用于量化视觉语言模型中的科学推理能力。CSVQA包含1,378个专家标注的问题,每个问题平均长度适中,平衡了语言处理负载和推理深度。几乎每个问题都配有详细的解释,便于评估思维链推理和进行可解释的错误分析。
The Chinese STEM Visual Question Answering (CSVQA) benchmark establishes a rigorous multimodal evaluation framework specifically designed to quantify the scientific reasoning capabilities in vision-language models. CSVQA consists of 1,378 expert-annotated questions, each with a moderate average length that balances the language processing load and reasoning depth. Nearly every question is accompanied by detailed explanations, facilitating the evaluation of Chain-of-Thought reasoning and interpretable error analysis.
创建时间:
2025-06-06
原始信息汇总
CSVQA: 中文多模态科学推理能力评估基准
数据集概述
- 全称:Chinese STEM Visual Question Answering (CSVQA)
- 目标:评估视觉语言模型(VLMs)的科学推理能力
- 特点:
- 覆盖多个STEM学科(生物、化学、数学、物理)
- 包含14种不同的视觉模态
- 基于真实场景的问题设计
- 需要领域专业知识进行推理
数据集统计
- 问题数量:1,378个专家标注问题
- 语言版本:中文和英文
- 附加信息:大多数问题配有详细解释
评估维度
- 学科分类:
- 生物学
- 化学
- 数学
- 物理学
- 问题类型:
- 视觉+问题(V+Q)
- 纯问题(Q)
- 描述+问题(C+Q)
排行榜表现
- 最佳开源模型:
- Qwen2.5-VL-72B (总体准确率38.5%)
- 最佳闭源模型:
- o1 (总体准确率49.6%)
数据格式
- 原始格式:TSV文件
- 处理工具:提供TSV转JSONL的转换脚本
- 图像存储:单独目录存储
评估流程
-
数据准备:
- 下载原始TSV文件
- 转换为JSONL格式
- 生成图像描述(可选)
-
模型评估:
- 支持开源和闭源模型
- 批量推理加速
- 支持三种问题类型
-
结果分析:
- 自动生成分析报告
- 支持结果汇总(XLSX格式)
引用信息
bibtex @misc{jian2025csvqachinesemultimodalbenchmark, title={CSVQA: A Chinese Multimodal Benchmark for Evaluating STEM Reasoning Capabilities of VLMs}, author={Ai Jian and Weijie Qiu and Xiaokun Wang and Peiyu Wang and Yunzhuo Hao and Jiangbo Pei and Yichen Wei and Yi Peng and Xuchen Song}, year={2025}, eprint={2505.24120}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.24120}, }
搜集汇总
数据集介绍

构建方式
CSVQA数据集通过跨学科专家团队精心构建,涵盖生物、化学、数学、物理等多个STEM领域。数据采集过程采用严格的标注流程,由专业研究人员对1378个问题进行人工校验与注释,确保问题质量与学科准确性。每个问题均配有多模态视觉素材,包含14种差异化视觉模态,并通过TSV文件格式实现结构化存储,同时提供中英双语版本以支持跨语言研究。
特点
该数据集以多模态科学推理为核心特色,其问题设计深度融合真实场景与学科知识,要求模型具备跨模态理解和专业领域推理能力。数据集中每个问题均附有详细解析,支持思维链分析,为模型错误归因提供可解释性依据。独特的视觉模态多样性(涵盖图表、公式、实验装置等14类)和学科平衡性(四大STEM领域均匀分布),使其成为评估视觉语言模型科学素养的权威基准。
使用方法
研究者可通过HuggingFace平台获取原始TSV文件,利用提供的Python脚本转换为JSONL格式。评估流程支持三种输入模式:纯文本问题、视觉-问题联合输入及图像描述-问题组合输入。使用config.py配置文件灵活设置模型路径与参数后,运行eval.py即可进行批量推理。分析模块提供transformer和vllm两种加速方案,支持自动生成xlsx格式的详细评估报告,涵盖不同学科和问题类型的性能分析。
背景与挑战
背景概述
CSVQA是由上海人工智能实验室联合商汤科技等机构于2025年推出的中文多模态基准测试数据集,旨在系统评估视觉语言模型(VLMs)在科学推理任务上的表现。该数据集聚焦STEM(科学、技术、工程、数学)领域,涵盖生物学、化学、物理学和数学等多学科知识,包含1,378道专家标注的视觉问答题目。通过融合14种不同视觉模态和真实场景问题,CSVQA突破了传统单模态评估的局限,为中文语境下的多模态模型能力评估提供了重要基准。其特色在于每道题目均附有详细解析,支持思维链推理分析,推动了可解释性人工智能研究的发展。
当前挑战
CSVQA面临的核心挑战体现在三个方面:跨学科知识融合要求模型同时掌握多种STEM领域的专业概念和推理逻辑,现有模型在生物学图表解析与数学公式推导等任务中表现差异显著;多模态异构数据处理涉及图表、分子结构等14类视觉模态的联合理解,模型需克服图像结构差异带来的特征提取难题;真实场景应用性问题的解决依赖深度领域知识,如物理实验现象分析需要超越表面特征的因果推理能力。数据构建过程中,专业标注的准确性保障、中英文双语对齐的语义一致性维护,以及视觉-文本对的质量控制构成了主要技术挑战。
常用场景
经典使用场景
在视觉语言模型(VLMs)的评估与优化研究中,CSVQA数据集作为一项跨学科的多模态基准测试工具,被广泛用于衡量模型在生物、化学、数学及物理等STEM领域的科学推理能力。其独特之处在于融合了14种视觉模态与真实场景问题,要求模型不仅解析图像内容,还需结合领域知识进行深度逻辑推理。研究者通过该数据集可系统评估模型处理复杂图文交互任务时的表现,尤其在链式思维推理和跨模态理解方面具有显著优势。
解决学术问题
CSVQA有效解决了多模态模型评估中学科覆盖单一、视觉模态局限性的核心问题。通过专家标注的1,378个问题及其详细解释,该数据集为分析模型在专业领域的知识缺口与逻辑缺陷提供了标准化依据。其构建的三大挑战——多学科知识整合、异构视觉模态泛化、真实场景专家级推理,填补了现有基准在科学认知深度评估上的空白,推动了视觉语言模型从表层特征匹配向深层语义理解的理论突破。
衍生相关工作
围绕CSVQA衍生的研究显著推进了多模态模型的架构创新,如InternVL3-78B和Qwen2.5-VL-72B等先进模型通过该基准验证了其跨模态推理优势。相关成果发表在CVPR、NeurIPS等顶会,包括视觉编码器优化、知识增强的推理框架设计等方向。数据集构建方法还启发了CLEVR-Science、MathVista等后续基准的创建,形成了STEM多模态评估的标准范式。
以上内容由遇见数据集搜集并总结生成



