CSVQA
收藏github2025-05-18 更新2025-05-19 收录
下载链接:
https://github.com/csvqa-benchmark/CSVQA
下载链接
链接失效反馈官方服务:
资源简介:
中文STEM视觉问答(CSVQA)基准建立了一个严格的多模态评估框架,专门设计用于量化VLMs中的科学推理能力。CSVQA包含1,378个专家注释的问题,每个问题几乎都配有详细的解释,便于评估思维链推理和进行可解释的错误分析。
The Chinese STEM Visual Question Answering (CSVQA) benchmark establishes a rigorous multimodal evaluation framework specifically designed to quantify the scientific reasoning capabilities of vision-language models (VLMs). CSVQA comprises 1,378 expert-annotated questions, nearly all of which are accompanied by detailed explanations to enable chain-of-thought reasoning evaluation and interpretable error analysis.
创建时间:
2025-05-15
原始信息汇总
CSVQA: 中文科学推理多模态基准数据集
数据集概述
- 名称: CSVQA (Chinese STEM Visual Question Answering)
- 类型: 多模态科学推理评估基准
- 语言: 中文/英文双语
- 规模: 1,378个专家标注的问题
- 领域: STEM跨学科(生物/化学/数学/物理/开放领域)
核心特点
- 多学科覆盖: 要求模型整合跨领域知识和推理策略
- 多模态挑战: 包含14种不同的视觉模态
- 真实场景: 基于实际场景的问题需要领域专业知识
- 解释性: 每个问题配有详细解释,支持思维链评估
数据结构
- 原始格式: TSV文件(含中英文版本)
- 处理工具: 提供TSV转JSONL的转换脚本
- 图像数据: 配套STEM领域图像文件
评估维度
-
学科维度:
- 生物学
- 化学
- 数学
- 物理学
- 开放领域
-
问题类型:
- 视觉+问题(V+Q)
- 纯问题(Q)
- 描述+问题(C+Q)
排行榜表现
- 最佳开源模型: Qwen2.5-VL-72B (38.5%准确率)
- 最佳闭源模型: o1 (49.6%准确率)
- 基准对比: 随机选择准确率5.2%
使用流程
-
数据准备:
- 下载TSV文件
- 转换为JSONL格式
- 配置路径参数
-
评估方法:
- 支持开源/闭源模型评估
- 提供批量推理脚本
- 支持三种问题类型评估
-
结果分析:
- 提供详细错误分析工具
- 生成汇总统计报告(XLSX格式)
相关资源
搜集汇总
数据集介绍

构建方式
CSVQA数据集作为评估视觉语言模型科学推理能力的多模态基准,其构建过程体现了严谨的学术规范。研究团队通过跨学科专家协作,精心设计了涵盖生物、化学、数学、物理等STEM领域的1378道题目,每道题目均配有专业注释和详细解析。数据采集采用多模态融合策略,整合了14种差异显著的视觉模态,包括科学图表、实验装置等专业图像,并通过双重校验机制确保标注质量。题目设计注重现实场景还原,要求模型结合领域知识进行深度推理,而非简单模式识别。
使用方法
使用该数据集需遵循标准化评估流程。首先通过官方提供的tsv_to_jsonl.py脚本将原始数据转换为结构化JSONL格式,支持中英双语版本。评估阶段提供三种模态组合:纯视觉输入、纯文本问题以及图像描述+问题的混合模式。研究人员可调用预置的eval.py脚本,通过调整q_type参数切换评估模式。对于开放性问题,系统集成自动评分模块,采用正则表达式匹配与大型语言模型联合判分策略。分析阶段支持生成细粒度性能报告,包括学科维度准确率、视觉模态适应度等12项指标。
背景与挑战
背景概述
CSVQA(Chinese STEM Visual Question Answering)是由Skywork团队开发的中文多模态基准测试集,专注于评估视觉语言模型(VLMs)在科学推理能力方面的表现。该数据集创建于2025年,涵盖了生物学、化学、数学和物理学等多个STEM学科,包含1,378个专家标注的问题,每个问题均配有详细的解释,旨在促进链式推理的评估和可解释的错误分析。CSVQA的独特之处在于其多学科覆盖、14种不同视觉模态的引入以及基于真实场景的问题设计,为VLMs在复杂科学推理任务中的表现提供了全面的测试平台。
当前挑战
CSVQA面临的挑战主要体现在两个方面:首先,在领域问题解决方面,数据集要求模型具备跨学科知识整合能力,能够处理多样化的视觉模态和复杂的科学推理问题,这对模型的泛化能力和领域适应性提出了极高要求;其次,在数据集构建过程中,如何平衡问题的语言处理负载与推理深度、确保视觉模态的多样性与标注质量,以及生成具有解释性的问题-答案对,均是研究团队需要克服的技术难点。
常用场景
经典使用场景
在视觉语言模型(VLM)的研究领域,CSVQA数据集被广泛用于评估模型在跨学科科学推理任务中的表现。通过涵盖生物学、化学、数学和物理等多个STEM学科,该数据集能够全面测试模型在复杂视觉和语言信息融合方面的能力。研究者通常利用该数据集进行端到端的模型训练和评估,特别是在需要模型结合领域知识进行深度推理的场景中。
解决学术问题
CSVQA数据集有效解决了当前视觉语言模型在科学推理任务中泛化能力不足的问题。其包含的1,378个专家标注问题和14种视觉模态,为研究社区提供了衡量模型跨学科知识迁移能力的标准基准。该数据集通过详细的解释性标注,使得研究者能够深入分析模型在推理链条中的逻辑错误,推动了可解释性人工智能的发展。
实际应用
在教育科技领域,CSVQA数据集为开发智能辅导系统提供了重要支持。基于该数据集训练的模型能够理解复杂的科学图表,并给出专业级的解答,显著提升了在线教育平台的教学质量。在科研辅助场景中,该数据集帮助构建了能够快速解析学术文献中多模态信息的智能工具,加速了科研工作者的文献调研过程。
数据集最近研究
最新研究方向
在视觉语言模型(VLMs)领域,CSVQA数据集作为一项专注于科学推理能力评估的中文多模态基准,正引领着跨学科知识整合与复杂视觉理解的研究浪潮。该数据集通过覆盖生物、化学、数学、物理等多门STEM学科,并引入14种异构视觉模态,为模型在真实场景下的专家级推理能力设定了新的评估维度。当前前沿研究聚焦于三个核心方向:一是探索多模态大模型在跨学科知识迁移中的表现,如InternVL3-78B和Qwen2.5-VL-72B在生物学子任务中展现的领域适应性;二是针对视觉-语言对齐机制的优化,通过对比纯文本输入(q)、视觉问答(v_q)和图文描述联合输入(c_q)三种模态组合的性能差异;三是基于链式思维(chain-of-thought)的可解释性分析,利用数据集提供的专家级答案解析追溯模型逻辑断裂点。这些研究不仅推动了VLMs在复杂科学场景下的实用化进程,也为教育智能化、科研辅助等应用提供了关键技术支撑。
以上内容由遇见数据集搜集并总结生成



