ScienceVQA

Hugging Face2026-02-04 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/luv-oct22/ScienceVQA

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专注于科学图像质量评分和视觉问答（VQA）的数据集。它包含两种配置：SIQA-S用于图像质量评分，SIQA-U用于视觉问答。SIQA-S包含图像路径、感知评分和知识评分等字段，共有8,400个训练样本。SIQA-U包含图像路径、类别、问题、选项、答案、解释等字段，共有104,021个训练样本。数据集适用于科学图像质量评估和视觉问答任务，适用于研究和开发相关领域的模型。数据集采用Apache 2.0许可，属于科学和VQA领域。

创建时间：

2026-02-02

原始信息汇总

ScienceVQA数据集概述

数据集基本信息

名称: ScienceVQA
语言: 英语 (en)
许可证: Apache 2.0
标签: Science, VQA, Image Quality
规模: 1K<n<10K
数据来源: 原始数据集 (original)

数据集结构与配置

数据集包含三个配置。

配置一: SIQA-S

用途: 科学图像质量评分
特征:
- pid: 整型标识符
- image: 图像数据
- image_path: 图像路径字符串
- perception_raing: 感知评分 (浮点型)
- knowledge_rating: 知识评分 (浮点型)
数据划分:
- train: 8,400 个样本，占用空间约 1.49 GB
下载大小: 约 1.71 GB
数据集大小: 约 1.49 GB

配置二: SIQA-U

用途: 科学视觉问答 (VQA)
特征:
- image: 图像数据
- image_path: 图像路径字符串
- class: 类别字符串
- category: 类别字符串
- type: 问题类型字符串
- question: 问题字符串
- option: 选项字符串
- answer: 答案字符串
- explantion: 解释字符串
- difficulty: 难度字符串
- is_wrong: 布尔值
- precision: 精度字符串
数据划分:
- train: 104,021 个样本，占用空间约 25.07 GB
下载大小: 约 22.52 GB
数据集大小: 约 25.07 GB

配置三: default

特征:
- file_name: 图像数据

数据实例示例

评分数据实例 (SIQA-S)

json { "pid": 1, "image": "images/Mathematical Representation/6637_AnnualCrop_2941.jpg", "image_path": "images/Mathematical Representation/6637_AnnualCrop_2941.jpg", "perception_raing": 1.0, "knowledge_rating": 1.0 }

问答数据实例 (SIQA-U)

json { "image": "images/Data Visualization/3161_v4_v5_f67bce80a1a40d81c93fbfaac4df57399a86a3e95f135d83bbbe62d4e8a51553.jpg", "image_path": "images/Data Visualization/3161_v4_v5_f67bce80a1a40d81c93fbfaac4df57399a86a3e95f135d83bbbe62d4e8a51553.jpg", "class": "Data Visualization", "category": "completeness and conciseness", "type": "yes-or-no", "question": "Does the image include units for the axes?", "option": "A. Yes B. No", "answer": "B", "explantion": "The description of bad aspects states the image lacks units for both axes.", "difficulty": "easy", "is_wrong": false }

搜集汇总

数据集介绍

构建方式

在科学可视化与图像理解领域，ScienceVQA数据集的构建体现了严谨的学术方法。该数据集整合了两个核心配置：SIQA-S专注于科学图像的质量评分，通过专家标注为每幅图像赋予感知质量与知识表达两个维度的量化评分；SIQA-U则构建了一个大规模的科学视觉问答集合，其问题设计紧密围绕图像的科学内容，涵盖完整性、简洁性等多个评估维度，并提供了详尽的答案与解释。数据来源于原始科学图像，确保了内容的专业性与权威性。

使用方法

针对科学图像分析与多模态模型评测，ScienceVQA数据集提供了明确的使用路径。研究者可直接加载SIQA-S配置，利用其感知与知识评分字段训练或验证图像质量评估模型；对于视觉问答任务，则可通过SIQA-U配置访问其结构化的问答对，字段如问题、选项、答案及解释为模型训练与可解释性分析提供了完整支持。数据集采用标准图像格式与JSON结构，便于集成至主流深度学习框架进行端到端的实验。

背景与挑战

背景概述

ScienceVQA数据集聚焦于科学图像质量评估与视觉问答领域，其构建旨在应对科学图像理解中的双重挑战。该数据集由研究人员在Apache 2.0许可下发布，包含SIQA-S与SIQA-U两个子集，分别针对图像质量评分与视觉问答任务。科学图像通常承载着复杂的专业信息，如数学表达式、数据可视化图表等，传统视觉问答数据集难以覆盖此类专业内容。ScienceVQA通过整合感知评分与知识评分机制，为科学图像的可解释性分析提供了结构化基准，推动了跨模态人工智能在科研辅助工具中的应用。

当前挑战

ScienceVQA数据集面临的核心挑战在于科学图像的专业性与多样性。科学图像常包含高度抽象的符号系统与领域特定知识，要求模型具备跨学科语义理解能力。数据构建过程中，需平衡图像覆盖范围与标注一致性，例如在数据可视化类别中，需精确界定坐标轴单位缺失等细微缺陷。同时，评分维度中感知评分与知识评分的分离，要求标注者兼具视觉判断与学科知识，增加了标注复杂度与质量控制难度。这些挑战共同指向科学图像理解中语义深度与评估标准化的核心问题。

常用场景

经典使用场景

在科学图像理解领域，ScienceVQA数据集为视觉问答任务提供了丰富资源，其经典使用场景聚焦于评估模型对科学图像内容的理解能力。通过结合图像与自然语言问题，该数据集支持模型训练与测试，涵盖数学表示、数据可视化等多种科学图像类型，促进模型在复杂科学语境下的推理与判断。

解决学术问题

ScienceVQA数据集有效解决了科学图像质量评估与知识推理中的关键学术问题。它通过引入感知评分与知识评分双重维度，为图像质量量化提供了新范式，同时其结构化问答数据助力突破跨模态理解瓶颈，推动视觉语言模型在科学教育、学术出版等领域的理论创新与应用深化。

实际应用

该数据集的实际应用场景广泛涉及科学教育辅助与学术内容审核。在教育领域，可基于其问答机制开发智能辅导系统，帮助学生理解科学图表；在出版行业，则能自动化检测图像内容的完整性与准确性，提升科学传播的可靠性与效率，为高质量科学可视化提供技术支撑。

数据集最近研究