ScienceQA

github2022-09-01 更新2025-02-08 收录

下载链接：

https://github.com/lupantech/ScienceQA

下载链接

链接失效反馈

资源简介：

科学问答（ScienceQA）数据集包含21,208条多模态的英语选择题，这些题目来源于中小学科学课程。在这些题目中，有16,864道题目包含了图像，而10,220道题目包含了文本上下文。该数据集通过基于代码评估的方法来评估大型语言模型的科学素养。

The ScienceQA dataset encompasses 21,208 multimodal English multiple-choice questions, sourced from middle and high school science curricula. Among these, 16,864 questions include images, and 10,220 questions contain textual context. The dataset evaluates the scientific literacy of large language models through a code-based assessment method.

提供机构：

University of California et al.

创建时间：

2022-09-01

原始信息汇总

ScienceQA 数据集概述

基本信息

数据集名称: ScienceQA
任务类型: 视觉问答(VQA)、科学推理(Scientific Reasoning)、开放领域(Open-Domain)、多模态(Multi-Modal)
相关论文: Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering
项目页面: https://scienceqa.github.io

数据集特点

数据规模: 测试集包含4,241个完整样本和1,000个迷你样本
多模态特性: 包含文本(TXT)、图像(IMG)等多种模态数据
学科分类: 涵盖自然科学(NAT)、社会科学(SOC)、语言(LAN)等领域
教育分级: 包含G1-6和G7-12两个教育阶段的问题

评估指标

人类表现基准: 88.40%准确率
随机猜测基准: 39.83%准确率
主要评估维度:
- 学科分类准确率(NAT/SOC/LAN)
- 模态类型准确率(TXT/IMG/NO)
- 教育阶段准确率(G1-6/G7-12)

模型表现

当前最佳模型: Mutimodal-T-SciQ_Large (96.18%准确率)
代表性模型:
- MC-CoT_F-Large (94.88%)
- Honeybee (Vicuna-13B) (94.39%)
- LLaVA (GPT-4 judge) (92.53%)

数据集影响力

被引用情况:
- 被Google内部文档引用
- 被50+模型作为基准测试集
- 被HuggingFace、OpenDataLab等平台收录
下载量:
- 2023年3月: 377次(HuggingFace)
- 2023年4月: 1,421次(HuggingFace)

相关资源

交互式排行榜: https://scienceqa.github.io/leaderboard.html
数据集地址:
- HuggingFace
- OpenDataLab

搜集汇总

数据集介绍

构建方式

ScienceQA数据集的构建基于多模态科学问答任务，涵盖了广泛的科学领域问题。该数据集通过整合文本、图像等多种模态信息，结合链式思维（Chain-of-Thought）推理方法，构建了一个包含详细解释的问答对。数据来源包括科学教科书、在线教育资源以及公开的科学问题库，确保了数据的多样性和权威性。每个问题都经过人工标注，确保答案的准确性和解释的合理性。

特点

ScienceQA数据集的特点在于其多模态性和丰富的推理过程。它不仅包含传统的文本问答，还引入了图像信息，使得模型能够处理更为复杂的科学问题。此外，数据集中的每个问题都附带有详细的推理链，帮助模型理解问题的解决过程。这种设计使得ScienceQA成为评估模型在科学推理和解释能力方面的理想基准。数据集的规模较大，涵盖了从小学到高中的科学知识，适用于不同层次的模型评估。

使用方法

使用ScienceQA数据集时，研究人员可以通过加载数据集文件，获取问题、答案以及相关的推理链信息。数据集支持多种模型评估方式，包括零样本学习、少样本学习以及全量微调。用户可以通过HuggingFace Datasets或OpenDataLab等平台轻松访问数据集。此外，数据集还提供了详细的评估脚本和可视化工具，帮助研究人员快速进行模型性能分析和结果对比。通过提交模型结果至官方排行榜，研究人员可以与其他模型进行公平比较。

背景与挑战

背景概述

ScienceQA数据集由加州大学洛杉矶分校（UCLA）的研究团队于2022年创建，旨在推动多模态科学问答领域的研究。该数据集的核心研究问题是通过结合视觉和文本信息，解决复杂的科学问题，并借助“思维链”（Chain-of-Thought）推理方法提升模型的解释能力。ScienceQA的发布标志着科学问答任务从单一模态向多模态推理的转变，为自然语言处理（NLP）和计算机视觉（CV）领域的交叉研究提供了重要支持。该数据集在NeurIPS 2022会议上首次亮相，并迅速成为多模态推理领域的基准数据集之一，推动了诸如GPT-3、GPT-4等大型语言模型在科学问答任务中的应用。

当前挑战

ScienceQA数据集面临的挑战主要体现在两个方面。首先，科学问答任务本身具有高度的复杂性和多样性，涉及物理、化学、生物等多个学科领域，要求模型具备跨学科的知识整合能力。其次，多模态数据的融合与推理是该数据集构建的核心难点，如何有效地结合图像和文本信息以生成准确的答案，仍然是一个未完全解决的难题。此外，数据集的构建过程中，标注高质量的多模态数据需要大量的领域专家参与，这对数据采集和标注工作提出了极高的要求。最后，尽管现有模型在ScienceQA上取得了显著进展，但其推理能力与人类水平仍存在差距，尤其是在处理开放域问题和复杂逻辑推理时，模型的泛化能力仍需进一步提升。

常用场景

经典使用场景

ScienceQA数据集在科学问答领域中被广泛用于评估和提升多模态推理能力。该数据集结合了视觉和文本信息，要求模型通过思维链（Chain-of-Thought）进行复杂的推理，从而回答科学问题。这种多模态推理任务不仅涵盖了自然科学、社会科学和语言学等多个学科，还涉及不同年级的知识水平，使其成为评估模型跨学科理解和推理能力的理想工具。

实际应用

在实际应用中，ScienceQA数据集为科学教育领域的智能化发展提供了重要支持。基于该数据集训练的模型可以用于开发智能辅导系统，帮助学生解答科学问题，提供详细的推理过程。此外，该数据集还可用于构建科学知识库，辅助教师进行教学资源的设计和优化，提升科学教育的效率和质量。

衍生相关工作

ScienceQA数据集衍生了一系列经典的多模态推理研究工作。例如，LLaVA、Chameleon和Multimodal-CoT等模型均基于该数据集进行了创新性研究，显著提升了多模态推理的性能。这些工作不仅在学术界引起了广泛关注，还为工业界的多模态应用提供了技术参考，推动了多模态人工智能领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集