TheMrguiller/ScienceQA

Name: TheMrguiller/ScienceQA
Creator: TheMrguiller
Published: 2023-08-24 11:34:13
License: 暂无描述

Hugging Face2023-08-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TheMrguiller/ScienceQA

下载链接

链接失效反馈

官方服务：

资源简介：

ScienceQA数据集是从小学和高中科学课程中收集的，包含21,208个多模态多选科学问题。其中，10,332个问题（48.7%）包含图像上下文，10,220个问题（48.2%）包含文本上下文，6,532个问题（30.8%）同时包含两者。大多数问题都附有基础讲座（83.9%）和详细解释（90.5%），这些讲座和解释提供了正确答案的一般外部知识和具体原因。ScienceQA是首个大规模多模态数据集，为答案提供了讲座和解释的标注。该数据集涵盖了自然科学、语言科学和社会科学三个领域的丰富多样性，并根据主题、类别和技能进行了详细分类。

The ScienceQA dataset is collected from primary and high school science curricula, consisting of 21,208 multimodal multiple-choice science questions. Of these, 10,332 questions (48.7%) incorporate image contexts, 10,220 questions (48.2%) contain text contexts, and 6,532 questions (30.8%) include both image and text contexts. Most questions are accompanied by foundational lectures (83.9%) and detailed explanations (90.5%), which provide general external knowledge and specific justifications for the correct answers. ScienceQA is the first large-scale multimodal dataset with annotated lectures and explanations for each answer. This dataset covers rich diversity across three domains: natural sciences, linguistic sciences, and social sciences, and is meticulously categorized based on topics, categories and skills.

提供机构：

TheMrguiller

原始信息汇总

数据集概述

数据集名称

名称: ScienceQA

数据集描述

概述: ScienceQA包含21,208个多模态多选科学问题，来源于小学和高中科学课程。其中10,332个问题（48.7%）包含图像上下文，10,220个问题（48.2%）包含文本上下文，6,532个问题（30.8%）同时包含两者。大多数问题附有基础讲座（83.9%）和详细解释（90.5%）。
特点: 数据集首次大规模注释了答案的讲座和解释，涵盖自然科学、语言科学和社会科学三个领域，具有26个主题、127个类别和379个技能。

数据集结构

数据字段:
- image: 图像上下文
- question: 问题
- choices: 多选选项
- answer: 答案
- solution: 解决方案的思考过程
- CTH: 是否包含思考过程的标志
数据分割:
- train: 16,966个样本
- test: 4,242个样本

任务与语言

任务类别:
- 问答
- 视觉问答
语言: 英语

数据集大小

大小类别: 100B<n<1T

搜集汇总

数据集介绍

构建方式

TheMrguiller/ScienceQA数据集的构建，旨在从小学和中学的科学课程中收集多模态选择题，涵盖自然科学、语言科学和社会科学三大领域。数据集包含了21,208个问题，其中10,332个问题带有图像背景，10,220个问题带有文本背景，6,532个问题同时包含图像和文本背景。每个问题都附有 grounded lectures 和 detailed explanations 的注释，分别为正确答案提供一般性的外部知识和具体理由。数据集分为训练集和测试集，分别占总数据量的80%和20%，确保了数据的多样性和模型的训练质量。

特点

该数据集的特点在于其多模态和多样性的数据构成。ScienceQA不仅包含丰富的图像和文本信息，还首次大规模地为答案标注了讲解和解释，使得数据集在视觉问答任务中具有更高的实用价值。此外，数据集的领域多样性，覆盖了26个主题、127个类别和379个技能，这为研究和开发提供了广泛的领域覆盖和深入的分析可能。

使用方法

在使用TheMrguiller/ScienceQA数据集时，用户可以将其应用于视觉问答任务。数据集的结构包括图像、问题、选项、答案、解决方案以及一个表示是否有解题思路的标志位。用户可以根据这些字段设计模型，以理解和生成基于图像和文本的科学问题的答案。此外，数据集的平衡性确保了在使用多模态模型时能够获得良好的结果，为科学研究提供了可靠的数据基础。

背景与挑战

背景概述

ScienceQA数据集，源于对小学和高中科学课程的理解与探索，由德usto大学计算与智能系统硕士专业的学生们精心构建。该数据集涵盖21,208个多模态选择题，其中48.7%的问题含有图像背景，48.2%的问题含有文本背景，30.8%的问题同时包含两者。ScienceQA的独特之处在于，它为大多数问题提供了接地气的讲解和详细的解答，这些讲解和解答分别提供了到达正确答案的一般性外部知识和具体理由。据悉，ScienceQA是首个大规模标注讲解和解答的多模态数据集。其领域多样性丰富，涵盖了自然科学、语言科学和社会科学三大科目，为科学研究提供了广阔的覆盖面。该数据集的创建，对推动视觉问答领域的研究产生了显著影响。

当前挑战

ScienceQA数据集在构建过程中所面临的挑战主要体现在两个方面：一是如何确保数据集在多模态环境下的平衡性和有效性，以便在多模态模型中得到良好的结果；二是如何对科学问题进行精确的类别划分和技能标注，保证数据集的深度和广度。在解决领域问题时，ScienceQA数据集需应对如何将图像和文本信息有效结合以提升模型对科学问题的理解和回答准确性的挑战。

常用场景

经典使用场景

在科学教育领域，TheMrguiller/ScienceQA数据集的经典使用场景在于为机器学习模型提供丰富的多模态问题解答训练材料。该数据集包含大量来自自然科学、语言科学和社会科学领域的多选题目，其中既有图像也有文本作为问题背景，旨在训练模型对视觉信息与文本信息的联合理解能力，从而提升在科学题目作答中的准确率。

衍生相关工作

基于TheMrguiller/ScienceQA数据集，研究者已经衍生出一系列相关工作，如探索多模态推理、知识图谱嵌入以及自动解答生成等领域的应用。这些工作不仅扩展了数据集的应用范围，也推动了多模态信息处理和科学知识理解技术的发展。

数据集最近研究