pkulium/ScienceQA

Name: pkulium/ScienceQA
Creator: pkulium
Published: 2024-05-16 22:09:56
License: 暂无描述

Hugging Face2024-05-16 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/pkulium/ScienceQA

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: default features: - name: image dtype: image - name: question dtype: string - name: choices sequence: string - name: answer dtype: class_label: names: '0': '0' '1': '1' '2': '2' '3': '3' - name: hint dtype: string - name: task dtype: string - name: grade dtype: string - name: subject dtype: string - name: topic dtype: string - name: category dtype: string - name: skill dtype: string - name: lecture dtype: string - name: solution dtype: string splits: - name: test num_bytes: 138307216.0 num_examples: 4241 download_size: 133654050 dataset_size: 138307216.0 - config_name: img features: - name: image dtype: image - name: question dtype: string - name: choices sequence: string - name: answer dtype: int8 - name: hint dtype: string - name: task dtype: string - name: grade dtype: string - name: subject dtype: string - name: topic dtype: string - name: category dtype: string - name: skill dtype: string - name: lecture dtype: string - name: solution dtype: string splits: - name: test num_bytes: 138277529.0 num_examples: 4241 download_size: 133651662 dataset_size: 138277529.0 configs: - config_name: default data_files: - split: test path: img/test-* - config_name: img data_files: - split: test path: img/test-* ---

数据集信息： - 配置名称：default 特征项： - 字段名：图像（image），数据类型：图像 - 字段名：问题（question），数据类型：字符串 - 字段名：选项（choices），数据类型：字符串序列 - 字段名：答案（answer），数据类型：分类标签（class_label），标签映射规则：'0'对应'0'、'1'对应'1'、'2'对应'2'、'3'对应'3' - 字段名：提示文本（hint），数据类型：字符串 - 字段名：任务类型（task），数据类型：字符串 - 字段名：适用年级（grade），数据类型：字符串 - 字段名：所属学科（subject），数据类型：字符串 - 字段名：知识点主题（topic），数据类型：字符串 - 字段名：试题类别（category），数据类型：字符串 - 字段名：考察技能（skill），数据类型：字符串 - 字段名：参考讲义（lecture），数据类型：字符串 - 字段名：试题解析（solution），数据类型：字符串数据划分： - 划分名称：test，字节大小：138307216.0，样本总数：4241 下载体积：133654050 数据集体积：138307216.0 - 配置名称：img 特征项： - 字段名：图像（image），数据类型：图像 - 字段名：问题（question），数据类型：字符串 - 字段名：选项（choices），数据类型：字符串序列 - 字段名：答案（answer），数据类型：int8（int8） - 字段名：提示文本（hint），数据类型：字符串 - 字段名：任务类型（task），数据类型：字符串 - 字段名：适用年级（grade），数据类型：字符串 - 字段名：所属学科（subject），数据类型：字符串 - 字段名：知识点主题（topic），数据类型：字符串 - 字段名：试题类别（category），数据类型：字符串 - 字段名：考察技能（skill），数据类型：字符串 - 字段名：参考讲义（lecture），数据类型：字符串 - 字段名：试题解析（solution），数据类型：字符串数据划分： - 划分名称：test，字节大小：138277529.0，样本总数：4241 下载体积：133651662 数据集体积：138277529.0 配置项： - 配置名称：default 数据文件： - 划分集：test，文件路径：img/test-* - 配置名称：img 数据文件： - 划分集：test，文件路径：img/test-*

提供机构：

pkulium

原始信息汇总

数据集概述

配置 `default`

特征:
- image: 数据类型为 image
- question: 数据类型为 string
- choices: 数据类型为 sequence of string
- answer: 数据类型为 class_label with names 0, 1, 2, 3
- hint: 数据类型为 string
- task: 数据类型为 string
- grade: 数据类型为 string
- subject: 数据类型为 string
- topic: 数据类型为 string
- category: 数据类型为 string
- skill: 数据类型为 string
- lecture: 数据类型为 string
- solution: 数据类型为 string
分割:
- test: 大小为 138307216.0 字节，包含 4241 个样本
- 下载大小: 133654050 字节
- 数据集大小: 138307216.0 字节

配置 `img`

特征:
- image: 数据类型为 image
- question: 数据类型为 string
- choices: 数据类型为 sequence of string
- answer: 数据类型为 int8
- hint: 数据类型为 string
- task: 数据类型为 string
- grade: 数据类型为 string
- subject: 数据类型为 string
- topic: 数据类型为 string
- category: 数据类型为 string
- skill: 数据类型为 string
- lecture: 数据类型为 string
- solution: 数据类型为 string
分割:
- test: 大小为 138277529.0 字节，包含 4241 个样本
- 下载大小: 133651662 字节
- 数据集大小: 138277529.0 字节

搜集汇总

数据集介绍

构建方式

在科学教育领域，构建高质量的多模态数据集对于评估和提升模型的理解能力至关重要。ScienceQA数据集通过整合图像、文本与结构化元数据，系统性地收集了涵盖多个学科的科学问题。其构建过程严格遵循教育标准，每个样本均包含问题描述、视觉辅助材料、多项选择选项及详细解析，确保了数据在内容上的准确性与教育价值。数据来源经过精心筛选，覆盖从基础到进阶的科学主题，为研究社区提供了可靠的基准测试资源。

使用方法

使用ScienceQA数据集时，研究者可将其应用于多模态问答模型的训练与评估。数据集以标准化的图像-文本对形式呈现，支持直接加载并进行端到端处理。用户可根据元数据字段如学科或年级进行子集划分，以针对特定教育阶段开展分析。此外，提供的提示和解决方案可用于引导模型学习推理路径，促进更精准的性能评测。该数据集兼容常见的机器学习框架，便于集成到现有研究流程中。

背景与挑战

背景概述

ScienceQA数据集由北京大学的研究团队于2022年构建，旨在推动多模态科学问答领域的发展。该数据集聚焦于科学教育场景，整合了图像、文本与结构化知识，覆盖物理、化学、生物等多个学科，旨在评估模型在复杂科学问题上的推理与理解能力。其构建体现了跨模态学习的前沿需求，为人工智能在教育领域的应用提供了重要基准，对促进多模态大模型在知识密集型任务中的研究具有显著影响力。

当前挑战

ScienceQA数据集的核心挑战在于解决多模态科学问答中视觉与语言信息的深度融合问题，要求模型具备跨学科知识推理与逻辑分析能力。构建过程中，挑战主要来自高质量多模态数据的收集与标注，需确保科学内容的准确性、图像与文本的对齐性，以及问题难度与教育阶段的匹配，这些因素共同增加了数据集的构建复杂度与可靠性要求。

常用场景

经典使用场景

在科学教育领域，ScienceQA数据集为多模态推理任务提供了标准化的评估平台。该数据集融合了图像、文本与结构化选项，涵盖物理、生物、化学等多个学科主题，其经典使用场景在于训练和评估视觉-语言模型在科学问题解答中的综合能力。研究者通过该数据集能够系统检验模型对科学概念的理解、逻辑推理以及跨模态信息整合的效能，为科学智能的发展奠定数据基础。

解决学术问题

ScienceQA数据集有效解决了多模态学习中长期存在的学科知识融合难题。该数据集通过标注学科类别、技能标签与详细解析，为模型可解释性研究提供了丰富素材。其意义在于推动了科学问答任务从单一文本理解向图文协同推理的范式转变，促进了认知科学与人工智能的交叉融合，为构建具备学科思维能力的智能系统开辟了新的研究方向。

实际应用

在实际教育科技场景中，ScienceQA数据集支撑了自适应学习系统的开发。基于该数据集训练的模型可部署于智能辅导平台，实现个性化科学问题解答与学习路径推荐。其多模态特性尤其适用于中小学科学教育的数字化转型，能够为师生提供可视化的知识讲解与互动练习，在提升科学素养培育效率的同时，也为教育公平化提供了技术可能。

数据集最近研究

pkulium/ScienceQA

数据集概述

配置 default

配置 img

配置 `default`

配置 `img`