pkulium/ScienceQA
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/pkulium/ScienceQA
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: default
features:
- name: image
dtype: image
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype:
class_label:
names:
'0': '0'
'1': '1'
'2': '2'
'3': '3'
- name: hint
dtype: string
- name: task
dtype: string
- name: grade
dtype: string
- name: subject
dtype: string
- name: topic
dtype: string
- name: category
dtype: string
- name: skill
dtype: string
- name: lecture
dtype: string
- name: solution
dtype: string
splits:
- name: test
num_bytes: 138307216.0
num_examples: 4241
download_size: 133654050
dataset_size: 138307216.0
- config_name: img
features:
- name: image
dtype: image
- name: question
dtype: string
- name: choices
sequence: string
- name: answer
dtype: int8
- name: hint
dtype: string
- name: task
dtype: string
- name: grade
dtype: string
- name: subject
dtype: string
- name: topic
dtype: string
- name: category
dtype: string
- name: skill
dtype: string
- name: lecture
dtype: string
- name: solution
dtype: string
splits:
- name: test
num_bytes: 138277529.0
num_examples: 4241
download_size: 133651662
dataset_size: 138277529.0
configs:
- config_name: default
data_files:
- split: test
path: img/test-*
- config_name: img
data_files:
- split: test
path: img/test-*
---
数据集信息:
- 配置名称:default
特征项:
- 字段名:图像(image),数据类型:图像
- 字段名:问题(question),数据类型:字符串
- 字段名:选项(choices),数据类型:字符串序列
- 字段名:答案(answer),数据类型:分类标签(class_label),标签映射规则:'0'对应'0'、'1'对应'1'、'2'对应'2'、'3'对应'3'
- 字段名:提示文本(hint),数据类型:字符串
- 字段名:任务类型(task),数据类型:字符串
- 字段名:适用年级(grade),数据类型:字符串
- 字段名:所属学科(subject),数据类型:字符串
- 字段名:知识点主题(topic),数据类型:字符串
- 字段名:试题类别(category),数据类型:字符串
- 字段名:考察技能(skill),数据类型:字符串
- 字段名:参考讲义(lecture),数据类型:字符串
- 字段名:试题解析(solution),数据类型:字符串
数据划分:
- 划分名称:test,字节大小:138307216.0,样本总数:4241
下载体积:133654050
数据集体积:138307216.0
- 配置名称:img
特征项:
- 字段名:图像(image),数据类型:图像
- 字段名:问题(question),数据类型:字符串
- 字段名:选项(choices),数据类型:字符串序列
- 字段名:答案(answer),数据类型:int8(int8)
- 字段名:提示文本(hint),数据类型:字符串
- 字段名:任务类型(task),数据类型:字符串
- 字段名:适用年级(grade),数据类型:字符串
- 字段名:所属学科(subject),数据类型:字符串
- 字段名:知识点主题(topic),数据类型:字符串
- 字段名:试题类别(category),数据类型:字符串
- 字段名:考察技能(skill),数据类型:字符串
- 字段名:参考讲义(lecture),数据类型:字符串
- 字段名:试题解析(solution),数据类型:字符串
数据划分:
- 划分名称:test,字节大小:138277529.0,样本总数:4241
下载体积:133651662
数据集体积:138277529.0
配置项:
- 配置名称:default
数据文件:
- 划分集:test,文件路径:img/test-*
- 配置名称:img
数据文件:
- 划分集:test,文件路径:img/test-*
提供机构:
pkulium
原始信息汇总
数据集概述
配置 default
- 特征:
image: 数据类型为imagequestion: 数据类型为stringchoices: 数据类型为sequenceofstringanswer: 数据类型为class_labelwith names 0, 1, 2, 3hint: 数据类型为stringtask: 数据类型为stringgrade: 数据类型为stringsubject: 数据类型为stringtopic: 数据类型为stringcategory: 数据类型为stringskill: 数据类型为stringlecture: 数据类型为stringsolution: 数据类型为string
- 分割:
test: 大小为 138307216.0 字节,包含 4241 个样本- 下载大小: 133654050 字节
- 数据集大小: 138307216.0 字节
配置 img
- 特征:
image: 数据类型为imagequestion: 数据类型为stringchoices: 数据类型为sequenceofstringanswer: 数据类型为int8hint: 数据类型为stringtask: 数据类型为stringgrade: 数据类型为stringsubject: 数据类型为stringtopic: 数据类型为stringcategory: 数据类型为stringskill: 数据类型为stringlecture: 数据类型为stringsolution: 数据类型为string
- 分割:
test: 大小为 138277529.0 字节,包含 4241 个样本- 下载大小: 133651662 字节
- 数据集大小: 138277529.0 字节
搜集汇总
数据集介绍

构建方式
在科学教育领域,构建高质量的多模态数据集对于评估和提升模型的理解能力至关重要。ScienceQA数据集通过整合图像、文本与结构化元数据,系统性地收集了涵盖多个学科的科学问题。其构建过程严格遵循教育标准,每个样本均包含问题描述、视觉辅助材料、多项选择选项及详细解析,确保了数据在内容上的准确性与教育价值。数据来源经过精心筛选,覆盖从基础到进阶的科学主题,为研究社区提供了可靠的基准测试资源。
使用方法
使用ScienceQA数据集时,研究者可将其应用于多模态问答模型的训练与评估。数据集以标准化的图像-文本对形式呈现,支持直接加载并进行端到端处理。用户可根据元数据字段如学科或年级进行子集划分,以针对特定教育阶段开展分析。此外,提供的提示和解决方案可用于引导模型学习推理路径,促进更精准的性能评测。该数据集兼容常见的机器学习框架,便于集成到现有研究流程中。
背景与挑战
背景概述
ScienceQA数据集由北京大学的研究团队于2022年构建,旨在推动多模态科学问答领域的发展。该数据集聚焦于科学教育场景,整合了图像、文本与结构化知识,覆盖物理、化学、生物等多个学科,旨在评估模型在复杂科学问题上的推理与理解能力。其构建体现了跨模态学习的前沿需求,为人工智能在教育领域的应用提供了重要基准,对促进多模态大模型在知识密集型任务中的研究具有显著影响力。
当前挑战
ScienceQA数据集的核心挑战在于解决多模态科学问答中视觉与语言信息的深度融合问题,要求模型具备跨学科知识推理与逻辑分析能力。构建过程中,挑战主要来自高质量多模态数据的收集与标注,需确保科学内容的准确性、图像与文本的对齐性,以及问题难度与教育阶段的匹配,这些因素共同增加了数据集的构建复杂度与可靠性要求。
常用场景
经典使用场景
在科学教育领域,ScienceQA数据集为多模态推理任务提供了标准化的评估平台。该数据集融合了图像、文本与结构化选项,涵盖物理、生物、化学等多个学科主题,其经典使用场景在于训练和评估视觉-语言模型在科学问题解答中的综合能力。研究者通过该数据集能够系统检验模型对科学概念的理解、逻辑推理以及跨模态信息整合的效能,为科学智能的发展奠定数据基础。
解决学术问题
ScienceQA数据集有效解决了多模态学习中长期存在的学科知识融合难题。该数据集通过标注学科类别、技能标签与详细解析,为模型可解释性研究提供了丰富素材。其意义在于推动了科学问答任务从单一文本理解向图文协同推理的范式转变,促进了认知科学与人工智能的交叉融合,为构建具备学科思维能力的智能系统开辟了新的研究方向。
实际应用
在实际教育科技场景中,ScienceQA数据集支撑了自适应学习系统的开发。基于该数据集训练的模型可部署于智能辅导平台,实现个性化科学问题解答与学习路径推荐。其多模态特性尤其适用于中小学科学教育的数字化转型,能够为师生提供可视化的知识讲解与互动练习,在提升科学素养培育效率的同时,也为教育公平化提供了技术可能。
数据集最近研究
最新研究方向
在科学教育领域,多模态推理能力已成为评估人工智能模型认知水平的关键指标。ScienceQA数据集凭借其涵盖图像、文本及结构化科学知识的丰富标注,为研究视觉-语言联合理解提供了重要基准。当前前沿探索聚焦于构建能够融合多源信息的端到端模型,以应对跨学科复杂问题求解的挑战。相关研究正推动模型从被动识别转向主动推理,这不仅提升了机器在科学问答任务中的表现,也为自适应教育系统的开发奠定了技术基础。该数据集的广泛应用,正促进人工智能在科学素养评估与教育辅助工具设计方面的创新突破。
以上内容由遇见数据集搜集并总结生成



