five

derek-thomas/ScienceQA|科学问答数据集|多模态推理数据集

收藏
hugging_face2023-02-25 更新2024-03-04 收录
科学问答
多模态推理
下载链接:
https://hf-mirror.com/datasets/derek-thomas/ScienceQA
下载链接
链接失效反馈
资源简介:
ScienceQA数据集是一个多模态的科学问答数据集,涵盖了多个学科领域,如化学、生物、物理、地球科学、工程、地理、历史、公民学、经济学、全球研究、语法、写作、词汇、自然科学、语言科学和社会科学等。数据集包含图像、问题、选择题选项、答案、提示、任务描述、年级、学科、主题、类别、技能、讲座和解决方案等多个字段。数据集主要用于多模态多项选择任务,支持的任务包括多选问答、封闭域问答、开放域问答、视觉问答和多类分类。数据集的创建目的是为了诊断AI系统的多跳推理能力和可解释性,特别是在科学问题回答中的应用。数据集的语言为英语,规模在10K到100K之间,分为训练集、验证集和测试集。
提供机构:
derek-thomas
原始信息汇总

数据集概述

数据集名称: ScienceQA

数据集大小: 27263474 字节

下载大小: 0 字节

语言: 英语

多语言性: 单语

许可: CC-BY-SA-4.0

任务类别:

  • 多项选择
  • 问答
  • 其他
  • 视觉问答
  • 文本分类

任务ID:

  • 多项选择QA
  • 封闭领域QA
  • 开放领域QA
  • 视觉问答
  • 多类分类

标签:

  • 多模态QA
  • 科学
  • 化学
  • 生物学
  • 物理学
  • 地球科学
  • 工程
  • 地理
  • 历史
  • 世界历史
  • 公民学
  • 经济学
  • 全球研究
  • 语法
  • 写作
  • 词汇
  • 自然科学
  • 语言科学
  • 社会科学

数据集结构

数据实例: 每个实例包含以下字段:

  • image:上下文图像
  • question:与lecture相关的提示
  • choices:与question相关的多选项答案,其中1个正确
  • answer:对应正确答案的选项索引
  • hint:帮助回答question的提示
  • task:任务描述
  • grade:K-12年级水平
  • subject:高级别科目
  • topic:自然科学、社会科学或语言科学
  • categorytopic的子类别
  • skill:任务要求的描述
  • lecturequestion生成相关的讲座
  • solution:解决question的说明

数据分割:

  • train:12726个实例,16416902字节
  • validation:4241个实例,5404896字节
  • test:4241个实例,5441676字节

数据集创建

来源数据: 数据集收集自小学和高中的科学课程。

注释过程: 问题来自IXL Learning的开放资源,由K-12教育领域的专家管理。数据集包括符合加州共同核心内容标准的问题。通过下载原始科学问题并根据启发式规则提取各个组件(如问题、提示、图像、选项、答案、讲座和解决方案)来构建ScienceQA。手动删除无效问题,如只有一个选项的问题、包含错误数据的问题和重复问题,以遵守公平使用和转换使用的法律。如果适用多个正确答案,则只保留一个正确答案。还对每个问题的答案选项进行洗牌,以确保选项不遵循任何特定模式。使用半自动脚本重新格式化讲座和解决方案,使文本中的特殊结构(如表格和列表)易于与简单文本段落区分。

注释者: 专家生成和发现。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ScienceQA数据集的构建基于小学和高中科学课程,通过从IXL Learning等在线学习平台收集开放资源,并由K-12教育领域的专家进行筛选和整理。数据集包括与加州共同核心内容标准对齐的问题。构建过程中,原始科学问题被下载并根据启发式规则提取出各个组件,如问题、提示、图像、选项、答案、讲座和解决方案。无效问题,如只有一个选项或包含错误数据的问题,被手动移除以确保数据质量。答案选项经过随机排列,以避免特定模式。数据集通过半自动化脚本重新格式化讲座和解决方案,使其易于使用。
特点
ScienceQA数据集的主要特点在于其多模态性质,结合了图像和文本信息,涵盖了广泛的科学领域,包括化学、生物学、物理学、地球科学、工程学、地理学、历史、世界历史、公民学、经济学、全球研究、语法、写作、词汇、自然科学、语言科学和社会科学。数据集设计用于多选题、问答和其他任务,支持多种任务类别,如多选题问答、封闭领域问答、开放领域问答、视觉问答和多类分类。此外,数据集提供了详细的讲座和解决方案,帮助用户理解和解决科学问题。
使用方法
ScienceQA数据集适用于多种科学问答任务,包括多选题、问答和视觉问答。用户可以通过加载数据集的训练、验证和测试分割来训练和评估模型。数据集的特征包括图像、问题、选项、答案、提示、任务描述、年级、学科、主题、类别、技能、讲座和解决方案。用户可以根据需要选择和使用这些特征,以开发和测试多模态问答系统。数据集的许可证为CC BY-NC-SA 4.0,适用于非商业研究目的。
背景与挑战
背景概述
ScienceQA数据集由Pan Lu等研究人员于2022年创建,旨在通过多模态推理链解决科学问题回答中的复杂性。该数据集汇集了来自小学和高中科学课程的开放资源,由IXL Learning平台管理,并符合加州共同核心内容标准。ScienceQA的核心研究问题在于如何通过多模态数据(如图像、文本等)来增强AI系统的多跳推理能力和可解释性。其对科学教育领域的贡献在于提供了一个高质量、多领域、多模态的数据集,有助于推动AI在教育领域的应用和发展。
当前挑战
ScienceQA数据集在构建过程中面临多项挑战。首先,数据集需要从开放资源中提取和整合多模态信息,如图像、文本等,这要求高度的数据处理和整合能力。其次,确保数据集的多样性和覆盖广泛的教育领域,以避免偏见和局限性,是一项重要任务。此外,数据集的标注过程需要专家参与,以确保答案的准确性和解释的合理性。最后,数据集的使用需遵守非商业研究目的的限制,这可能限制其在商业应用中的推广和使用。
常用场景
经典使用场景
在科学教育领域,ScienceQA数据集被广泛用于开发和评估多模态问答系统。该数据集结合了图像和文本信息,为模型提供了丰富的上下文,使其能够处理复杂的科学问题。通过这种方式,研究人员可以构建能够解释和推理科学概念的智能系统,从而提升教育工具的互动性和有效性。
实际应用
在实际应用中,ScienceQA数据集被用于开发智能教育平台和辅助学习工具。例如,它可以用于构建个性化学习系统,根据学生的学习进度和理解能力提供定制化的科学问题和解答。此外,该数据集还可用于评估和改进现有教育软件的智能问答功能,从而提高教育资源的利用效率和学习效果。
衍生相关工作
基于ScienceQA数据集,研究人员开发了多种多模态问答模型,这些模型在科学教育、智能辅导系统和AI教育工具等领域取得了显著成果。例如,一些研究工作利用该数据集训练模型,使其能够生成详细的答案解释,从而增强模型的解释性和教育价值。此外,还有工作探索了如何将多模态信息融合到问答系统中,以提高其对复杂科学问题的处理能力。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作