five

ScienceQA|科学教育数据集|语言模型评估数据集

收藏
github2022-09-01 更新2025-02-08 收录
科学教育
语言模型评估
下载链接:
https://github.com/lupantech/ScienceQA
下载链接
链接失效反馈
资源简介:
科学问答(ScienceQA)数据集包含21,208条多模态的英语选择题,这些题目来源于中小学科学课程。在这些题目中,有16,864道题目包含了图像,而10,220道题目包含了文本上下文。该数据集通过基于代码评估的方法来评估大型语言模型的科学素养。

The ScienceQA dataset encompasses 21,208 multimodal English multiple-choice questions, sourced from middle and high school science curricula. Among these, 16,864 questions include images, and 10,220 questions contain textual context. The dataset evaluates the scientific literacy of large language models through a code-based assessment method.
提供机构:
University of California et al.
创建时间:
2022-09-01
原始信息汇总

ScienceQA 数据集概述

基本信息

数据集特点

  • 数据规模: 测试集包含4,241个完整样本和1,000个迷你样本
  • 多模态特性: 包含文本(TXT)、图像(IMG)等多种模态数据
  • 学科分类: 涵盖自然科学(NAT)、社会科学(SOC)、语言(LAN)等领域
  • 教育分级: 包含G1-6和G7-12两个教育阶段的问题

评估指标

  • 人类表现基准: 88.40%准确率
  • 随机猜测基准: 39.83%准确率
  • 主要评估维度:
    • 学科分类准确率(NAT/SOC/LAN)
    • 模态类型准确率(TXT/IMG/NO)
    • 教育阶段准确率(G1-6/G7-12)

模型表现

  • 当前最佳模型: Mutimodal-T-SciQ_Large (96.18%准确率)
  • 代表性模型:
    • MC-CoT_F-Large (94.88%)
    • Honeybee (Vicuna-13B) (94.39%)
    • LLaVA (GPT-4 judge) (92.53%)

数据集影响力

  • 被引用情况:
    • 被Google内部文档引用
    • 被50+模型作为基准测试集
    • 被HuggingFace、OpenDataLab等平台收录
  • 下载量:
    • 2023年3月: 377次(HuggingFace)
    • 2023年4月: 1,421次(HuggingFace)

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
ScienceQA数据集的构建基于多模态科学问答任务,涵盖了广泛的科学领域问题。该数据集通过整合文本、图像等多种模态信息,结合链式思维(Chain-of-Thought)推理方法,构建了一个包含详细解释的问答对。数据来源包括科学教科书、在线教育资源以及公开的科学问题库,确保了数据的多样性和权威性。每个问题都经过人工标注,确保答案的准确性和解释的合理性。
特点
ScienceQA数据集的特点在于其多模态性和丰富的推理过程。它不仅包含传统的文本问答,还引入了图像信息,使得模型能够处理更为复杂的科学问题。此外,数据集中的每个问题都附带有详细的推理链,帮助模型理解问题的解决过程。这种设计使得ScienceQA成为评估模型在科学推理和解释能力方面的理想基准。数据集的规模较大,涵盖了从小学到高中的科学知识,适用于不同层次的模型评估。
使用方法
使用ScienceQA数据集时,研究人员可以通过加载数据集文件,获取问题、答案以及相关的推理链信息。数据集支持多种模型评估方式,包括零样本学习、少样本学习以及全量微调。用户可以通过HuggingFace Datasets或OpenDataLab等平台轻松访问数据集。此外,数据集还提供了详细的评估脚本和可视化工具,帮助研究人员快速进行模型性能分析和结果对比。通过提交模型结果至官方排行榜,研究人员可以与其他模型进行公平比较。
背景与挑战
背景概述
ScienceQA数据集由加州大学洛杉矶分校(UCLA)的研究团队于2022年创建,旨在推动多模态科学问答领域的研究。该数据集的核心研究问题是通过结合视觉和文本信息,解决复杂的科学问题,并借助“思维链”(Chain-of-Thought)推理方法提升模型的解释能力。ScienceQA的发布标志着科学问答任务从单一模态向多模态推理的转变,为自然语言处理(NLP)和计算机视觉(CV)领域的交叉研究提供了重要支持。该数据集在NeurIPS 2022会议上首次亮相,并迅速成为多模态推理领域的基准数据集之一,推动了诸如GPT-3、GPT-4等大型语言模型在科学问答任务中的应用。
当前挑战
ScienceQA数据集面临的挑战主要体现在两个方面。首先,科学问答任务本身具有高度的复杂性和多样性,涉及物理、化学、生物等多个学科领域,要求模型具备跨学科的知识整合能力。其次,多模态数据的融合与推理是该数据集构建的核心难点,如何有效地结合图像和文本信息以生成准确的答案,仍然是一个未完全解决的难题。此外,数据集的构建过程中,标注高质量的多模态数据需要大量的领域专家参与,这对数据采集和标注工作提出了极高的要求。最后,尽管现有模型在ScienceQA上取得了显著进展,但其推理能力与人类水平仍存在差距,尤其是在处理开放域问题和复杂逻辑推理时,模型的泛化能力仍需进一步提升。
常用场景
经典使用场景
ScienceQA数据集在科学问答领域中被广泛用于评估和提升多模态推理能力。该数据集结合了视觉和文本信息,要求模型通过思维链(Chain-of-Thought)进行复杂的推理,从而回答科学问题。这种多模态推理任务不仅涵盖了自然科学、社会科学和语言学等多个学科,还涉及不同年级的知识水平,使其成为评估模型跨学科理解和推理能力的理想工具。
实际应用
在实际应用中,ScienceQA数据集为科学教育领域的智能化发展提供了重要支持。基于该数据集训练的模型可以用于开发智能辅导系统,帮助学生解答科学问题,提供详细的推理过程。此外,该数据集还可用于构建科学知识库,辅助教师进行教学资源的设计和优化,提升科学教育的效率和质量。
衍生相关工作
ScienceQA数据集衍生了一系列经典的多模态推理研究工作。例如,LLaVA、Chameleon和Multimodal-CoT等模型均基于该数据集进行了创新性研究,显著提升了多模态推理的性能。这些工作不仅在学术界引起了广泛关注,还为工业界的多模态应用提供了技术参考,推动了多模态人工智能领域的发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国裁判文书网

中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。

wenshu.court.gov.cn 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录