lmms-lab/ScienceQA

Name: lmms-lab/ScienceQA
Creator: lmms-lab
Published: 2024-03-08 04:54:57
License: 暂无描述

Hugging Face2024-03-08 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/lmms-lab/ScienceQA

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: ScienceQA-FULL features: - name: image dtype: image - name: question dtype: string - name: choices sequence: string - name: answer dtype: int8 - name: hint dtype: string - name: task dtype: string - name: grade dtype: string - name: subject dtype: string - name: topic dtype: string - name: category dtype: string - name: skill dtype: string - name: lecture dtype: string - name: solution dtype: string splits: # - name: train # num_bytes: 422199906.182 # num_examples: 12726 - name: validation num_bytes: 140142913.699 num_examples: 4241 - name: test num_bytes: 138277282.051 num_examples: 4241 download_size: 679275875 dataset_size: 700620101.932 - config_name: ScienceQA-IMG features: - name: image dtype: image - name: question dtype: string - name: choices sequence: string - name: answer dtype: int8 - name: hint dtype: string - name: task dtype: string - name: grade dtype: string - name: subject dtype: string - name: topic dtype: string - name: category dtype: string - name: skill dtype: string - name: lecture dtype: string - name: solution dtype: string splits: # - name: train # num_bytes: 413310651.0 # num_examples: 6218 - name: validation num_bytes: 137253441.0 num_examples: 2097 - name: test num_bytes: 135188432.0 num_examples: 2017 download_size: 663306124 dataset_size: 685752524.0 configs: - config_name: ScienceQA-FULL data_files: # - split: train # path: ScienceQA-FULL/train-* - split: validation path: ScienceQA-FULL/validation-* - split: test path: ScienceQA-FULL/test-* - config_name: ScienceQA-IMG data_files: # - split: train # path: ScienceQA-IMG/train-* - split: validation path: ScienceQA-IMG/validation-* - split: test path: ScienceQA-IMG/test-* --- <p align="center" width="100%"> <img src="https://i.postimg.cc/g0QRgMVv/WX20240228-113337-2x.png" width="100%" height="80%"> </p> # Large-scale Multi-modality Models Evaluation Suite > Accelerating the development of large-scale multi-modality models (LMMs) with `lmms-eval` 🏠 [Homepage](https://lmms-lab.github.io/) | 📚 [Documentation](docs/README.md) | 🤗 [Huggingface Datasets](https://huggingface.co/lmms-lab) # This Dataset This is a formatted version of [derek-thomas/ScienceQA](https://huggingface.co/datasets/derek-thomas/ScienceQA). It is used in our `lmms-eval` pipeline to allow for one-click evaluations of large multi-modality models. ``` @inproceedings{lu2022learn, title={Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering}, author={Lu, Pan and Mishra, Swaroop and Xia, Tony and Qiu, Liang and Chang, Kai-Wei and Zhu, Song-Chun and Tafjord, Oyvind and Clark, Peter and Ashwin Kalyan}, booktitle={The 36th Conference on Neural Information Processing Systems (NeurIPS)}, year={2022} } ```

# 大规模多模态模型评测套件 > 借助`lmms-eval`加速大规模多模态模型（Large-scale Multi-modality Models, LMMs）的研发 🏠 [主页](https://lmms-lab.github.io/) | 📚 [文档](docs/README.md) | 🤗 [Huggingface数据集](https://huggingface.co/lmms-lab) # 本数据集本数据集是[derek-thomas/ScienceQA（科学问答数据集）](https://huggingface.co/datasets/derek-thomas/ScienceQA)的格式化版本，被应用于我们的`lmms-eval`流程中，以实现大规模多模态模型的一键式评测。 @inproceedings{lu2022learn, title={学会解释：面向科学问答任务的基于思维链的多模态推理}, author={Lu Pan、Swaroop Mishra、Tony Xia、Liang Qiu、Kai-Wei Chang、Song-Chun Zhu、Øyvind Tafjord、Peter Clark、Ashwin Kalyan}, booktitle={第36届神经信息处理系统会议（NeurIPS 2022）}, year={2022} } <p align="center" width="100%"> <img src="https://i.postimg.cc/g0QRgMVv/WX20240228-113337-2x.png" width="100%" height="80%"> </p> ## 数据集信息 - 配置名称：ScienceQA-FULL 特征列表： - 字段名：image，数据类型：图像 - 字段名：question，数据类型：字符串 - 字段名：choices，数据类型：字符串序列 - 字段名：answer，数据类型：int8（8位有符号整数） - 字段名：hint，数据类型：字符串 - 字段名：task，数据类型：字符串 - 字段名：grade，数据类型：字符串 - 字段名：subject，数据类型：字符串 - 字段名：topic，数据类型：字符串 - 字段名：category，数据类型：字符串 - 字段名：skill，数据类型：字符串 - 字段名：lecture，数据类型：字符串 - 字段名：solution，数据类型：字符串划分集： # - 划分名称：训练集 # 字节数：422199906.182 # 样本数量：12726 - 划分名称：验证集字节数：140142913.699 样本数量：4241 - 划分名称：测试集字节数：138277282.051 样本数量：4241 下载大小：679275875 数据集总大小：700620101.932 - 配置名称：ScienceQA-IMG 特征列表： - 字段名：image，数据类型：图像 - 字段名：question，数据类型：字符串 - 字段名：choices，数据类型：字符串序列 - 字段名：answer，数据类型：int8（8位有符号整数） - 字段名：hint，数据类型：字符串 - 字段名：task，数据类型：字符串 - 字段名：grade，数据类型：字符串 - 字段名：subject，数据类型：字符串 - 字段名：topic，数据类型：字符串 - 字段名：category，数据类型：字符串 - 字段名：skill，数据类型：字符串 - 字段名：lecture，数据类型：字符串 - 字段名：solution，数据类型：字符串划分集： # - 划分名称：训练集 # 字节数：413310651.0 # 样本数量：6218 - 划分名称：验证集字节数：137253441.0 样本数量：2097 - 划分名称：测试集字节数：135188432.0 样本数量：2017 下载大小：663306124 数据集总大小：685752524.0 配置项： - 配置名称：ScienceQA-FULL 数据文件： # - 划分：训练集 # 路径：ScienceQA-FULL/train-* - 划分：验证集路径：ScienceQA-FULL/validation-* - 划分：测试集路径：ScienceQA-FULL/test-* - 配置名称：ScienceQA-IMG 数据文件： # - 划分：训练集 # 路径：ScienceQA-IMG/train-* - 划分：验证集路径：ScienceQA-IMG/validation-* - 划分：测试集路径：ScienceQA-IMG/test-*

提供机构：

lmms-lab

原始信息汇总

数据集概述

ScienceQA-FULL

特征:
- image: 图像类型
- question: 字符串类型
- choices: 字符串序列
- answer: 8位整数类型
- hint: 字符串类型
- task: 字符串类型
- grade: 字符串类型
- subject: 字符串类型
- topic: 字符串类型
- category: 字符串类型
- skill: 字符串类型
- lecture: 字符串类型
- solution: 字符串类型
拆分:
- validation: 140142913.699字节, 4241个样本
- test: 138277282.051字节, 4241个样本
下载大小: 679275875字节
数据集大小: 700620101.932字节

ScienceQA-IMG

特征:
- image: 图像类型
- question: 字符串类型
- choices: 字符串序列
- answer: 8位整数类型
- hint: 字符串类型
- task: 字符串类型
- grade: 字符串类型
- subject: 字符串类型
- topic: 字符串类型
- category: 字符串类型
- skill: 字符串类型
- lecture: 字符串类型
- solution: 字符串类型
拆分:
- validation: 137253441字节, 2097个样本
- test: 135188432字节, 2017个样本
下载大小: 663306124字节
数据集大小: 685752524字节

数据文件配置

ScienceQA-FULL:
- validation: ScienceQA-FULL/validation-*
- test: ScienceQA-FULL/test-*
ScienceQA-IMG:
- validation: ScienceQA-IMG/validation-*
- test: ScienceQA-IMG/test-*

搜集汇总

数据集介绍

构建方式

在科学教育领域，高质量的多模态数据集对于评估模型的理解与推理能力至关重要。ScienceQA数据集通过系统化地整合视觉与文本信息构建而成，其内容源自广泛的科学学科，涵盖从小学到高中的多个年级。数据采集过程严格遵循教育标准，确保题目在学科知识、认知技能和图像关联性上具有代表性。每个样本均包含问题、选项、答案及丰富的元数据，如图像、提示、讲解和解决方案，这些元素共同构成了一个结构严谨的多模态评估基准。

特点

该数据集以其全面的多模态特性脱颖而出，不仅融合了图像与文本，还提供了精细的学科分类和技能标注。每个问题均关联具体的学科、主题、年级及任务类型，并附带详细的讲解和解决方案，这为深入分析模型的推理过程提供了可能。数据集分为ScienceQA-FULL和ScienceQA-IMG两个版本，后者专注于包含图像的问题，使得研究者能够针对视觉理解能力进行专项评估。其丰富的元数据层支持多维度的性能剖析，推动了大型多模态模型在科学问答领域的精准评测。

使用方法

在大型多模态模型的评估流程中，ScienceQA数据集可通过lmms-eval框架实现一键式评测。用户首先加载数据集的指定配置，如ScienceQA-FULL或ScienceQA-IMG，随后利用验证集和测试集进行模型推理。评估过程支持端到端的多模态输入处理，模型需综合图像与文本信息生成答案，系统将自动比对预测结果与标注答案，并计算准确率等指标。该集成化方法显著简化了评测复杂度，使研究者能专注于模型性能的深入分析，加速多模态推理技术的迭代发展。

背景与挑战

背景概述

ScienceQA数据集由Pan Lu等研究人员于2022年构建，作为NeurIPS会议上的重要成果，该数据集旨在推动多模态推理与科学问答领域的研究。其核心研究问题聚焦于通过思维链机制，促进模型在科学问题解答中的解释性推理能力。数据集涵盖丰富的学科主题与年级层次，不仅为大规模多模态模型的评估提供了标准化基准，也显著提升了人工智能在复杂科学知识理解与推理方面的研究深度。

当前挑战

ScienceQA数据集所应对的领域挑战在于，科学问答往往需要模型融合文本与图像信息，进行跨模态的深度推理与因果解释，这对现有多模态模型的逻辑连贯性与知识泛化能力提出了较高要求。在构建过程中，数据收集面临学科多样性平衡与多模态对齐的复杂性，同时标注高质量的思维链解答需确保科学准确性与教育适用性，这些因素共同构成了数据集构建的核心难点。

常用场景

经典使用场景

在科学教育领域，ScienceQA数据集为多模态推理研究提供了关键基准。该数据集整合了图像、文本问题与多项选择答案，其经典使用场景在于评估大型多模态模型在科学问答任务中的表现。研究者通过该数据集能够系统地测试模型对跨学科知识的理解能力，尤其是在处理需要结合视觉信息与文本推理的复杂问题时，数据集的结构化设计使得模型性能的量化分析成为可能。

解决学术问题

ScienceQA数据集主要解决了多模态推理中解释性生成的学术挑战。传统模型往往在结合视觉与语言信息进行因果推断时存在局限，该数据集通过提供带有思维链标注的样本，促进了可解释人工智能的发展。它帮助研究者探索模型如何模拟人类的推理过程，从而在科学问题解答中实现更透明、更可靠的决策机制，推动了多模态学习理论向更深层次的演进。

衍生相关工作

围绕ScienceQA数据集，衍生出了一系列经典研究工作。例如，原论文《Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering》提出了思维链推理框架，启发了后续多模态大模型的评估方法。许多研究在此基础上开发了新的基准测试工具，如lmms-eval评估套件，这些工作不仅扩展了数据集的适用场景，还推动了多模态人工智能在科学认知与推理任务中的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集