stemdataset/STEM

Name: stemdataset/STEM
Creator: stemdataset
Published: 2024-04-30 14:57:01
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/stemdataset/STEM

下载链接

链接失效反馈

官方服务：

资源简介：

STEM数据集是一个用于测试神经模型在科学、技术、工程和数学（STEM）领域技能的多模态数据集。该数据集包含448种技能和1,073,146个问题，涵盖了所有STEM学科。与现有数据集不同，该数据集要求模型理解多模态视觉语言信息，并基于K-12课程设计。数据集分为训练集、验证集和测试集，测试集的真实答案未公开，用户可以通过提交预测结果到排行榜进行评估。数据集格式为多模态选择题，包含问题描述、图像、选项和正确答案索引等信息。

提供机构：

stemdataset

原始信息汇总

STEM 数据集概述

数据集基本信息

许可证: Apache-2.0
语言: 英语
数据集大小: 1M<n<10M
标签: STEM, 基准测试

数据集内容

类型: 多模态多选题
包含主题: 科学、技术、工程、数学
技能数量: 448
问题数量: 1,073,146
数据集分割: 训练集、验证集、测试集
训练集大小: 644,797问题
验证集大小: 214,272问题
测试集大小: 214,077问题

数据集特征

数据格式: python DatasetDict({ train: Dataset({ features: [subject, grade, skill, pic_choice, pic_prob, problem, problem_pic, choices, choices_pic, answer_idx], num_rows: 644797 }) valid: Dataset({ features: [subject, grade, skill, pic_choice, pic_prob, problem, problem_pic, choices, choices_pic, answer_idx], num_rows: 214272 }) test: Dataset({ features: [subject, grade, skill, pic_choice, pic_prob, problem, problem_pic, choices, choices_pic, answer_idx], num_rows: 214077 }) })
特征描述:
- subject: 问题所属学科
- grade: 问题年级水平
- skill: 问题技能水平
- pic_choice: 选项是否为图像
- pic_prob: 问题是否包含图像
- problem: 问题描述
- problem_pic: 问题图像
- choices: 问题选项
- choices_pic: 选项图像
- answer_idx: 正确答案索引

数据集用途

评估: 请参考代码进行数据集评估

数据集联系

联系邮箱: stemdataset@gmail.com

搜集汇总

数据集介绍

构建方式

STEM数据集的构建，是基于对科学、技术、工程及数学领域知识的深入理解，旨在评估神经网络模型在视觉与语言结合的STEM技能。该数据集涵盖448个技能点，包含超过107万个问题，覆盖了从K-12课程基础到高阶的技能和问题。构建过程中，数据集设计者结合了多模态的视觉与语言信息，形成了包含训练集、验证集和测试集的完整数据集。每个问题都包括题目描述、选项、正确答案索引等详细信息，部分问题还配有图片，以增加问题的复杂性和现实性。

特点

STEM数据集的特点在于其全面性和综合性。它不仅包含了丰富的多模态问题，还特别强调了对基础技能的考核，区别于其他通常专注于专家级能力的现有数据集。此外，数据集还包括了最新基础模型如CLIP和GPT-3.5-Turbo的性能基准，为研究者提供了评估模型性能的直观参照。数据集的构建注重实用性，问题设计紧贴K-12教育标准，能够有效评估模型在不同年级水平上的STEM技能掌握情况。

使用方法

使用STEM数据集时，用户可以从HuggingFace的仓库中直接下载。数据集分为训练集、验证集和测试集，方便用户进行模型的训练和性能评估。测试集的正确答案索引未公开，用户可以提交预测结果到排行榜进行对比。为了更好地利用数据集，用户可以参考项目提供的代码和文档，了解数据集的详细格式和如何进行有效的数据加载与处理。数据集的使用不仅有助于模型性能的提升，也能促进社区对STEM问题解决算法创新的探索。

背景与挑战

背景概述

STEM数据集，旨在通过衡量神经模型在STEM（科学、技术、工程和数学）领域的视觉语言技能，以解决实际世界中结合STEM知识的问题。该数据集由Jianhao Shen、Ye Yuan、Srbuhi Mirzoyan、Ming Zhang和Chenguang Wang等研究人员在2024年ICLR会议上提出，包含了448个技能和超过107万个问题，覆盖了所有STEM学科。其特色在于，不仅涵盖了专家级别的能力考核，还包括基于K-12课程设计的基础技能和问题。该数据集的构建，对促进神经网络在STEM教育领域的应用和发展具有显著影响。

当前挑战

该数据集在构建过程中面临的挑战包括：如何准确衡量神经模型在STEM领域的视觉语言理解能力，以及如何设计既涵盖基础又包含高阶技能的问题。此外，数据集还面临模型性能提升的挑战，即使是最新进的模型，在数据集上的表现也远低于小学生平均水平。为了提高模型在数据集上的表现，研究人员尝试了对模型进行训练，但性能提升仍相对有限，这表明需要社区的创新算法来解决STEM问题。

常用场景

经典使用场景

在科技迅速发展的当下，STEM（科学、技术、工程和数学）教育的重要性日益凸显。STEM Dataset作为一种全新的挑战，旨在测试神经网络模型在处理STEM相关问题时的能力。该数据集被广泛应用于机器学习领域，特别是在视觉-语言模型的训练与评估中，它通过提供包含图像和文本的多模态问题，成为评估模型综合理解能力的重要工具。

实际应用

在实际应用中，STEM Dataset可被用于教育科技产品的开发，例如智能教学系统的设计，它可以根据学生的作答情况调整教学难度和内容。同时，该数据集对于开发面向教育的辅助工具，如智能作业辅导系统，也具有重要的指导意义。此外，它还可用于评估和提升机器学习模型在处理真实世界STEM问题的能力。

衍生相关工作

STEM Dataset的推出催生了一系列相关研究工作，包括但不限于对现有模型在STEM问题上的性能评估、新算法的设计与测试，以及针对特定STEM领域的模型优化。这些衍生工作不仅推动了机器学习在教育领域的应用，也为神经网络模型的改进提供了丰富的实验基础和研究思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集