stemdataset/STEM
收藏Hugging Face2024-04-30 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/stemdataset/STEM
下载链接
链接失效反馈官方服务:
资源简介:
STEM数据集是一个用于测试神经模型在科学、技术、工程和数学(STEM)领域技能的多模态数据集。该数据集包含448种技能和1,073,146个问题,涵盖了所有STEM学科。与现有数据集不同,该数据集要求模型理解多模态视觉语言信息,并基于K-12课程设计。数据集分为训练集、验证集和测试集,测试集的真实答案未公开,用户可以通过提交预测结果到排行榜进行评估。数据集格式为多模态选择题,包含问题描述、图像、选项和正确答案索引等信息。
STEM数据集是一个用于测试神经模型在科学、技术、工程和数学(STEM)领域技能的多模态数据集。该数据集包含448种技能和1,073,146个问题,涵盖了所有STEM学科。与现有数据集不同,该数据集要求模型理解多模态视觉语言信息,并基于K-12课程设计。数据集分为训练集、验证集和测试集,测试集的真实答案未公开,用户可以通过提交预测结果到排行榜进行评估。数据集格式为多模态选择题,包含问题描述、图像、选项和正确答案索引等信息。
提供机构:
stemdataset
原始信息汇总
STEM 数据集概述
数据集基本信息
- 许可证: Apache-2.0
- 语言: 英语
- 数据集大小: 1M<n<10M
- 标签: STEM, 基准测试
数据集内容
- 类型: 多模态多选题
- 包含主题: 科学、技术、工程、数学
- 技能数量: 448
- 问题数量: 1,073,146
- 数据集分割: 训练集、验证集、测试集
- 训练集大小: 644,797问题
- 验证集大小: 214,272问题
- 测试集大小: 214,077问题
数据集特征
-
数据格式: python DatasetDict({ train: Dataset({ features: [subject, grade, skill, pic_choice, pic_prob, problem, problem_pic, choices, choices_pic, answer_idx], num_rows: 644797 }) valid: Dataset({ features: [subject, grade, skill, pic_choice, pic_prob, problem, problem_pic, choices, choices_pic, answer_idx], num_rows: 214272 }) test: Dataset({ features: [subject, grade, skill, pic_choice, pic_prob, problem, problem_pic, choices, choices_pic, answer_idx], num_rows: 214077 }) })
-
特征描述:
subject: 问题所属学科grade: 问题年级水平skill: 问题技能水平pic_choice: 选项是否为图像pic_prob: 问题是否包含图像problem: 问题描述problem_pic: 问题图像choices: 问题选项choices_pic: 选项图像answer_idx: 正确答案索引
数据集用途
- 评估: 请参考代码进行数据集评估
数据集联系
- 联系邮箱: stemdataset@gmail.com
搜集汇总
数据集介绍

构建方式
STEM数据集的构建,是基于对科学、技术、工程及数学领域知识的深入理解,旨在评估神经网络模型在视觉与语言结合的STEM技能。该数据集涵盖448个技能点,包含超过107万个问题,覆盖了从K-12课程基础到高阶的技能和问题。构建过程中,数据集设计者结合了多模态的视觉与语言信息,形成了包含训练集、验证集和测试集的完整数据集。每个问题都包括题目描述、选项、正确答案索引等详细信息,部分问题还配有图片,以增加问题的复杂性和现实性。
特点
STEM数据集的特点在于其全面性和综合性。它不仅包含了丰富的多模态问题,还特别强调了对基础技能的考核,区别于其他通常专注于专家级能力的现有数据集。此外,数据集还包括了最新基础模型如CLIP和GPT-3.5-Turbo的性能基准,为研究者提供了评估模型性能的直观参照。数据集的构建注重实用性,问题设计紧贴K-12教育标准,能够有效评估模型在不同年级水平上的STEM技能掌握情况。
使用方法
使用STEM数据集时,用户可以从HuggingFace的仓库中直接下载。数据集分为训练集、验证集和测试集,方便用户进行模型的训练和性能评估。测试集的正确答案索引未公开,用户可以提交预测结果到排行榜进行对比。为了更好地利用数据集,用户可以参考项目提供的代码和文档,了解数据集的详细格式和如何进行有效的数据加载与处理。数据集的使用不仅有助于模型性能的提升,也能促进社区对STEM问题解决算法创新的探索。
背景与挑战
背景概述
STEM数据集,旨在通过衡量神经模型在STEM(科学、技术、工程和数学)领域的视觉语言技能,以解决实际世界中结合STEM知识的问题。该数据集由Jianhao Shen、Ye Yuan、Srbuhi Mirzoyan、Ming Zhang和Chenguang Wang等研究人员在2024年ICLR会议上提出,包含了448个技能和超过107万个问题,覆盖了所有STEM学科。其特色在于,不仅涵盖了专家级别的能力考核,还包括基于K-12课程设计的基础技能和问题。该数据集的构建,对促进神经网络在STEM教育领域的应用和发展具有显著影响。
当前挑战
该数据集在构建过程中面临的挑战包括:如何准确衡量神经模型在STEM领域的视觉语言理解能力,以及如何设计既涵盖基础又包含高阶技能的问题。此外,数据集还面临模型性能提升的挑战,即使是最新进的模型,在数据集上的表现也远低于小学生平均水平。为了提高模型在数据集上的表现,研究人员尝试了对模型进行训练,但性能提升仍相对有限,这表明需要社区的创新算法来解决STEM问题。
常用场景
经典使用场景
在科技迅速发展的当下,STEM(科学、技术、工程和数学)教育的重要性日益凸显。STEM Dataset作为一种全新的挑战,旨在测试神经网络模型在处理STEM相关问题时的能力。该数据集被广泛应用于机器学习领域,特别是在视觉-语言模型的训练与评估中,它通过提供包含图像和文本的多模态问题,成为评估模型综合理解能力的重要工具。
实际应用
在实际应用中,STEM Dataset可被用于教育科技产品的开发,例如智能教学系统的设计,它可以根据学生的作答情况调整教学难度和内容。同时,该数据集对于开发面向教育的辅助工具,如智能作业辅导系统,也具有重要的指导意义。此外,它还可用于评估和提升机器学习模型在处理真实世界STEM问题的能力。
衍生相关工作
STEM Dataset的推出催生了一系列相关研究工作,包括但不限于对现有模型在STEM问题上的性能评估、新算法的设计与测试,以及针对特定STEM领域的模型优化。这些衍生工作不仅推动了机器学习在教育领域的应用,也为神经网络模型的改进提供了丰富的实验基础和研究思路。
以上内容由遇见数据集搜集并总结生成



