five

A Dataset for Learning University STEM Courses at Scale|STEM教育数据集|学习资源数据集

收藏
github2022-11-22 更新2024-05-31 收录
STEM教育
学习资源
下载链接:
https://github.com/idrori/stemQ
下载链接
链接失效反馈
资源简介:
这是一个包含667个问题和解决方案的新数据集,涵盖了7所大学的12个部门的27门STEM课程。

This is a new dataset comprising 667 questions and solutions, covering 27 STEM courses across 12 departments from 7 universities.
创建时间:
2022-06-24
原始信息汇总

数据集概述

数据集名称

A Dataset for Learning University STEM Courses at Scale

数据集描述

该数据集包含来自7所大学的12个部门的27门STEM课程的667个问题及其解决方案。

数据集内容

课程详情

ID 大学 部门 课程 编号 问题数量
1 MIT Mechanical Engineering Hydrodynamics 2.016 21
2 MIT Mechanical Engineering Nonlinear Dynamics I: Chaos 2.050J 24
3 MIT Mechanical Engineering Information & Entropy 2.110J 25
4 MIT Mechanical Engineering Marine Power and Propulsion 2.611 27
5 MIT Materials Science and Engineering Fundamentals of Materials Science 3.012 25
6 MIT Materials Science and Engineering Mathematics for Materials Scientists and Engineers 3.016 25
7 MIT Materials Science and Engineering Introduction to Solid-State Chemistry 3.091 25
8 MIT Chemistry Principles of Chemical Science 5.111 25
9 MIT Electrical Engineering & Computer Science Signal Processing 6.003 30
10 MIT Electrical Engineering & Computer Science Introduction to Machine Learning 6.036 30
11 MIT Electrical Engineering & Computer Science Introduction to Probability 6.041 30
12 MIT Physics Quantum Physics 8.04 23
13 MIT Physics Introduction to Astronomy 8.282 20
14 MIT Earth, Atmospheric & Planetary Sciences Geobiology 12.007 25
15 MIT Economics Principles of Microeconomics 14.01 29
16 MIT Aeronautics and Astronautics Unified Engineering 1 and 2 16.01/02 25
17 MIT Aeronautics and Astronautics Unified Engineering 3 and 4 16.03/04 21
18 MIT Mathematics Probability and Random Variables 18.600 30
19 MIT Mathematics Theory of Numbers 18.781 20
20 MIT Biological Engineering Systems Microbiology 20.106J 25
21 MIT Institute for Data, Systems & Society Statistical Thinking & Data Analysis IDS.013J 23
22 Brown Mathematics Intermediate Calculus MATH0180 25
23 Cornell Computer Science Computer Architecture CS4420 20
24 Harvard Statistics Probability STATS110 20
25 Princeton Mathematics Calculus II MATH104 25
26 UPenn Mathematics Calculus MATH110 24
27 Yale Mathematics Fundamentals of Physics PHYS200 25

数据集来源

  • 作者:Iddo Drori, Sarah Zhang, Zad Chin, Reece Shuttleworth, Albert Lu, Linda Chen, Bereket Birbo, Michele He, Pedro Lantigua, Sunny Tran, Gregory Hunter, Bo Feng, Newman Cheng, Roman Wang, Yann Hicke, Saisamrit Surbehera, Arvind Raghavan, Alexander Siemenn, Nikhil Singh, Jayson Lynch, Avi Shporer, Nakul Verma, Tonio Buonassisi, Armando Solar-Lezama
  • 发表会议:Educational Advances in Artificial Intelligence (EAAI), 2023
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于多所顶尖大学的STEM课程,涵盖了12个不同院系的27门课程,共计667道问题及其解答。数据来源包括麻省理工学院、布朗大学、康奈尔大学、哈佛大学、普林斯顿大学、宾夕法尼亚大学和耶鲁大学。每门课程的问题数量在20至30之间,确保了数据的多样性和广泛性。数据集的构建过程严格遵循学术标准,确保了问题的准确性和解答的权威性。
使用方法
该数据集的使用方法多样,既可用于教育研究,也可用于人工智能模型的训练和评估。研究人员可以通过分析数据集中的问题和解答,探索STEM教育中的知识传递模式和学习难点。开发者可以利用该数据集训练自然语言处理模型,生成高质量的STEM问题或解答。此外,数据集还可用于评估模型在复杂问题解答和跨学科知识应用中的表现。使用该数据集时,建议结合具体的教育或研究目标,进行有针对性的分析和应用。
背景与挑战
背景概述
《A Dataset for Learning University STEM Courses at Scale》数据集由Iddo Drori等研究人员于2023年发布,旨在为大规模学习大学STEM课程及生成人类水平的问题提供支持。该数据集涵盖了来自7所大学、12个院系的27门STEM课程的667个问题及其解答,涉及机械工程、材料科学、计算机科学、物理学等多个学科。该数据集的创建标志着教育领域与人工智能技术的深度融合,为自动化教学系统、智能问答系统以及个性化学习路径的设计提供了重要的数据基础。其发布不仅推动了教育技术的进步,也为跨学科研究提供了新的视角和工具。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,STEM课程内容的复杂性和多样性使得问题的生成与解答需要高度的专业性和精确性,这对模型的泛化能力提出了极高的要求。其次,数据集的构建过程中,如何确保问题的质量、覆盖范围以及解答的准确性是一个关键难题。不同课程之间的知识体系差异较大,且部分问题涉及复杂的数学推导或实验数据,这对数据标注和验证提出了较高的技术要求。此外,如何在保持数据多样性的同时,确保其在不同教育场景中的适用性,也是数据集构建过程中需要克服的挑战。
常用场景
经典使用场景
该数据集广泛应用于高等教育领域,特别是在STEM(科学、技术、工程和数学)课程的教学与研究中。通过提供来自多所顶尖大学的课程问题和解答,数据集为教育者和研究者提供了一个丰富的资源库,用于开发自动化教学工具、智能问答系统以及课程内容分析。其多样化的课程覆盖范围使得研究者能够在不同学科背景下进行跨领域的教学研究。
解决学术问题
该数据集解决了高等教育中自动化教学工具开发的核心问题,特别是在生成高质量课程问题和解答方面。通过提供大量真实课程中的问题和解答,数据集为研究者提供了训练和验证智能教学系统的基准。这不仅推动了教育人工智能的发展,还为课程内容的标准化和优化提供了数据支持,显著提升了教学效率和学习效果。
实际应用
在实际应用中,该数据集被广泛用于开发智能教学助手、自动化考试系统以及个性化学习平台。例如,基于该数据集训练的模型能够自动生成与课程内容相关的问题,并评估学生的解答质量。此外,教育机构可以利用这些数据优化课程设计,提升教学资源的分配效率,从而为学生提供更具针对性的学习体验。
数据集最近研究
最新研究方向
近年来,随着人工智能技术的迅猛发展,教育领域的数据集研究逐渐成为热点。'A Dataset for Learning University STEM Courses at Scale'数据集涵盖了来自7所大学、12个院系的27门STEM课程的667个问题及其解答,为大规模学习大学STEM课程提供了丰富的数据支持。该数据集的前沿研究方向主要集中在如何利用这些数据生成人类水平的问题,以及如何通过机器学习模型提升课程学习的效率和质量。这一研究不仅推动了教育人工智能的发展,还为个性化学习和智能辅导系统的设计提供了新的思路和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

EV Charging Network Data

该数据集包含了电动汽车充电网络的相关信息,包括充电站的位置、充电桩的数量、充电速度、运营商信息等。数据集旨在帮助研究人员和开发者分析和优化电动汽车充电网络的布局和效率。

afdc.energy.gov 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录