A Dataset for Learning University STEM Courses at Scale|STEM教育数据集|学习资源数据集
收藏github2022-11-22 更新2024-05-31 收录
下载链接:
https://github.com/idrori/stemQ
下载链接
链接失效反馈资源简介:
这是一个包含667个问题和解决方案的新数据集,涵盖了7所大学的12个部门的27门STEM课程。
This is a new dataset comprising 667 questions and solutions, covering 27 STEM courses across 12 departments from 7 universities.
创建时间:
2022-06-24
原始信息汇总
数据集概述
数据集名称
A Dataset for Learning University STEM Courses at Scale
数据集描述
该数据集包含来自7所大学的12个部门的27门STEM课程的667个问题及其解决方案。
数据集内容
课程详情
| ID | 大学 | 部门 | 课程 | 编号 | 问题数量 |
|---|---|---|---|---|---|
| 1 | MIT | Mechanical Engineering | Hydrodynamics | 2.016 | 21 |
| 2 | MIT | Mechanical Engineering | Nonlinear Dynamics I: Chaos | 2.050J | 24 |
| 3 | MIT | Mechanical Engineering | Information & Entropy | 2.110J | 25 |
| 4 | MIT | Mechanical Engineering | Marine Power and Propulsion | 2.611 | 27 |
| 5 | MIT | Materials Science and Engineering | Fundamentals of Materials Science | 3.012 | 25 |
| 6 | MIT | Materials Science and Engineering | Mathematics for Materials Scientists and Engineers | 3.016 | 25 |
| 7 | MIT | Materials Science and Engineering | Introduction to Solid-State Chemistry | 3.091 | 25 |
| 8 | MIT | Chemistry | Principles of Chemical Science | 5.111 | 25 |
| 9 | MIT | Electrical Engineering & Computer Science | Signal Processing | 6.003 | 30 |
| 10 | MIT | Electrical Engineering & Computer Science | Introduction to Machine Learning | 6.036 | 30 |
| 11 | MIT | Electrical Engineering & Computer Science | Introduction to Probability | 6.041 | 30 |
| 12 | MIT | Physics | Quantum Physics | 8.04 | 23 |
| 13 | MIT | Physics | Introduction to Astronomy | 8.282 | 20 |
| 14 | MIT | Earth, Atmospheric & Planetary Sciences | Geobiology | 12.007 | 25 |
| 15 | MIT | Economics | Principles of Microeconomics | 14.01 | 29 |
| 16 | MIT | Aeronautics and Astronautics | Unified Engineering 1 and 2 | 16.01/02 | 25 |
| 17 | MIT | Aeronautics and Astronautics | Unified Engineering 3 and 4 | 16.03/04 | 21 |
| 18 | MIT | Mathematics | Probability and Random Variables | 18.600 | 30 |
| 19 | MIT | Mathematics | Theory of Numbers | 18.781 | 20 |
| 20 | MIT | Biological Engineering | Systems Microbiology | 20.106J | 25 |
| 21 | MIT | Institute for Data, Systems & Society | Statistical Thinking & Data Analysis | IDS.013J | 23 |
| 22 | Brown | Mathematics | Intermediate Calculus | MATH0180 | 25 |
| 23 | Cornell | Computer Science | Computer Architecture | CS4420 | 20 |
| 24 | Harvard | Statistics | Probability | STATS110 | 20 |
| 25 | Princeton | Mathematics | Calculus II | MATH104 | 25 |
| 26 | UPenn | Mathematics | Calculus | MATH110 | 24 |
| 27 | Yale | Mathematics | Fundamentals of Physics | PHYS200 | 25 |
数据集来源
- 作者:Iddo Drori, Sarah Zhang, Zad Chin, Reece Shuttleworth, Albert Lu, Linda Chen, Bereket Birbo, Michele He, Pedro Lantigua, Sunny Tran, Gregory Hunter, Bo Feng, Newman Cheng, Roman Wang, Yann Hicke, Saisamrit Surbehera, Arvind Raghavan, Alexander Siemenn, Nikhil Singh, Jayson Lynch, Avi Shporer, Nakul Verma, Tonio Buonassisi, Armando Solar-Lezama
- 发表会议:Educational Advances in Artificial Intelligence (EAAI), 2023
AI搜集汇总
数据集介绍

构建方式
该数据集构建于多所顶尖大学的STEM课程,涵盖了12个不同院系的27门课程,共计667道问题及其解答。数据来源包括麻省理工学院、布朗大学、康奈尔大学、哈佛大学、普林斯顿大学、宾夕法尼亚大学和耶鲁大学。每门课程的问题数量在20至30之间,确保了数据的多样性和广泛性。数据集的构建过程严格遵循学术标准,确保了问题的准确性和解答的权威性。
使用方法
该数据集的使用方法多样,既可用于教育研究,也可用于人工智能模型的训练和评估。研究人员可以通过分析数据集中的问题和解答,探索STEM教育中的知识传递模式和学习难点。开发者可以利用该数据集训练自然语言处理模型,生成高质量的STEM问题或解答。此外,数据集还可用于评估模型在复杂问题解答和跨学科知识应用中的表现。使用该数据集时,建议结合具体的教育或研究目标,进行有针对性的分析和应用。
背景与挑战
背景概述
《A Dataset for Learning University STEM Courses at Scale》数据集由Iddo Drori等研究人员于2023年发布,旨在为大规模学习大学STEM课程及生成人类水平的问题提供支持。该数据集涵盖了来自7所大学、12个院系的27门STEM课程的667个问题及其解答,涉及机械工程、材料科学、计算机科学、物理学等多个学科。该数据集的创建标志着教育领域与人工智能技术的深度融合,为自动化教学系统、智能问答系统以及个性化学习路径的设计提供了重要的数据基础。其发布不仅推动了教育技术的进步,也为跨学科研究提供了新的视角和工具。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,STEM课程内容的复杂性和多样性使得问题的生成与解答需要高度的专业性和精确性,这对模型的泛化能力提出了极高的要求。其次,数据集的构建过程中,如何确保问题的质量、覆盖范围以及解答的准确性是一个关键难题。不同课程之间的知识体系差异较大,且部分问题涉及复杂的数学推导或实验数据,这对数据标注和验证提出了较高的技术要求。此外,如何在保持数据多样性的同时,确保其在不同教育场景中的适用性,也是数据集构建过程中需要克服的挑战。
常用场景
经典使用场景
该数据集广泛应用于高等教育领域,特别是在STEM(科学、技术、工程和数学)课程的教学与研究中。通过提供来自多所顶尖大学的课程问题和解答,数据集为教育者和研究者提供了一个丰富的资源库,用于开发自动化教学工具、智能问答系统以及课程内容分析。其多样化的课程覆盖范围使得研究者能够在不同学科背景下进行跨领域的教学研究。
解决学术问题
该数据集解决了高等教育中自动化教学工具开发的核心问题,特别是在生成高质量课程问题和解答方面。通过提供大量真实课程中的问题和解答,数据集为研究者提供了训练和验证智能教学系统的基准。这不仅推动了教育人工智能的发展,还为课程内容的标准化和优化提供了数据支持,显著提升了教学效率和学习效果。
实际应用
在实际应用中,该数据集被广泛用于开发智能教学助手、自动化考试系统以及个性化学习平台。例如,基于该数据集训练的模型能够自动生成与课程内容相关的问题,并评估学生的解答质量。此外,教育机构可以利用这些数据优化课程设计,提升教学资源的分配效率,从而为学生提供更具针对性的学习体验。
数据集最近研究
最新研究方向
近年来,随着人工智能技术的迅猛发展,教育领域的数据集研究逐渐成为热点。'A Dataset for Learning University STEM Courses at Scale'数据集涵盖了来自7所大学、12个院系的27门STEM课程的667个问题及其解答,为大规模学习大学STEM课程提供了丰富的数据支持。该数据集的前沿研究方向主要集中在如何利用这些数据生成人类水平的问题,以及如何通过机器学习模型提升课程学习的效率和质量。这一研究不仅推动了教育人工智能的发展,还为个性化学习和智能辅导系统的设计提供了新的思路和工具。
以上内容由AI搜集并总结生成



