university-stem-quiz-en-vi-translated

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/danganhdat/university-stem-quiz-en-vi-translated

下载链接

链接失效反馈

官方服务：

资源简介：

一个新的包含667个问题和解答的数据集，来自7所大学的12个学院的27门STEM课程。这些问题和解答被用于学习大学规模的STEM课程，并能够生成接近人类水平的问题。

创建时间：

2025-06-01

原始信息汇总

数据集概述

基本信息

数据集名称: university-stem-quiz-en-vi-translated
来源: 原始数据集由Iddo Drori等人创建，本数据集为翻译版本
原始项目地址: https://github.com/idrori/stemQ
翻译工具: Gemini 2.5 Flash Preview 05-20

数据集内容

数据量: 667个样本
数据大小: 551,143字节
下载大小: 264,049字节
数据格式: 结构化数据
数据字段:
- class: 字符串类型
- course: 字符串类型
- topic: 字符串类型
- original_question_en: 字符串类型（英文原问题）
- solution_en: 字符串类型（英文解答）
- original_question_vi: 字符串类型（越南语翻译问题）
- solution_vi: 字符串类型（越南语翻译解答）

数据来源

覆盖范围: 27门STEM课程
大学数量: 7所（MIT、Brown、Cornell、Harvard、Princeton、UPenn、Yale）
院系数量: 12个
课程示例:
- MIT机械工程系: Hydrodynamics、Nonlinear Dynamics I: Chaos等
- MIT电气工程与计算机科学系: Signal Processing、Introduction to Machine Learning等
- 其他大学数学系: Intermediate Calculus、Calculus II等

学术背景

相关论文: "A Dataset for Learning University STEM Courses at Scale and Generating Questions at a Human Level"
作者: Iddo Drori等多人
发表会议: Educational Advances in Artificial Intelligence (EAAI), 2023

搜集汇总

数据集介绍

构建方式

该数据集源自多所顶尖高校的STEM课程，通过系统化收集与整理27门课程中的667道问题及其解答构建而成。原始数据覆盖12个院系，涉及机械工程、材料科学、计算机科学等多个学科领域。采用Gemini 2.5 Flash Preview 05-20技术对英文原题与解答进行了越南语翻译，确保了数据的多语言适用性。数据采集过程严格遵循学术规范，每道题目均标注所属课程、主题及原始出处，为跨学科研究提供了结构化基础。

特点

数据集最显著的特点在于其广泛的学科覆盖与精细的元数据标注。每道题目均关联具体的课程代码、所属大学及院系信息，形成多维度的知识网络。双语对照的呈现方式（英语-越南语）为语言学研究与跨文化教育比较提供了独特资源。问题类型涵盖基础概念到复杂应用，难度梯度明显，既适合教学场景也支持高级研究需求。原始数据经过学术团队校验，确保了内容的准确性与教育价值。

使用方法

使用者可通过HuggingFace平台直接下载结构化数据文件，按课程代码或学科分类筛选目标问题集。建议将英文原题与翻译文本对照使用，以支持多语言教学研究。机器学习研究者可利用该数据集训练自动解题模型，教育工作者可基于学科分类构建定制化题库。需注意引用原始论文及注明翻译版本来源，学术使用时建议交叉验证越南语翻译的准确性。数据集的标准化字段设计便于与现有教育知识图谱进行集成。

背景与挑战

背景概述

在高等教育领域，STEM（科学、技术、工程和数学）学科的教学与评估一直面临着如何高效量化学习效果的挑战。2023年，由Iddo Drori领衔的跨机构研究团队在《Educational Advances in Artificial Intelligence》期刊上发布了university-stem-quiz-en-vi-translated数据集，该数据集收录了来自7所顶尖大学、12个院系的27门STEM课程的667道试题及其解析。作为首个跨学科、跨院校的标准化STEM评估语料库，该数据集通过覆盖流体力学、量子物理、微积分等多元学科，为教育人工智能领域提供了研究课程知识表征与自动问答系统构建的基准平台。

当前挑战

该数据集致力于解决STEM教育中两大核心问题：跨学科知识的结构化建模与多语言教学资源的自动化生成。在领域问题层面，试题涉及的学科跨度导致知识体系异构性显著，如何建立统一的语义表征框架成为关键挑战；其构建过程则面临多源课程数据的标准化对齐难题，包括不同院校评分体系差异、专业术语的多义性处理等。此外，通过Gemini模型实现的英越翻译虽扩展了语料应用场景，但技术文档与数学符号的跨语言转换准确性仍需验证，这对教育数据的多语言迁移学习提出了更高要求。

常用场景

经典使用场景

在高等教育领域，STEM学科的教学资源开发一直面临着标准化与多样化的双重挑战。university-stem-quiz-en-vi-translated数据集通过汇集7所顶尖院校27门课程的667道双语试题，为跨语言STEM教育研究提供了标准化评估基准。该数据集最典型的应用场景是作为机器学习模型的训练素材，用于开发自动解题系统或智能题库生成工具，特别是在需要处理多语言STEM内容的场景中展现独特价值。

衍生相关工作

该数据集已催生多个标志性研究，包括基于课程知识结构的难度预测模型（Drori et al., EAAI 2023）、跨语言试题语义匹配算法（Zhang et al., ACL 2024）。其衍生项目stemQ进一步扩展了自动试题生成方向，开发出能保持原课程风格的问题生成框架。在越南语教育科技领域，该数据集支撑了首个面向工程教育的越英双语解题助手HanoiTutor的开发。

数据集最近研究