CSEPrompts
收藏arXiv2024-04-04 更新2024-06-21 收录
下载链接:
https://github.com/mraihan-gmu/CSEPrompts
下载链接
链接失效反馈官方服务:
资源简介:
CSEPrompts是由乔治梅森大学等机构创建的计算机科学入门级编程练习和多选题数据集,包含269个编程提示和50个多选题。数据集内容来源于多个在线编程学习平台和大学MOOC课程,旨在评估大型语言模型在编程教育中的应用。创建过程涉及手动收集和确保任务的唯一性,应用领域主要集中在计算机科学教育和编程能力的评估。
CSEPrompts is a dataset of introductory computer science programming exercises and multiple-choice questions created by institutions including George Mason University and other relevant organizations. It comprises 269 programming prompts and 50 multiple-choice questions. The dataset is sourced from multiple online programming learning platforms and university MOOC courses, with the core objective of evaluating the application of large language models (LLMs) in programming education. The creation process involves manual collection and verification of task uniqueness, and its primary application fields focus on computer science education and programming competency assessment.
提供机构:
乔治梅森大学
创建时间:
2024-04-03
搜集汇总
数据集介绍

构建方式
在计算机科学教育领域,随着大型语言模型在编程任务中日益广泛的应用,评估模型对入门级课程内容的掌握程度成为迫切需求。CSEPrompts数据集的构建采用严谨的学术采集策略,从五个主流编程学习平台(如CodingBat、HackerRank)和六门顶尖高校的慕课课程中,手工筛选并整合了219道编程题目与50道多项选择题。每道编程题目均配备至少五个测试用例,部分通过Pynguin工具自动生成以补充完整性,确保数据来源的真实性与教育场景的代表性,同时严格避免内容重复,形成了覆盖广泛且质量可靠的教育评估资源。
特点
该数据集的核心特点在于其鲜明的教育导向与结构化的评估维度。与通用代码生成基准不同,CSEPrompts专注于入门级计算机科学课程中的典型题目,题目设计强调对编程语言语法、语义及基础概念的深入理解。数据集包含编程题目与多项选择题两大类别,其中编程题目进一步细分为来自编程网站与学术慕课的不同难度层次,为模型性能的差异化分析提供了可能。每个题目附带的丰富测试用例与标准答案,构建了多层次、可量化的评估体系,能够精准反映模型在特定教育场景下的实际能力。
使用方法
使用CSEPrompts进行评估时,需遵循其预设的标准化流程。对于代码生成任务,将题目描述以特定提示模板输入待测模型,模型生成的代码需经过人工清洗以剥离非代码文本,随后使用pytest框架执行全部关联测试用例,并根据通过率计算Pass@1等指标。对于多项选择题任务,则需将问题与选项按格式封装后输入模型,直接比对模型输出与标准答案。该框架支持对GPT系列、Code-Llama等多种开源与商用模型进行横向对比,并能通过分析模型在学术题目与编程网站题目上的表现差异,深入探究模型对教育内容的理解深度与泛化能力。
背景与挑战
背景概述
随着大型语言模型在自然语言处理领域的迅猛发展,其在教育领域的应用潜力与潜在风险日益引发关注。2024年,由乔治梅森大学、罗切斯特理工学院和阿斯顿大学的研究团队联合构建的CSEPrompts数据集应运而生,旨在评估大型语言模型在计算机科学入门教育中的表现。该数据集聚焦于编程代码生成与多项选择题解答两大核心任务,通过整合来自主流编程学习网站及知名高校在线课程的219个编程提示与50道多项选择题,为研究模型在真实教育场景下的能力提供了标准化评估框架。CSEPrompts的创建不仅填补了现有基准在学术性编程任务评估上的空白,也为深入探讨人工智能对计算机科学教育的影响奠定了数据基础。
当前挑战
CSEPrompts数据集致力于解决计算机科学教育中编程任务评估的挑战,其核心在于如何准确衡量大型语言模型在理解编程语言语法、语义及解决实际问题方面的能力。现有基准如HumanEval多聚焦于通用软件开发任务,缺乏对教育场景中特有复杂性的覆盖。在构建过程中,研究团队面临多重挑战:一是数据收集需确保学术严谨性,需从真实课程与平台手动筛选并去重,避免自动化工具引入噪声;二是测试用例的构建需兼顾全面性与教育目标,每个提示需配以至少五个测试用例,部分需借助单元测试生成工具补充;三是评估框架需适应不同来源任务的差异,如编程网站与学术慕课在难度与风格上的显著区别,这对模型性能的公平比较提出了更高要求。
常用场景
经典使用场景
在计算机科学教育领域,随着大型语言模型(LLM)在代码生成与问答任务中的能力日益凸显,评估这些模型在入门级课程中的实际表现成为迫切需求。CSEPrompts数据集通过整合来自主流编程学习平台和知名高校慕课(MOOCs)的编程练习题与选择题,构建了一个专门针对计算机科学基础教育场景的评估基准。该数据集最经典的使用场景在于系统性地评测各类LLM在完成典型编程作业和回答基础概念问题时的性能,为理解模型在真实教育环境中的潜力与局限提供了标准化测试平台。
衍生相关工作
CSEPrompts的推出,促进了围绕教育场景下代码生成与评估的一系列相关研究。其构建方法论启发了后续针对更细分教育阶段或编程语言的基准数据集开发。基于其评测结果,研究者们进一步探索了专门针对教育场景微调的代码模型(Educational Code LLMs)的有效性。同时,该数据集也被用于研究提示工程(Prompt Engineering)策略对教育任务性能的影响,以及对比分析通用LLM与专用代码LLM在教育评估中的优劣,从而衍生出众多关于模型适应性、鲁棒性及公平性的深入分析工作。
数据集最近研究
最新研究方向
随着大型语言模型在计算机科学教育领域的广泛应用,CSEPrompts数据集作为评估模型在入门级编程任务中表现的新兴基准,正引领着教育导向的代码生成研究前沿。该数据集聚焦于从真实学术课程和在线编程平台收集的编程提示与多项选择题,填补了现有基准在评估教育场景下代码生成能力的空白。当前研究热点围绕比较不同模型在学术MOOCs与编程网站任务上的性能差异,探索代码生成与多项选择题回答的优劣,以及验证专用代码模型与通用模型在教育任务中的效能。这一研究方向不仅为教育者提供了评估AI辅助编程教学潜力的工具,也推动了针对教育场景的模型优化与课程设计创新,对防范技术滥用、促进教育公平具有深远意义。
相关研究论文
- 1CSEPrompts: A Benchmark of Introductory Computer Science Prompts乔治梅森大学 · 2024年
以上内容由遇见数据集搜集并总结生成



