Data Structures and Algorithms dataset, Object Oriented Programming dataset

Name: Data Structures and Algorithms dataset, Object Oriented Programming dataset
Creator: BITS Pilani India
Published: 2025-03-31 19:59:43
License: 暂无描述

arXiv2025-03-31 更新2025-04-03 收录

下载链接：

http://arxiv.org/abs/2503.23989v1

下载链接

链接失效反馈

官方服务：

资源简介：

本文创建的两个数据集针对计算机科学本科教育中的两个重要课程：数据结构与算法和面向对象程序设计。每个数据集都包含了问题描述、学生提交的代码、模型解决方案、评分量表和定性反馈。这些数据集旨在为基准测试LLM在代码评估任务中的性能提供必要的元素，并 soon 将对公众开放以促进进一步研究。

The two datasets created in this paper target two core undergraduate computer science courses: Data Structures and Algorithms, and Object-Oriented Programming. Each dataset contains problem descriptions, student-submitted code, model solutions, grading rubrics, and qualitative feedback. These datasets are designed to provide essential elements for benchmarking the performance of large language models (LLMs) in code evaluation tasks, and will be made publicly available soon to facilitate further research.

提供机构：

BITS Pilani India

创建时间：

2025-03-31

搜集汇总

数据集介绍

构建方式

在计算机科学教育领域，数据结构和算法（DSA）以及面向对象编程（OOP）是核心课程，对学生的编程能力培养至关重要。本数据集构建过程严谨，DSA数据集包含来自知名练习网站的150份学生提交，涵盖9个主题和3个难度级别；OOP数据集则包含来自本科课程的80份提交，均经过教学助理严格评分并分为四个分数段。每个数据点均包含问题描述、学生代码、模型解决方案、评分细则和定性反馈，确保了数据的全面性和教育相关性。数据集构建采用分层抽样方法，确保了不同能力水平样本的代表性。

特点

该数据集具有显著的领域专业性和教育实用性特征。DSA部分覆盖数组、二叉树、动态规划等经典算法题型，OOP部分聚焦Java语言的文件I/O处理和类设计等核心概念。独特之处在于配套提供了精细的题目特定评分细则（QS rubrics），这区别于传统的通用评分标准，能更精准评估学生的逻辑思维能力。数据集还创新性地包含了编译反馈和多维度评估指标，如新提出的'严格度'指标，为研究自动化代码评估提供了丰富的元数据。不同难度级别的均衡分布使数据集适用于多层次研究需求。

使用方法

该数据集为编程教育评估研究提供了标准化的实验平台。研究者可将其用于开发或测试基于LLM的代码自动评估系统，特别是验证题目特定评分细则的有效性。使用时应遵循原始论文中的评估框架：先通过编译器检测语法错误，再使用CRE、PRE或EME方法进行逻辑评估。数据集中的模型解决方案可作为参考答案，而人工评分结果可作为基准真值。对于新兴研究，建议重点分析不同难度题目下LLM评估的一致性，以及'严格度'指标与传统评估指标的相关性。数据集的模块化结构也支持针对特定算法类型或OOP概念的专项研究。

背景与挑战

背景概述

Data Structures and Algorithms dataset与Object Oriented Programming dataset是由BITS Pilani India的研究团队于2025年构建的教育评估数据集，旨在解决LLM在编程作业评估中的局限性问题。该数据集包含230份学生提交的代码（150份DSA和80份OOP），涵盖模型解决方案、评分标准和人工反馈，为编程教育领域的自动评估研究提供了重要基准。其创新性体现在首次将问题特定评分标准（question-specific rubrics）系统化应用于高级编程课程评估，弥补了传统测试用例评估方法在逻辑理解方面的不足。

当前挑战

该数据集面临的核心挑战包括：1) 领域问题方面，需解决复杂算法逻辑评估的准确性难题，特别是在多解法的DSA问题中保持评分一致性；2) 构建过程中需处理代码风格多样性带来的评估偏差，如OOP作业中不同实现方式对评分标准适配性的影响；3) 数据标注阶段要求教学专家建立细粒度的评分标准，同时确保不同评分者间的评估信度。此外，数据集还需平衡教育场景中逻辑正确性与语法严格性的评估权重，这对LLM的上下文理解能力提出了更高要求。

常用场景

经典使用场景

在计算机科学教育领域，Data Structures and Algorithms dataset和Object Oriented Programming dataset为编程作业的自动化评估提供了重要支持。这些数据集通过收集学生提交的代码、模型解决方案和评分细则，为基于大语言模型（LLM）的代码评估研究奠定了数据基础。特别是在数据结构与算法、面向对象编程等核心课程中，这些数据集能够模拟真实教学场景，帮助研究者测试和优化自动评分系统的性能。

实际应用

在实际教学场景中，这些数据集的应用显著提升了编程作业评估的效率和质量。教育机构可利用基于这些数据集开发的自动评分系统，快速处理大量学生作业，同时提供一致性更高的反馈。特别是在大规模在线课程（MOOC）或编程练习平台中，这种自动化评估能有效减轻教师负担，使学生获得及时、个性化的学习反馈，从而优化学习体验和效果。

衍生相关工作

围绕该数据集已衍生出多项创新性研究。例如，Complete Rubric Evaluation (CRE)和Pointwise Rubric Evaluation (PRE)等方法直接利用数据集中的评分细则进行多维度评估。Ensembling Method Evaluation (EME)则通过集成多个LLM的评估结果提升可靠性。此外，数据集还支持了CodeBERTScore、CodeJudge等评估技术的对比研究，推动了编程教育评估领域的算法进步和方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集