BePKT

Name: BePKT
Creator: 华东师范大学
Published: 2021-12-11 10:13:11
License: 暂无描述

arXiv2021-12-11 更新2024-06-21 收录

下载链接：

https://drive.google.com/drive/folders/1Jt6f0MV1paGLlctJqxHtdF1Vh2mUnsoV?usp=sharing

下载链接

链接失效反馈

官方服务：

资源简介：

BePKT数据集由华东师范大学发布，专注于编程知识追踪，包含422名学生的编程学习轨迹。数据集来源于在线评判系统，涵盖编程文本问题、知识标注、用户提交代码和系统记录事件。每个问题都手动标注了知识概念和难度级别，旨在通过丰富的上下文信息提供准确的学生活动预测，适用于个性化在线学习体验的研究。

The BePKT dataset, released by East China Normal University, focuses on programming knowledge tracing and contains the programming learning trajectories of 422 students. The dataset is sourced from online judging systems, covering programming textual questions, knowledge annotations, user-submitted code, and system-recorded events. Each question is manually annotated with knowledge concepts and difficulty levels. It aims to provide accurate predictions of student activities through rich contextual information and is suitable for research on personalized online learning experiences.

提供机构：

华东师范大学

创建时间：

2021-12-11

搜集汇总

数据集介绍

构建方式

BePKT数据集由华东师范大学的在线编程平台收集，涵盖了用户在在线判断系统中的各种在线行为，包括编程文本问题、知识标注、用户提交的代码和系统记录的事件。数据集的构建方式主要包括：从在线编程平台上收集用户行为数据，并对编程问题进行知识概念和难度级别的标注。最终，BePKT数据集包含了来自906名用户的编程学习轨迹，以及1054个问题和106个概念的知识库。

特点

BePKT数据集的特点是全面性和综合性。它不仅包含了用户的在线行为数据，还包含了编程问题和知识概念的知识库。此外，BePKT数据集是迄今为止最全面的编程知识追踪数据集，它涵盖了各种在线行为，包括编程文本问题、知识标注、用户提交的代码和系统记录的事件。这使得BePKT数据集成为研究编程知识追踪的理想选择。

使用方法

BePKT数据集的使用方法主要包括：数据预处理、模型训练和模型评估。在数据预处理阶段，需要对用户行为数据进行清洗和标注，并对编程问题进行知识概念和难度级别的标注。在模型训练阶段，可以使用各种编程知识追踪模型，例如DKT、DKVMN、DKTP、AKT等，并结合PLCodeBERT进行代码嵌入。在模型评估阶段，可以使用AUC等指标评估模型的性能。

背景与挑战

背景概述

在编程教育领域，知识追踪是一项关键任务，旨在根据学生的独特背景、能力和状态提供个性化的学习体验。为了推动这一领域的研究，Renyu Zhu等人于2021年12月11日在arXiv上发布了名为BePKT的编程知识追踪数据集。BePKT数据集由华东师范大学和浙江大学的研究人员共同创建，是迄今为止最全面的编程知识追踪数据集。该数据集包含了在线评测系统中的各种在线行为，包括编程文本问题、知识注释、用户提交的代码和系统记录的事件。BePKT数据集的发布为编程知识追踪领域的研究提供了宝贵的资源，并推动了该领域的发展。

当前挑战

BePKT数据集的发布虽然为编程知识追踪领域的研究提供了宝贵的资源，但也面临一些挑战。首先，现有的编程数据集，如BlackBox、Code Hunt、Code.org、CloudCoder和CodeBench等，由于缺乏足够的上下文信息，难以提供可靠的性能。其次，这些数据集都没有包含知识概念注释，无法有效地追踪学习状态。为了解决这些问题，BePKT数据集从在线评测系统中收集了用户的所有在线行为，并对编程问题进行了知识概念和难度等级的注释。此外，BePKT数据集还面临着构建过程中的挑战，例如如何有效地表示和嵌入代码，以及如何将问题、代码和概念的特征进行有效的融合。为了应对这些挑战，研究人员提出了一个新的模型PDKT，该模型利用了丰富的上下文信息，通过构建一个编程问题嵌入的二部图、设计一个改进的预训练模型PLCodeBERT以及一个具有指数衰减注意力的双序列RNN模型，来实现对学生行为的准确预测。实验结果表明，PDKT模型在编程知识追踪任务中取得了最先进的性能。

常用场景

经典使用场景

BePKT数据集广泛应用于编程教育的知识追踪领域。通过收集和分析在线编程平台上的用户行为数据，包括编程文本问题、知识标注、用户提交的代码和系统记录的事件，BePKT为研究者提供了丰富的数据资源。该数据集的经典使用场景包括学生编程行为预测、个性化学习路径推荐和编程知识掌握程度评估等。通过结合问题嵌入和代码嵌入，BePKT能够准确地预测学生的学习状态，并根据学生的实际情况提供个性化的学习建议和反馈。

解决学术问题

BePKT数据集解决了编程知识追踪领域中的关键学术研究问题。现有的编程数据集缺乏足够的上下文信息，无法提供可靠的性能。此外，它们也没有包含知识概念标注，无法追踪学习状态并确定知识图中每个概念的掌握程度。BePKT通过收集在线用户行为数据并标注编程问题的知识概念和难度级别，填补了这一空白。该数据集为编程知识追踪研究提供了可靠的数据基础，并促进了个性化学习体验的发展。

衍生相关工作

BePKT数据集衍生了一系列相关的研究工作，进一步推动了编程知识追踪领域的发展。基于BePKT数据集，研究者提出了新的模型和方法，以提高编程知识追踪的准确性和有效性。例如，PLCodeBERT是一种改进的代码嵌入预训练框架，能够有效地表示代码并提高编程知识追踪模型的性能。此外，基于BePKT数据集的研究工作还包括对编程学习行为的影响因素分析、编程知识掌握程度评估方法和个性化学习路径推荐算法等。这些研究成果不仅为编程教育提供了新的理论和方法，也为在线编程平台的发展提供了重要的参考和指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集