five

EdNet

收藏
arXiv2020-07-01 更新2024-06-21 收录
下载链接:
https://github.com/riiid/ednet
下载链接
链接失效反馈
官方服务:
资源简介:
EdNet是由Riiid! AI Research创建的大规模层次化教育数据集,包含来自784,309名学生的131,441,538次互动,记录了超过两年的学习活动。数据集不仅涵盖了问题解决活动,还包括课程消费和项目购买等多种学生行为。EdNet的层次结构将学生行为分为四个不同的抽象级别,使其适用于知识追踪和学习路径推荐等AIEd任务。该数据集的领域无关性允许其轻松扩展到不同领域,为AIEd研究提供了丰富的资源。

EdNet is a large-scale hierarchical educational dataset created by Riiid! AI Research, which contains 131,441,538 interactions from 784,309 students, recording learning activities spanning over two years. The dataset covers not only problem-solving activities but also diverse student behaviors such as course consumption and project purchases. The hierarchical structure of EdNet categorizes student behaviors into four distinct abstraction levels, making it applicable to AIEd tasks like knowledge tracing and learning path recommendation. The domain-agnostic nature of this dataset allows it to be easily extended to different domains, providing a rich resource for AIEd research.
提供机构:
Riiid! AI Research
创建时间:
2019-12-06
搜集汇总
数据集介绍
main_image_url
构建方式
在知识追踪领域,数据集的构建方式直接影响模型的训练效果与泛化能力。EdNet作为当前规模最大的公开数据集,其构建过程体现了严谨的数据采集与处理策略。该数据集源自韩国的一款人工智能辅导服务,历时两年多收集了超过78万名学生的交互记录,累计交互次数突破1.3亿次。构建过程中,研究人员采用了分层结构设计,将学生行为划分为四个层级,涵盖从问题解答到课程学习的多样化活动。为确保数据质量,原始数据经过预处理,剔除了技能标签缺失的交互记录以及交互次数过少的学习者,并将长序列分割为固定长度的子序列,以便于模型训练与解释性分析。
特点
EdNet数据集的显著特点在于其规模宏大与结构复杂,为知识追踪研究提供了前所未有的数据资源。该数据集不仅用户基数庞大,交互记录数量远超同类公开数据集,还记录了多维度的学生行为信息,包括问题回答的正确性、时间戳及关联技能标签等。其分层结构允许研究者从不同粒度分析学习过程,从而深入理解知识状态的动态演变。此外,数据集中包含大量多技能标签的题目,这为探索复杂知识结构的建模提供了可能。这些特点使得EdNet成为检验深度学习模型可解释性及性能的理想基准。
使用方法
EdNet数据集的使用方法需结合其大规模与层次化特性进行设计。研究者通常首先对数据进行预处理,过滤无效记录并分割长序列,以适应循环神经网络等时序模型的输入要求。在模型构建阶段,可基于数据集中的KT1子集训练深度学习知识追踪模型,如采用LSTM单元捕捉序列依赖关系。为提升模型的可解释性,可应用层间相关性传播等方法,分析输入特征对预测结果的贡献度。评估时,可通过一致性实验与删除实验验证解释方法的有效性,例如计算相关性值的符号与答案正确性的一致性,或观察删除高贡献度问题后预测准确率的变化趋势。
背景与挑战
背景概述
EdNet数据集于2020年由Choi等人发布,作为教育数据挖掘领域的一项里程碑式成果,它源自韩国一项人工智能辅导服务,涵盖了超过78万名学生长达两年间的学习交互记录,累计交互次数突破1.3亿次,成为当前公开可用的最大规模知识追踪数据集。该数据集的构建旨在应对深度学习知识追踪模型在可解释性方面的瓶颈,通过提供海量、多层次的学生行为数据,为研究者探索模型内部机制、验证解释方法提供了关键实验基础。其出现不仅推动了知识追踪模型从传统贝叶斯方法向深度神经网络的演进,更在个性化学习分析与智能教育系统优化中展现出深远影响力。
当前挑战
EdNet数据集所针对的核心领域问题是知识追踪模型的可解释性挑战,即如何揭示深度学习模型在预测学生知识状态时的决策依据。具体而言,该数据集在应用过程中面临多重挑战:其一,数据规模庞大且序列长度异质,许多交互序列超过200个步骤,这对模型训练与解释算法的计算效率提出了严峻考验;其二,数据具有复杂的层次化结构,涵盖从问题解答到课程学习的多种行为类型,且题目常标注多个技能标签,增加了跨层次、多技能解释的难度;其三,在构建过程中,需处理大量缺失技能标签的记录,并平衡序列分割与原始数据完整性的关系,以确保解释结果的有效性与可靠性。
常用场景
经典使用场景
在智能教育领域,知识追踪模型旨在精准刻画学习者的知识状态演变过程。EdNet作为当前规模最大的公开教育数据集,其经典应用场景在于为深度学习知识追踪模型提供海量、多层次的训练与验证数据。该数据集记录了超过78万名学生长达两年的学习交互行为,涵盖问题解答与课程学习等多种活动,为研究者构建复杂序列模型、捕捉长期依赖关系提供了理想环境。通过利用EdNet,学者能够深入探索学生知识掌握的动态规律,推动个性化学习路径的优化设计。
实际应用
在实际教育场景中,EdNet为自适应学习系统的开发与优化提供了数据支撑。基于该数据集构建的知识追踪模型能够实时评估学生知识掌握程度,并预测未来学习表现,从而为教育平台推荐个性化学习资源。例如,在线辅导服务可利用模型输出动态调整题目难度与内容顺序,提升学习效率。此外,EdNet记录的多类型交互数据有助于分析学生学习习惯与参与模式,为课程设计者改进教学策略、实现精准干预提供依据,最终促进教育公平与质量提升。
衍生相关工作
围绕EdNet数据集,学术界衍生出一系列经典研究工作,主要集中在深度学习知识追踪模型的构建与解释领域。例如,研究者利用该数据集验证了层间相关性传播方法在大型数据上的适用性,拓展了模型可解释性技术的应用边界。同时,基于EdNet的层次化结构,学者们开发了能够处理多技能标签与长序列数据的改进模型,如结合项目反应理论的深度知识追踪框架。这些工作不仅深化了对学习过程建模的理解,也为后续研究提供了新的基准与方向,持续推动智能教育技术的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作