five

AL-CPL Dataset

收藏
github2020-07-16 更新2024-05-31 收录
下载链接:
https://github.com/Damon03/AL-CPL-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于概念先决条件学习的主动学习研究,基于Wiki概念图数据集构建,包含不同教育领域的教科书数据,用于研究概念间的先决条件关系。

This dataset is designed for active learning research in concept prerequisite learning, constructed based on the Wiki concept graph dataset. It includes textbook data from various educational domains, aimed at studying the prerequisite relationships between concepts.
创建时间:
2020-07-16
原始信息汇总

AL-CPL Dataset 概述

数据集来源与构建

  • 原始数据来源:基于 Wang et al. (2016) 的 Wiki 概念图数据集,该数据集收集自不同教育领域的教科书。
  • 数据处理:对原始数据进行预处理,确保每个前提关系满足严格偏序的属性,并由领域专家手动校正标签。同时,通过利用非自反性和传递性属性扩展数据集。

数据集统计

领域 # 概念 # 对 # 前提关系
数据挖掘 120 826 292
几何 89 1681 524
物理 153 1962 487
预计算 224 2060 699

数据文件描述

  • 文件格式:所有数据文件均为 CSV 格式。
  • 文件内容
    • *.pairs: 包含所有概念对(正例和负例),任务是预测第二个概念是否为第一个概念的前提。
    • *.preqs: 包含具有前提关系的概念对(正例),第二个概念是第一个概念的前提。

数据可视化

  • 可视化内容:包含概念前提图的可视化,仅展示数据集中存在的概念对。

特征文件

  • 文件格式:所有特征文件为 SVM light 格式,用于主动学习分类实验。

引用信息

  • 相关论文
    • Liang et al. (2018) "Investigating Active Learning for Concept Prerequisite Learning"
    • Liang et al. (2018) "Active Learning of Strict Partial Orders: A Case Study on Concept Prerequisite Relations"
    • Wang et al. (2016) "Using Prerequisites to Extract Concept Maps from Textbooks"
搜集汇总
数据集介绍
main_image_url
构建方式
AL-CPL数据集的构建基于Wang等人(2016)提出的Wiki概念图谱数据集,该数据集从不同教育领域的教科书中收集概念及其先决关系。在预处理阶段,研究人员验证了每个先决关系是否满足严格偏序的性质,并通过领域专家的手动校正确保标签的准确性。此外,利用反自反性和传递性扩展了数据集,例如若(A, B)为正样本,则添加(B, A)为负样本;若(A, B)和(B, C)均为正样本,则添加(A, C)为正样本。
特点
AL-CPL数据集涵盖了多个教育领域,包括数据挖掘、几何、物理和预微积分,每个领域包含大量概念及其先决关系对。数据集不仅提供了正样本(先决关系对),还通过扩展生成了负样本,确保了数据的多样性和平衡性。此外,数据集以CSV格式存储,便于直接用于机器学习任务,并提供了特征文件和可视化工具,支持进一步的分析与实验。
使用方法
AL-CPL数据集的使用方法主要围绕概念先决关系的学习任务展开。用户可以通过加载CSV格式的*.pairs文件获取所有概念对(包括正负样本),并通过*.preqs文件获取仅包含先决关系的正样本。数据集的特征文件以SVM light格式存储,可直接用于分类实验。此外,可视化文件夹中提供了概念先决关系的图谱,便于用户直观理解数据分布。使用该数据集时,建议引用相关论文以尊重原始研究者的贡献。
背景与挑战
背景概述
AL-CPL数据集由Liang等人于2018年创建,旨在研究主动学习在概念先决关系学习中的应用。该数据集基于Wang等人(2016)的Wiki概念图谱数据集,后者从不同教育领域的教科书中收集了概念图谱数据。AL-CPL数据集涵盖了数据挖掘、几何、物理和预微积分等多个领域,包含大量概念对及其先决关系。通过严格的预处理步骤,研究人员确保了数据集中每个先决关系满足严格偏序的性质,并利用不可逆性和传递性扩展了数据集。该数据集为教育技术、知识图谱构建以及机器学习领域的研究提供了重要的数据支持。
当前挑战
AL-CPL数据集的核心挑战在于如何高效地从大规模概念对中识别和验证先决关系。首先,数据集中概念对的标注依赖于领域专家的手动校正,这一过程耗时且成本高昂。其次,尽管通过严格偏序的性质扩展了数据集,但仍存在数据稀疏性问题,部分领域的概念对数量较少,可能导致模型训练不充分。此外,数据集的构建过程中需确保先决关系的逻辑一致性,这对算法的设计和验证提出了较高要求。最后,如何将主动学习策略有效应用于概念先决关系预测,仍需进一步探索以提升模型的泛化能力和预测精度。
常用场景
经典使用场景
AL-CPL数据集在教育技术领域中被广泛用于研究概念前提关系的自动学习。该数据集通过提供多个学科领域的概念对及其前提关系,支持研究者开发算法来预测概念之间的依赖关系。这种预测不仅有助于理解复杂知识结构,还能为个性化学习系统提供理论支持。
实际应用
在实际应用中,AL-CPL数据集被用于开发智能教育系统,这些系统能够根据学生的学习进度自动推荐相关学习资源。通过分析概念之间的前提关系,系统能够识别学生在学习过程中可能遇到的困难,并提供针对性的学习建议。这种应用不仅提高了学习效率,还增强了学生的学习体验。
衍生相关工作
AL-CPL数据集衍生了一系列关于概念前提关系自动学习的研究工作。例如,基于该数据集的研究提出了多种新的机器学习算法,这些算法在预测概念前提关系方面表现出色。此外,该数据集还被用于开发新的教育技术工具,如智能辅导系统和个性化学习平台,这些工具在实际教育环境中得到了广泛应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作