AL-CPL Dataset
收藏github2023-08-16 更新2024-05-31 收录
下载链接:
https://github.com/harrylclc/AL-CPL-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于主动学习概念先决条件学习,基于Wiki概念图数据集构建,收集自不同教育领域的教科书。每个领域包含概念图中的先决条件对。数据集经过预处理,确保每项先决条件关系满足严格偏序的必要属性,并通过领域专家手动校正标签。此外,数据集还通过使用非自反和传递性属性进行了扩展。
This dataset is designed for active learning of concept prerequisite relations, constructed based on the Wiki Concept Graph dataset and collected from textbooks across various educational domains. Each domain includes prerequisite pairs within the concept graph. The dataset has been preprocessed to ensure that each prerequisite relationship satisfies the necessary properties of a strict partial order, with labels manually corrected by domain experts. Furthermore, the dataset has been expanded using non-reflexive and transitive properties.
创建时间:
2018-05-22
原始信息汇总
AL-CPL Dataset 概述
数据集来源与构建
- 原始数据来源:基于 Wang et al. (2016) 的 Wiki 概念图数据集,该数据集从不同教育领域的教科书中收集。
- 数据处理:对原始数据进行预处理,确保每个前提关系满足严格偏序的必要属性,并由领域专家手动校正标签。此外,通过使用非自反和传递性属性扩展数据集。
数据集统计
| 领域 | # 概念 | # 对 | # 前提 |
|---|---|---|---|
| 数据挖掘 | 120 | 826 | 292 |
| 几何 | 89 | 1681 | 524 |
| 物理 | 153 | 1962 | 487 |
| 预计算 | 224 | 2060 | 699 |
数据文件描述
- 数据文件位置:"data" 文件夹。
- 文件格式:CSV。
- 文件类型:
- *.pairs: 包含所有概念对(正例和负例),任务是预测第二个概念是否是第一个概念的前提。
- *.preqs: 包含具有前提关系的概念对(正例),第二个概念是第一个概念的前提。
数据可视化
- 可视化文件位置:"visualization" 文件夹。
- 内容:展示概念前提图的可视化,仅包含数据集中的概念对。
特征文件
- 特征文件位置:"features" 文件夹。
- 文件格式:SVM light 格式。
- 用途:用于主动学习分类实验的原始特征文件。
引用信息
- 相关论文:
- Liang et al. (2018) "Investigating Active Learning for Concept Prerequisite Learning"。
- Liang et al. (2018) "Active Learning of Strict Partial Orders: A Case Study on Concept Prerequisite Relations"。
- Wang et al. (2016) "Using Prerequisites to Extract Concept Maps from Textbooks"。
许可证
- 类型:Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
搜集汇总
数据集介绍

构建方式
AL-CPL数据集基于Wang等人(2016)的Wiki概念图数据集构建,该数据集从不同教育领域的教科书中收集概念及其先决关系。在预处理阶段,研究者验证了每个先决关系是否满足严格偏序的属性,并通过领域专家手动校正标签。此外,利用反自反性和传递性扩展数据集,例如若(A, B)为正样本,则添加(B, A)为负样本;若(A, B)和(B, C)均为正样本,则添加(A, C)为正样本。
特点
AL-CPL数据集涵盖了数据挖掘、几何、物理和预微积分四个领域,包含大量概念对及其先决关系。数据集不仅提供了正样本(先决关系),还通过扩展生成了负样本,确保了数据的多样性和完整性。每个领域的概念对数量从1681到2060不等,先决关系数量从292到699不等,为研究概念先决关系提供了丰富的实验数据。
使用方法
AL-CPL数据集的使用方法主要围绕主动学习实验展开。数据以CSV格式存储,包含所有概念对(正负样本)和仅含先决关系的正样本。研究者可通过预测第二个概念是否为第一个概念的先决关系来进行分类任务。此外,数据集还提供了SVM格式的原始特征文件,便于直接用于分类实验。数据可视化文件夹中展示了概念先决关系图,帮助用户更直观地理解数据分布。
背景与挑战
背景概述
AL-CPL数据集由Liang等人在2018年提出,旨在研究主动学习在概念先决关系学习中的应用。该数据集基于Wang等人(2016)的Wiki概念图谱数据集构建,涵盖了数据挖掘、几何、物理和预微积分等多个教育领域的教材内容。数据集的核心研究问题是通过主动学习方法,识别和预测概念之间的先决关系,从而为教育技术领域提供更高效的学习路径规划工具。该数据集在教育技术、知识图谱构建等领域具有重要影响力,推动了相关研究的深入发展。
当前挑战
AL-CPL数据集在解决概念先决关系预测问题时面临多重挑战。首先,概念先决关系的标注依赖于领域专家的手动验证,这一过程耗时且容易引入主观偏差。其次,数据集的构建需要满足严格偏序关系的性质,包括反自反性和传递性,这对数据的预处理和扩展提出了较高要求。此外,数据集中未涵盖所有可能的概念对,导致模型在泛化能力上存在局限。最后,主动学习方法的引入虽然提升了数据利用效率,但也增加了模型训练和评估的复杂性,尤其是在处理大规模概念图谱时,计算资源的需求显著增加。
常用场景
经典使用场景
AL-CPL数据集在概念前提关系学习中具有重要应用,特别是在教育领域的知识图谱构建中。该数据集通过从不同教育领域的教科书中提取概念对,帮助研究者理解概念之间的前提关系。经典使用场景包括利用该数据集进行主动学习实验,预测某一概念是否为另一概念的前提,从而优化知识图谱的结构。
实际应用
在实际应用中,AL-CPL数据集被广泛用于教育技术领域,特别是在智能辅导系统和自适应学习平台的开发中。通过分析概念前提关系,这些系统能够为学生提供个性化的学习路径推荐,帮助他们更高效地掌握复杂知识结构。此外,该数据集还为教育资源的自动标注和知识图谱的构建提供了有力支持。
衍生相关工作
AL-CPL数据集衍生了许多经典研究工作,特别是在主动学习和知识图谱领域。例如,Liang等人基于该数据集提出了多种主动学习算法,显著提升了概念前提关系预测的准确性。此外,该数据集还被用于研究严格偏序关系的自动学习,推动了教育数据挖掘和知识表示学习领域的发展。
以上内容由遇见数据集搜集并总结生成



