CrowdComp Dataset, Course Dataset

github2020-08-24 更新2024-05-31 收录

下载链接：

https://github.com/harrylclc/RefD-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CrowdComp数据集包含五个领域：减数分裂、公钥加密、平行公设、牛顿定律和全球变暖。每个CSV文件记录了亚马逊Mechanical Turk上的人类智能任务（HIT）的众包结果。Course数据集包含计算机科学和数学两个领域，文件.edges包含预设概念对，.edges_neg包含该领域的负面示例。

The CrowdComp dataset encompasses five domains: meiosis, public-key cryptography, the parallel postulate, Newton's laws, and global warming. Each CSV file documents the crowdsourced outcomes of human intelligence tasks (HITs) conducted on Amazon Mechanical Turk. The Course dataset includes two fields: computer science and mathematics. The .edges files contain predefined concept pairs, while the .edges_neg files provide negative examples within these domains.

创建时间：

2018-03-28

原始信息汇总

数据集概述

数据集名称

RefD-dataset

数据集来源

用于论文 "Measuring Prerequisite Relations Among Concepts" (Liang et al., 2015) 中的数据。

数据集内容

包含两个子数据集：

CrowdComp Dataset
- 包含领域：Meiosis, Public-key Cryptography, Parallel Postulate, Newtons Laws, Global Warming
- 数据格式：每个csv文件记录了Amazon Mechanical Turk上的Human Intelligent Task (HIT)的众包结果。
Course Dataset
- 包含领域：Computer Science (CS) 和 Mathematics (MATH)
- 数据格式：.edges 文件包含预设概念对，.edges_neg 文件包含该领域的负例。
- 数据示例：文件中每行格式为 A B，表示B是A的先决条件。例如，CS.edges 中有一行 Network security Computer network，表明 Computer network 是 Network security 的先决条件。

引用信息

如使用此数据，请引用以下论文：

Liang, Chen et al. "Measuring Prerequisite Relations Among Concepts." Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing.
Talukdar, Partha Pratim and Cohen, William W. "Crowdsourced comprehension: predicting prerequisite structure in wikipedia." Proceedings of the Seventh Workshop on Building Educational Applications Using NLP.

搜集汇总

数据集介绍

构建方式

CrowdComp数据集和Course数据集的构建均基于特定领域的知识结构。CrowdComp数据集通过亚马逊Mechanical Turk平台进行众包任务，收集了五个不同领域（如减数分裂、公钥加密等）的概念关系数据。每个CSV文件记录了众包任务的结果，反映了人类智能对概念关系的理解。Course数据集则通过整理计算机科学和数学领域的课程内容，生成了概念之间的先决关系对，并以'.edges'和'.edges_neg'文件格式存储，分别表示正例和负例。

特点

CrowdComp数据集的特点在于其多领域覆盖和众包数据的多样性，能够反映不同领域内概念关系的复杂性。Course数据集则专注于计算机科学和数学领域，提供了清晰的概念先决关系对，便于研究者分析课程知识结构。两个数据集均以简洁的文本格式存储，便于数据处理和分析。

使用方法

使用CrowdComp数据集时，研究者可通过分析众包任务的结果，探索不同领域内概念关系的共识与分歧。Course数据集则适用于教育技术领域的研究，通过解析'.edges'文件中的先决关系对，构建知识图谱或优化课程设计。两个数据集均需引用相关文献，并遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License的使用规范。

背景与挑战

背景概述

CrowdComp Dataset和Course Dataset是由Liang等人于2015年提出的，旨在研究概念之间的先决关系。该数据集的核心研究问题是通过众包和课程数据来量化和分析不同领域概念之间的先决关系。CrowdComp Dataset由Talukdar和Cohen于2012年创建，涵盖了五个不同的领域，包括减数分裂、公钥加密、平行公设、牛顿定律和全球变暖。Course Dataset则专注于计算机科学和数学领域，提供了概念对及其先决关系的详细记录。这些数据集在教育技术、知识图谱构建和自然语言处理等领域具有重要影响力，为理解复杂概念之间的关系提供了宝贵的数据支持。

当前挑战

CrowdComp Dataset和Course Dataset在解决概念先决关系问题时面临多重挑战。首先，众包数据的质量控制和一致性是一个关键问题，不同参与者对概念的理解可能存在偏差，导致数据的不一致性。其次，构建Course Dataset时，如何准确识别和验证概念之间的先决关系也是一个技术难点，尤其是在跨学科领域。此外，数据集的扩展性和通用性也受到限制，现有数据集仅涵盖有限的领域，难以直接应用于其他学科或更广泛的知识体系。这些挑战不仅影响了数据集的构建过程，也对其在实际应用中的效果提出了更高的要求。

常用场景

经典使用场景

CrowdComp数据集和Course数据集在教育和自然语言处理领域具有广泛的应用。CrowdComp数据集通过众包方式收集了多个学科领域的概念关系，常用于研究概念之间的先决条件关系。Course数据集则专注于计算机科学和数学领域，提供了明确的概念对及其先决条件关系，适用于构建知识图谱和教育推荐系统。

衍生相关工作

基于CrowdComp和Course数据集，许多经典研究工作得以展开。例如，Liang等人（2015）提出了基于先决条件关系的概念建模方法，为后续的知识图谱构建提供了理论基础。Talukdar和Cohen（2012）则利用CrowdComp数据集开发了众包驱动的知识获取框架，推动了众包数据在教育领域的广泛应用。这些工作为相关领域的研究奠定了坚实的基础。

数据集最近研究