NUS MOOC Transacts Corpus

github2024-01-16 更新2024-05-31 收录

下载链接：

https://github.com/WING-NUS/nus-mooc-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模开放在线课程讨论论坛线程的注释语料库，注释基于教学法为基础的论述框架，简化了Berkowitz和Gibbs提出的教学/心理学编码方案，用于MOOC讨论论坛中的教师帖子和回复。

This is a large-scale annotated corpus of discussion forum threads from massive open online courses (MOOCs). The annotations are based on a pedagogy-oriented discourse framework, which simplifies the teaching/psychological coding scheme proposed by Berkowitz and Gibbs, and is applied to instructor posts and replies in MOOC discussion forums.

创建时间：

2017-12-21

原始信息汇总

数据集概述

数据集名称

NUS MOOC Transacts Corpus

数据集描述

这是一个注释的讨论论坛线程语料库，源自大规模开放在线课程（MOOCs）。注释基于教学话语框架，该框架改编自Berkowitz和Gibbs（1983）提出的“transactivity”概念。此数据集简化了他们的教学/心理学编码方案，用于MOOC讨论论坛中的教师帖子和回复。

数据集任务

标记任务：将教师帖子与之前的学员帖子链接，这些学员帖子是教师帖子的回复或评论。
分类任务：将识别的帖子对分类为预定义的讨论类型之一。此任务进一步分为两个子任务：
- 子任务1：将帖子对分类为顶级类别。
- 子任务2：在选定的顶级类别下，进一步分类为子类别。

注释类别

数据集定义了多个注释类别，包括顶级和低级类别，以及是否为“transactive”。

文件格式

数据以加密的ZIP文件形式提供，每个文件代表一个课程的论坛，并按任务类型组织在不同的目录中。

文件结构

--|__ Task1-Marking_Task |__ Task2-Categorisation_Task_low_lvl |__ Task2-Categorisation_Task_top_lvl

文件内容

Task1-Marking_Task：包含帖子是否被标记的信息。
Task2-Categorisation_Task_top_lvl：包含顶级讨论类别的信息。
Task2-Categorisation_Task_low_lvl：包含低级讨论类别的信息。

注释者

所有注释者均为Amazon MTurk平台的众包工作者，每个线程由7名工作者注释。

引用信息

若使用此数据集，请引用以下博士论文： @phdthesis{Chandrasekaranthesis2019, author = {MUTHU KUMAR CHANDRASEKARAN}, school = {National University of Singapore}, title = {A DISCOURSE CENTRIC FRAMEWORK FOR FACILITATING INSTRUCTOR INTERVENTION IN MOOC DISCUSSION FORUMS}, year = {2019}, }

搜集汇总

数据集介绍

构建方式

NUS MOOC Transacts Corpus的构建基于大规模开放在线课程（MOOCs）讨论论坛的线程数据，采用了基于教育学的对话框架进行标注。该框架借鉴并简化了Berkowitz和Gibbs于1983年提出的“交互性”概念，专门针对MOOCs论坛中的教师发帖和回复进行编码。数据标注任务通过众包方式完成，每个线程由七名亚马逊MTurk平台的众包工人进行标注，确保了标注的多样性和可靠性。由于隐私和版权问题，数据集经过加密处理，并需通过学术研究目的许可申请获取。

特点

该数据集的特点在于其标注的细致性和多层次性。数据集包含三个自然语言处理任务：标记任务、分类任务（分为顶层分类和底层分类）。标记任务要求将教师发帖与之前的学生发帖进行关联，分类任务则进一步将关联的发帖对归类到预定义的对话类型中。标注类别分为顶层和底层，涵盖了请求、阐述、解决等多个维度，且每个类别均标注了是否具有交互性。数据集的结构清晰，文件格式规范，便于研究人员进行深入分析和模型开发。

使用方法

使用NUS MOOC Transacts Corpus时，研究人员需首先通过学术研究目的许可申请获取数据。数据集以加密的zip文件形式提供，解压后可按课程和论坛进行分类。每个任务的文件格式均包含详细的头部信息，研究人员可根据需要选择保留或删除特定列以简化数据处理。数据集的使用建议包括去除HTML格式的列和与MTurk系统相关的冗余列，以便更好地进行数据可视化和模型开发。此外，数据集提供了计算标注者间一致性的脚本，帮助研究人员评估标注质量。

背景与挑战

背景概述

NUS MOOC Transacts Corpus是由新加坡国立大学（NUS）的研究人员创建的一个标注语料库，专注于大规模开放在线课程（MOOCs）讨论论坛中的对话分析。该数据集基于Berkowitz和Gibbs于1983年提出的教学心理学框架，对论坛中的教师发帖和回复进行了标注，旨在研究教师干预在MOOCs讨论中的有效性。该数据集的核心研究问题是如何通过自然语言处理技术识别和分类教师发帖的干预类型，以提升在线教育中的教学效果。该数据集于2019年作为Muthu Kumar Chandrasekaran博士论文的一部分发布，对在线教育领域的研究具有重要影响，尤其是在教师干预和讨论分析方面。

当前挑战

NUS MOOC Transacts Corpus在构建和应用过程中面临多重挑战。首先，数据集的标注任务涉及复杂的教学心理学框架，要求标注者具备较高的专业知识和一致性，这对标注质量和一致性提出了较高要求。其次，由于数据来源于MOOCs平台（如Coursera），隐私和版权问题使得数据必须加密处理，限制了数据的公开访问和使用。此外，数据集的标注任务分为多个子任务，包括教师发帖的链接和分类，这些任务的复杂性增加了数据处理和模型开发的难度。最后，尽管通过众包平台（如Amazon MTurk）进行标注，但如何确保标注者之间的高一致性（如通过Fleiss Kappa系数衡量）仍然是一个技术挑战。

常用场景

经典使用场景

NUS MOOC Transacts Corpus 数据集在在线教育领域的研究中具有重要应用，特别是在大规模开放在线课程（MOOC）讨论论坛的分析中。该数据集通过标注教师与学生之间的互动，帮助研究者深入理解教学干预的效果。经典的使用场景包括分析教师回复的类型及其对学生学习行为的影响，从而优化在线课程的教学策略。

实际应用

在实际应用中，NUS MOOC Transacts Corpus 数据集被广泛用于开发智能教学系统。通过分析教师与学生的互动模式，系统能够自动识别有效的教学干预策略，并为教师提供实时反馈。此外，该数据集还被用于培训自然语言处理模型，以自动分类和生成教学回复，提升在线课程的教学质量。

衍生相关工作

基于 NUS MOOC Transacts Corpus 数据集，研究者们开展了多项经典工作。例如，开发了基于深度学习的模型，用于自动分类教师回复的类型；提出了新的教学干预策略，通过分析数据集中的互动模式，优化了在线课程的教学设计。这些工作不仅推动了教育技术的发展，还为在线教育的研究提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集