NUS MOOC Transacts Corpus

github2024-01-16 更新2024-05-31 收录

下载链接：

https://github.com/cmkumar87/NUS-MOOC-Transacts-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模开放在线课程讨论论坛线程的注释语料库，注释基于教学法基础的论述框架，改编自Berkowitz和Gibbs提出的transactivity概念。该语料库简化了他们的教学/心理学编码方案，用于MOOC讨论论坛中的教师帖子和回复。

This is a large-scale annotated corpus of discussion forum threads from massive open online courses (MOOCs), with annotations based on a pedagogical framework adapted from the concept of transactivity proposed by Berkowitz and Gibbs. The corpus simplifies their teaching/psychological coding scheme for instructor posts and replies in MOOC discussion forums.

创建时间：

2017-12-21

原始信息汇总

数据集概述

数据集名称

NUS MOOC Transacts Corpus

数据集描述

该数据集包含大规模开放在线课程（MOOCs）讨论论坛中的讨论线程的注释。注释基于教学话语框架，该框架改编自Berkowitz和Gibbs（1983）提出的“交互性”概念。数据集旨在简化其教学/心理学基础的编码方案，适用于MOOC讨论论坛中的教师帖子和回复。

数据集内容

任务1（标记任务）：要求标注者或NLP系统将教师帖子与之前的学员帖子链接，这些学员帖子是教师帖子的回复或评论。
任务2（分类任务）：要求对已识别的帖子对进行分类，选择最合适的类型，这些类型来自预定义的语篇类型库存。任务2进一步细分为两个子任务，首先要求对帖子对进行顶级分类，然后是子分类。

注释类别

数据集定义了多个级别的注释类别，包括顶级和低级分类，以及是否具有交互性。例如，“请求”类别下的“反馈请求”和“理由请求”被标记为具有交互性。

文件格式

数据以加密的ZIP文件形式提供，每个文件按课程和论坛分组。例如，课程“warhol-001”的“Lecture”论坛的注释线程文件名为“warhol-001.lecture.1.csv”。

目录结构

--|__ Task1-Marking_Task |__ Task2-Categorisation_Task_low_lvl |__ Task2-Categorisation_Task_top_lvl

文件内容

Task1-Marking_Task：包含帖子是否被标记的信息。
Task2-Categorisation_Task_top_lvl：包含每个标记帖子的顶级语篇类别。
Task2-Categorisation_Task_low_lvl：包含每个标记帖子的低级语篇类别。

注释者

所有注释者均为Amazon MTurk平台的众包工作者，每个线程由7名工作者注释。

引用信息

若使用此数据集进行研究，请引用以下博士论文：

@phdthesis{Chandrasekaranthesis2019, author = {MUTHU KUMAR CHANDRASEKARAN}, school = {National University of Singapore}, title = {A DISCOURSE CENTRIC FRAMEWORK FOR FACILITATING INSTRUCTOR INTERVENTION IN MOOC DISCUSSION FORUMS}, year = {2019}, }

搜集汇总

数据集介绍

构建方式

NUS MOOC Transacts Corpus的构建基于大规模开放在线课程（MOOCs）讨论论坛的线程数据，采用了基于教学法的话语框架进行标注。该框架借鉴并简化了Berkowitz和Gibbs于1983年提出的“交互性”概念，专门针对MOOC讨论论坛中的教师发帖和回复进行了编码。数据标注任务通过众包平台Amazon MTurk完成，每个线程由七名标注者进行标注，确保了数据的多样性和可靠性。由于隐私和版权问题，数据集进行了加密处理，并严格限制了访问和使用权限。

特点

该数据集的特点在于其丰富的标注层次和细致的分类体系。数据集包含三个自然语言处理任务：标记任务、分类任务（顶层和底层）。标注类别分为顶层和底层两个层次，涵盖了请求、阐述、解决等多个话语类型，并进一步细化为反馈请求、扩展、澄清等子类别。每个线程的标注结果由多名标注者共同完成，确保了标注的准确性和一致性。数据集的结构清晰，文件格式规范，便于研究人员进行深入分析和模型开发。

使用方法

使用NUS MOOC Transacts Corpus时，研究人员需首先填写学术研究目的许可申请表，获得访问权限后下载加密的数据文件。数据文件按课程和论坛分组，包含标记任务和分类任务的标注结果。研究人员可根据任务需求选择相应的文件进行处理，建议在处理前删除与标注无关的列，以便更好地可视化和分析数据。数据集提供了计算标注者间一致性的脚本，帮助研究人员评估标注质量。使用该数据集时，需引用相关论文以尊重数据创建者的贡献。

背景与挑战

背景概述

NUS MOOC Transacts Corpus是由新加坡国立大学（NUS）的研究团队于2019年创建的一个大规模开放在线课程（MOOC）讨论论坛的标注语料库。该数据集的核心研究问题在于通过基于教学法的对话框架，分析MOOC讨论论坛中教师帖子的干预行为。数据集基于Berkowitz和Gibbs于1983年提出的‘transactivity’理论，对其进行了简化和改编，以适用于MOOC环境。该数据集的主要贡献在于为教师干预行为提供了一个系统化的分类框架，并为自然语言处理任务提供了丰富的标注数据。该数据集在MOOC教育研究和自然语言处理领域具有重要的影响力，特别是在教师干预行为分析和对话系统开发方面。

当前挑战

NUS MOOC Transacts Corpus在构建和应用过程中面临多重挑战。首先，数据集的构建需要处理来自MOOC平台的隐私和版权问题，导致数据加密和访问限制，增加了数据获取和使用的复杂性。其次，标注任务的复杂性较高，尤其是在多层次的对话分类任务中，如何确保标注的一致性和准确性是一个重要问题。尽管采用了众包标注和多个标注者的策略，但不同标注者之间的主观差异仍然可能影响数据的质量。此外，数据集的应用场景主要集中在教师干预行为的分析，如何将其扩展到更广泛的对话分析任务，仍需进一步探索。最后，数据集的格式和结构较为复杂，预处理和模型开发过程中需要处理大量的冗余信息，增加了技术实现的难度。

常用场景

经典使用场景

NUS MOOC Transacts Corpus 数据集在在线教育领域的研究中具有重要价值，尤其是在大规模开放在线课程（MOOC）讨论论坛的文本分析中。该数据集通过标注教师与学生之间的互动，帮助研究者深入理解教师干预的类型和效果。经典使用场景包括分析教师回复的类别及其对学生讨论的影响，从而优化在线课程的教学策略。

衍生相关工作

基于 NUS MOOC Transacts Corpus 数据集，研究者们开展了多项经典工作。例如，开发了基于深度学习的教师回复分类模型，以及用于评估教师干预效果的量化指标。这些工作不仅推动了在线教育领域的研究进展，还为智能教学系统的开发提供了重要的技术基础。

数据集最近研究