NUS MOOC Transacts Corpus

github2021-11-28 更新2024-05-31 收录

下载链接：

https://github.com/WING-NUS/NUS-MOOC-Transacts-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模开放在线课程（MOOC）讨论论坛线程的注释语料库。注释基于一种基于教学法的论述框架，该框架改编自Berkowitz和Gibbs（1983）提出的‘交互性’概念。本语料库简化了他们基于教学/心理学的编码方案，用于MOOC讨论论坛中的教师帖子和回复。

This is an annotated corpus of discussion forum threads from a massive open online course (MOOC). The annotations are based on a pedagogical discourse framework adapted from the concept of 'interactivity' proposed by Berkowitz and Gibbs (1983). The corpus simplifies their teaching/psychology-based coding scheme, which is applied to instructor posts and replies in MOOC discussion forums.

创建时间：

2020-04-09

原始信息汇总

数据集概述

数据集名称

NUS MOOC Transacts Corpus

数据集描述

该数据集包含来自大规模开放在线课程（MOOCs）讨论论坛的帖子，基于教学法为基础的论述框架进行注释。注释主要围绕“transactivity”概念，适用于MOOC讨论论坛中的教师帖子和回复。

数据集内容

任务1（标记任务）：要求标记教师帖子与之前学生帖子的关联，即教师帖子是对哪些学生帖子的回复或评论。
任务2（分类任务）：要求对已标记的帖子对进行分类，从预定义的论述类型清单中选择最合适的类型。任务2进一步细分为两个子任务：首先分类为顶级类别，然后细分为子类别。

注释类别

数据集定义了多个注释类别，包括顶级和低级类别，以及是否为“transactive”。例如，“请求”类别下的“反馈请求”和“理由请求”均为“transactive”。

文件格式

数据以加密的ZIP文件形式提供，文件名按照课程和论坛进行组织。例如，课程“warhol-001”的“Lecture”论坛的文件名为“warhol-001.lecture.1.csv”。

目录结构

Task1-Marking_Task
Task2-Categorisation_Task_top_lvl
Task2-Categorisation_Task_low_lvl

文件内容

Task1-Marking_Task 文件包含以下列："HITId", "WorkerId", "Input.posts", "Input.inst_post", "Answer.1" 至 "Answer.n"。
Task2-Categorisation_Task_top_lvl 文件包含以下列："HITId", "WorkerId", "Input.posts", "Input.inst_post", "Answer.1_discourse_type" 至 "Answer.X_discourse_type"。
Task2-Categorisation_Task_low_lvl 文件格式类似，但分类为低级类别。

注释者

所有注释者为Amazon MTurk平台的众包工作者，每个帖子由7名工作者注释。

引用信息

若使用此数据集进行研究，请引用：

@phdthesis{Chandrasekaranthesis2019, author = {MUTHU KUMAR CHANDRASEKARAN}, school = {National University of Singapore}, title = {A DISCOURSE CENTRIC FRAMEWORK FOR FACILITATING INSTRUCTOR INTERVENTION IN MOOC DISCUSSION FORUMS}, year = {2019}, }

搜集汇总

数据集介绍

构建方式

NUS MOOC Transacts Corpus 数据集的构建基于大规模开放在线课程（MOOCs）讨论论坛的线程，采用了一种基于教学法的语篇框架进行注释。该框架借鉴并简化了Berkowitz和Gibbs于1983年提出的‘transactivity’概念，专门针对MOOCs讨论论坛中的教师帖子和回复进行编码。数据集的注释任务通过众包方式进行，每个线程由七名标注者独立完成，以确保数据的多样性和准确性。

特点

该数据集的特点在于其丰富的语篇类型分类，涵盖了从请求反馈到详细阐述、解决问题等多种教师干预类型。数据集提供了三个自然语言处理任务的序列化注释数据，包括标记任务和分类任务。分类任务进一步细分为顶级类别和低级类别，使得研究者能够深入分析教师干预的具体类型和效果。

使用方法

使用NUS MOOC Transacts Corpus时，研究者需首先填写学术研究目的许可申请表以获得数据访问权限。数据集以加密的zip文件形式提供，包含按课程和论坛分组的注释数据。研究者可以通过分析任务文件夹中的CSV文件，提取和处理教师干预的语篇类型数据。建议在数据处理前移除与MTurk系统相关的冗余列，以便更清晰地展示和分析注释数据。

背景与挑战

背景概述

NUS MOOC Transacts Corpus是由新加坡国立大学（NUS）的研究团队于2019年创建的一个大规模开放在线课程（MOOC）讨论论坛的标注语料库。该数据集的核心研究问题在于通过基于教学法的对话框架，分析MOOC讨论论坛中教师与学生的互动行为，特别是教师干预的类型和效果。该语料库的标注基于Berkowitz和Gibbs于1983年提出的‘transactivity’理论，并对其进行了简化和调整，以适应MOOC论坛的特定情境。该数据集为教育技术、自然语言处理以及在线学习行为分析等领域提供了重要的研究资源，推动了教师干预策略的自动化和智能化研究。

当前挑战

NUS MOOC Transacts Corpus在构建和应用过程中面临多重挑战。首先，数据集的构建依赖于从MOOC平台（如Coursera）获取的讨论论坛数据，但由于隐私和版权问题，数据必须经过加密处理，这增加了数据访问和使用的复杂性。其次，标注任务涉及复杂的对话结构分析，要求标注者具备较高的语言学和教育学知识背景，而通过众包平台（如Amazon MTurk）进行标注时，标注质量的控制和一致性成为一大难题。此外，数据集的标注框架基于‘transactivity’理论，该理论在MOOC环境中的适用性仍需进一步验证，特别是在跨文化和跨学科背景下的泛化能力。这些挑战不仅影响了数据集的构建效率，也对后续的模型开发和评估提出了更高的要求。

常用场景

经典使用场景

NUS MOOC Transacts Corpus 数据集在在线教育领域的研究中具有重要应用，尤其是在大规模开放在线课程（MOOCs）的讨论论坛分析中。该数据集通过标注教师与学生之间的互动，帮助研究者深入理解教师干预的类型和效果。经典的使用场景包括分析教师回复的类型及其对学生学习行为的影响，从而优化在线课程的教学策略。

实际应用

在实际应用中，NUS MOOC Transacts Corpus 数据集被广泛用于开发智能教学系统。通过分析教师回复的模式，系统可以自动生成个性化的教学反馈，提升学生的学习体验。此外，该数据集还被用于培训教师，帮助他们更好地理解如何通过讨论论坛与学生进行有效互动。

衍生相关工作

基于 NUS MOOC Transacts Corpus 数据集，许多经典研究工作得以展开。例如，研究者开发了基于自然语言处理的模型，用于自动分类教师回复的类型，并评估其对学生学习的影响。此外，该数据集还推动了在线教育中教师干预策略的优化研究，为MOOCs平台提供了改进教学质量的参考依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集