NUS MOOC Transacts Corpus
收藏数据集概述
数据集名称
NUS MOOC Transacts Corpus
数据集描述
该数据集包含大规模开放在线课程(MOOCs)讨论论坛中的讨论线程的注释。注释基于教学话语框架,该框架改编自Berkowitz和Gibbs(1983)提出的“交互性”概念。数据集旨在简化其教学/心理学基础的编码方案,适用于MOOC讨论论坛中的教师帖子和回复。
数据集内容
- 任务1(标记任务):要求标注者或NLP系统将教师帖子与之前的学员帖子链接,这些学员帖子是教师帖子的回复或评论。
- 任务2(分类任务):要求对已识别的帖子对进行分类,选择最合适的类型,这些类型来自预定义的语篇类型库存。任务2进一步细分为两个子任务,首先要求对帖子对进行顶级分类,然后是子分类。
注释类别
数据集定义了多个级别的注释类别,包括顶级和低级分类,以及是否具有交互性。例如,“请求”类别下的“反馈请求”和“理由请求”被标记为具有交互性。
文件格式
数据以加密的ZIP文件形式提供,每个文件按课程和论坛分组。例如,课程“warhol-001”的“Lecture”论坛的注释线程文件名为“warhol-001.lecture.1.csv”。
目录结构
--|__ Task1-Marking_Task |__ Task2-Categorisation_Task_low_lvl |__ Task2-Categorisation_Task_top_lvl
文件内容
- Task1-Marking_Task:包含帖子是否被标记的信息。
- Task2-Categorisation_Task_top_lvl:包含每个标记帖子的顶级语篇类别。
- Task2-Categorisation_Task_low_lvl:包含每个标记帖子的低级语篇类别。
注释者
所有注释者均为Amazon MTurk平台的众包工作者,每个线程由7名工作者注释。
引用信息
若使用此数据集进行研究,请引用以下博士论文:
@phdthesis{Chandrasekaranthesis2019, author = {MUTHU KUMAR CHANDRASEKARAN}, school = {National University of Singapore}, title = {A DISCOURSE CENTRIC FRAMEWORK FOR FACILITATING INSTRUCTOR INTERVENTION IN MOOC DISCUSSION FORUMS}, year = {2019}, }




