NUS MOOC Transacts Corpus|在线教育数据集|教学互动分析数据集

github2024-01-16 更新2024-05-31 收录

在线教育

教学互动分析

下载链接：

https://github.com/WING-NUS/nus-mooc-corpus

下载链接

链接失效反馈

资源简介：

这是一个大规模开放在线课程讨论论坛线程的注释语料库，注释基于教学法为基础的论述框架，简化了Berkowitz和Gibbs提出的教学/心理学编码方案，用于MOOC讨论论坛中的教师帖子和回复。

This is a large-scale annotated corpus of discussion forum threads from massive open online courses (MOOCs). The annotations are based on a pedagogy-oriented discourse framework, which simplifies the teaching/psychological coding scheme proposed by Berkowitz and Gibbs, and is applied to instructor posts and replies in MOOC discussion forums.

创建时间：

2017-12-21

原始信息汇总

数据集概述

数据集名称

NUS MOOC Transacts Corpus

数据集描述

这是一个注释的讨论论坛线程语料库，源自大规模开放在线课程（MOOCs）。注释基于教学话语框架，该框架改编自Berkowitz和Gibbs（1983）提出的“transactivity”概念。此数据集简化了他们的教学/心理学编码方案，用于MOOC讨论论坛中的教师帖子和回复。

数据集任务

标记任务：将教师帖子与之前的学员帖子链接，这些学员帖子是教师帖子的回复或评论。
分类任务：将识别的帖子对分类为预定义的讨论类型之一。此任务进一步分为两个子任务：
- 子任务1：将帖子对分类为顶级类别。
- 子任务2：在选定的顶级类别下，进一步分类为子类别。

注释类别

数据集定义了多个注释类别，包括顶级和低级类别，以及是否为“transactive”。

文件格式

数据以加密的ZIP文件形式提供，每个文件代表一个课程的论坛，并按任务类型组织在不同的目录中。

文件结构

--|__ Task1-Marking_Task |__ Task2-Categorisation_Task_low_lvl |__ Task2-Categorisation_Task_top_lvl

文件内容

Task1-Marking_Task：包含帖子是否被标记的信息。
Task2-Categorisation_Task_top_lvl：包含顶级讨论类别的信息。
Task2-Categorisation_Task_low_lvl：包含低级讨论类别的信息。

注释者

所有注释者均为Amazon MTurk平台的众包工作者，每个线程由7名工作者注释。

引用信息

若使用此数据集，请引用以下博士论文： @phdthesis{Chandrasekaranthesis2019, author = {MUTHU KUMAR CHANDRASEKARAN}, school = {National University of Singapore}, title = {A DISCOURSE CENTRIC FRAMEWORK FOR FACILITATING INSTRUCTOR INTERVENTION IN MOOC DISCUSSION FORUMS}, year = {2019}, }

AI搜集汇总

数据集介绍

构建方式

NUS MOOC Transacts Corpus的构建基于大规模开放在线课程（MOOCs）讨论论坛的线程数据，采用了基于教育学的对话框架进行标注。该框架借鉴并简化了Berkowitz和Gibbs于1983年提出的“交互性”概念，专门针对MOOCs论坛中的教师发帖和回复进行编码。数据标注任务通过众包方式完成，每个线程由七名亚马逊MTurk平台的众包工人进行标注，确保了标注的多样性和可靠性。由于隐私和版权问题，数据集经过加密处理，并需通过学术研究目的许可申请获取。

特点

该数据集的特点在于其标注的细致性和多层次性。数据集包含三个自然语言处理任务：标记任务、分类任务（分为顶层分类和底层分类）。标记任务要求将教师发帖与之前的学生发帖进行关联，分类任务则进一步将关联的发帖对归类到预定义的对话类型中。标注类别分为顶层和底层，涵盖了请求、阐述、解决等多个维度，且每个类别均标注了是否具有交互性。数据集的结构清晰，文件格式规范，便于研究人员进行深入分析和模型开发。

使用方法

使用NUS MOOC Transacts Corpus时，研究人员需首先通过学术研究目的许可申请获取数据。数据集以加密的zip文件形式提供，解压后可按课程和论坛进行分类。每个任务的文件格式均包含详细的头部信息，研究人员可根据需要选择保留或删除特定列以简化数据处理。数据集的使用建议包括去除HTML格式的列和与MTurk系统相关的冗余列，以便更好地进行数据可视化和模型开发。此外，数据集提供了计算标注者间一致性的脚本，帮助研究人员评估标注质量。

背景与挑战

背景概述

NUS MOOC Transacts Corpus是由新加坡国立大学（NUS）的研究人员创建的一个标注语料库，专注于大规模开放在线课程（MOOCs）讨论论坛中的对话分析。该数据集基于Berkowitz和Gibbs于1983年提出的教学心理学框架，对论坛中的教师发帖和回复进行了标注，旨在研究教师干预在MOOCs讨论中的有效性。该数据集的核心研究问题是如何通过自然语言处理技术识别和分类教师发帖的干预类型，以提升在线教育中的教学效果。该数据集于2019年作为Muthu Kumar Chandrasekaran博士论文的一部分发布，对在线教育领域的研究具有重要影响，尤其是在教师干预和讨论分析方面。

当前挑战

NUS MOOC Transacts Corpus在构建和应用过程中面临多重挑战。首先，数据集的标注任务涉及复杂的教学心理学框架，要求标注者具备较高的专业知识和一致性，这对标注质量和一致性提出了较高要求。其次，由于数据来源于MOOCs平台（如Coursera），隐私和版权问题使得数据必须加密处理，限制了数据的公开访问和使用。此外，数据集的标注任务分为多个子任务，包括教师发帖的链接和分类，这些任务的复杂性增加了数据处理和模型开发的难度。最后，尽管通过众包平台（如Amazon MTurk）进行标注，但如何确保标注者之间的高一致性（如通过Fleiss Kappa系数衡量）仍然是一个技术挑战。

常用场景

经典使用场景

NUS MOOC Transacts Corpus 数据集在在线教育领域的研究中具有重要应用，特别是在大规模开放在线课程（MOOC）讨论论坛的分析中。该数据集通过标注教师与学生之间的互动，帮助研究者深入理解教学干预的效果。经典的使用场景包括分析教师回复的类型及其对学生学习行为的影响，从而优化在线课程的教学策略。

实际应用

在实际应用中，NUS MOOC Transacts Corpus 数据集被广泛用于开发智能教学系统。通过分析教师与学生的互动模式，系统能够自动识别有效的教学干预策略，并为教师提供实时反馈。此外，该数据集还被用于培训自然语言处理模型，以自动分类和生成教学回复，提升在线课程的教学质量。

衍生相关工作

基于 NUS MOOC Transacts Corpus 数据集，研究者们开展了多项经典工作。例如，开发了基于深度学习的模型，用于自动分类教师回复的类型；提出了新的教学干预策略，通过分析数据集中的互动模式，优化了在线课程的教学设计。这些工作不仅推动了教育技术的发展，还为在线教育的研究提供了新的视角。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况，本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率，那么熟肉制品需求富有弹性，说明顾客对于熟肉制品价格变化的敏感程度大，弹性越大，需求对价格变化越敏感，本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性，本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集：采集相关熟肉制品在某一时间段全国的的需求数据和价格数据，按照市级进行整理归纳，得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则：对采集得到的数据按照如下公式进行计算：需求弹性系数Ed=-(△Q/Q)÷(△P/P），得到需求弹性系数。式中：Q表示产品的需求量，单位为份；P表示产品的价格，单位为元；△Q表示需求量同比变动值，单位为份；△P表示价格同比变动值，单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析：根据|Ed|的数值可分析该熟肉制品的需求价格弹性。（1）|Ed|=1（单位需求价格弹性），说明需求量变动幅度与价格变动幅度相同；（2）1<|Ed|（需求富有弹性），说明需求量变动幅度大于价格变动幅度；（3）|Ed|<1（需求缺乏弹性），说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台收录

NREL Wind Integration National Dataset (WIND) Toolkit

NREL Wind Integration National Dataset (WIND) Toolkit 是一个包含美国大陆风能资源和电力系统集成数据的综合数据集。该数据集提供了高分辨率的风速、风向、风能密度、电力输出等数据，覆盖了美国大陆的多个地理区域。这些数据有助于研究人员和工程师进行风能资源评估、电力系统规划和集成研究。