MUTLA

Name: MUTLA
Creator: 松鼠AI学习由易学教育公司
Published: 2022-12-07 02:21:33
License: 暂无描述

arXiv2022-12-07 更新2024-06-21 收录

下载链接：

https://github.com/RyanH98/SAILData

下载链接

链接失效反馈

官方服务：

资源简介：

MUTLA数据集是由松鼠AI学习系统创建的大型多模态教学与学习分析数据集，旨在通过分析真实世界的学生学习活动、面部表情和脑波模式来预测学生的参与度。该数据集包含同步的多模态数据记录，如学习日志、视频和EEG脑波，涵盖了不同难度级别的多个学科。数据来源于SAIL学习系统的学习记录存储、EEG头戴设备收集的脑波数据以及网络摄像头捕捉的视频数据。创建过程中，学生在中国两所SAIL课后学习中心的实际学习活动中佩戴脑波头戴设备并开启网络摄像头进行数据收集。该数据集的应用领域主要集中在教育学习社区，旨在通过分析真实教育活动数据而非实验室控制环境数据，来改善适应性学习选择和学生学习成果。

The MUTLA Dataset is a large-scale multimodal teaching and learning analytics dataset developed by Squirrel AI Learning System. It aims to predict student engagement by analyzing real-world student learning activities, facial expressions and brainwave patterns. This dataset includes synchronized multimodal data records such as learning logs, videos and EEG brainwaves, covering multiple disciplines across varying difficulty levels. The data is sourced from the learning record repository of the SAIL Learning System, brainwave data collected by wearable EEG headsets, and video footage captured by webcams. During the dataset development, students wore EEG headsets and activated webcams during their actual learning sessions at two SAIL after-school learning centers in China for data collection. The main application domains of this dataset focus on educational learning communities, and it is designed to improve adaptive learning options and student learning outcomes by analyzing data from real educational activities rather than data collected in laboratory-controlled environments.

提供机构：

松鼠AI学习由易学教育公司

创建时间：

2019-10-05

搜集汇总

数据集介绍

构建方式

在真实教育场景中，MUTLA数据集的构建依托于松鼠AI学习系统的课后辅导环境，采集了来自两所中国学校共156名学生的多模态数据。数据收集过程涵盖了学生在数学、物理、化学、语文及英语等多个学科中的学习活动，通过脑电头带、网络摄像头与学习记录系统同步捕获脑电信号、面部视频及学习日志。所有数据均经过时间同步处理，确保不同模态间的时间对齐，并采用算法匹配学生身份与对应数据源，最终形成涵盖问题级别的分段数据集，有效反映了真实学习环境中的复杂交互。

使用方法

研究者可通过公开链接访问MUTLA数据集，利用其多模态同步特性开展学习投入度预测、认知状态分析等任务。使用时可首先加载学习日志中的元数据，结合对应的时间戳同步脑电与视频数据。脑电数据可经傅里叶变换转换为频域特征，视频数据则可通过面部追踪提取表情与姿态信息。数据集已预分割为问题级别的片段，并配套提供JSON格式的元数据与NPY格式的追踪数据，支持直接导入Python环境进行机器学习或深度学习建模，助力自适应学习系统的优化与学习科学的实证研究。

背景与挑战

背景概述

随着人工智能与深度学习技术的飞速发展，教育领域对多模态教学与学习分析（MUTLA）的研究兴趣日益浓厚。MUTLA数据集由松鼠AI学习系统、IBM T.J. Watson研究中心及松树AI等机构的研究团队于2022年共同创建，旨在填补真实复杂学习环境中多模态数据公开资源的空白。该数据集整合了学习日志、视频记录及脑电波信号，覆盖数学、物理、化学、语文和英语等多个学科，核心研究问题聚焦于通过多模态数据分析预测学生学习投入度，进而优化自适应学习系统的个性化推荐。其创新之处在于数据采集于真实课后辅导场景，而非受控实验室环境，为教育数据挖掘与学习分析领域提供了大规模、高同步性的基准资源，推动了智能教育向实证化、精细化方向发展。

当前挑战

MUTLA数据集致力于解决多模态教学分析中学习投入度预测的挑战，该问题涉及从异构数据中提取有效特征以建模学生的认知与情感状态。具体而言，挑战体现在多模态数据的高维异构性，如脑电波信号的噪声干扰、视频中面部表情的遮挡与光照变化，以及学习日志中行为序列的稀疏性，这些因素增加了特征融合与模型泛化的难度。在构建过程中，研究团队面临真实教育场景数据采集的复杂性，包括多设备时间同步的技术障碍、学生隐私保护与伦理合规要求，以及大规模原始数据清洗与标注的人力成本。此外，确保数据在学科、难度与学生群体中的代表性，避免采集偏差，亦是构建高质量基准数据集的关键挑战。

常用场景

经典使用场景

在智能教育领域，MUTLA数据集为多模态学习分析提供了关键支撑。该数据集整合了学习日志、视频录像与脑电波信号，使研究者能够深入探究真实课堂环境中学生的认知与情感状态。通过时间同步的多模态数据，经典应用场景聚焦于分析学生在解决不同难度学科问题时的行为模式、面部表情变化及脑电活动，从而揭示学习过程中的注意力分配与认知负荷动态。

解决学术问题

MUTLA数据集有效解决了教育数据挖掘中多模态数据稀缺的瓶颈问题。其通过真实学习环境采集的同步数据，支持研究者构建学生参与度预测模型，突破传统单模态分析的局限性。该数据集促进了自适应学习系统中个性化干预策略的优化，为学习科学领域提供了验证认知理论与情感计算方法的实证基础，推动了多模态学习分析范式的标准化发展。

实际应用

在实际教育场景中，MUTLA数据集为智能辅导系统的优化提供了数据基石。基于该数据集开发的参与度识别模型可集成至在线学习平台，实时监测学生状态并动态调整题目难度与反馈策略。教育机构能够利用此类分析工具评估教学效果，设计更具吸引力的课程内容，最终提升学习效率与知识掌握程度，实现规模化个性化教育的落地应用。

数据集最近研究