RAER
收藏arXiv2025-07-01 更新2025-07-04 收录
下载链接:
https://zgsfer.github.io/CAER
下载链接
链接失效反馈官方服务:
资源简介:
RAER数据集是首个涵盖广泛自然学习环境的学术情感数据集,包含约2700个视频片段,来自大约140名学生的自然学习场景,如教室、图书馆、实验室和宿舍。数据集由两套学术情感标签进行标注,分别为粗粒度标签(专注或分心)和细粒度标签(享受、中性、困惑、疲劳或分心)。该数据集旨在帮助研究人员和教师准确识别学生在学习过程中的学术情感状态,从而调整教学策略,提高学习效果。
RAER dataset is the first academic emotion dataset that covers a broad spectrum of natural learning environments. It comprises approximately 2,700 video clips collected from natural learning scenarios of around 140 students, including classrooms, libraries, laboratories and dormitories. This dataset is annotated with two sets of academic emotion labels: coarse-grained labels (focused or distracted) and fine-grained labels (enjoyment, neutral, confused, fatigued, or distracted). The dataset is designed to assist researchers and teachers in accurately recognizing students' academic emotional states during the learning process, thereby adjusting teaching strategies and enhancing learning outcomes.
提供机构:
浙江工商大学, 浙江越秀大学
创建时间:
2025-07-01
原始信息汇总
Context-Aware Academic Emotion Dataset and Benchmark (CAER)
基本信息
- 会议: ICCV 2025
- 作者: Luming Zhao1*, Jingwen Xuan1*, Jiamin Lou2, Yonghui Yu1, Wenwu Yang1†
- 机构: 1浙江工商大学, 2浙江越秀外国语学院
- 贡献: *Equal Contribution, †Corresponding Author
数据集概述
- 名称: RAER (Context-Aware Academic Emotion Dataset)
- 内容: 约2,700个视频片段
- 采集场景: 自然学习环境(教室、图书馆、实验室、宿舍等)
- 参与者: 约140名学生
- 标注: 每个视频片段由约10名标注者独立标注,使用两种不同粒度的学术情感标签
研究背景
- 目标: 通过面部表情自动识别真实学习环境中的学术情感
- 挑战: 学术情感识别领域缺乏公开数据集
方法创新
- 提出方法: CLIP-CAER (CLIP-based Context-aware Academic Emotion Recognition)
- 特点: 利用可学习文本提示整合面部表情和上下文信息
- 优势: 显著优于现有基于视频的面部表情识别方法
引用格式
bibtex @InProceedings{Zhao_2025_ICCV, author = {Zhao, Luming and Xuan, Jingwen and Lou, Jiamin and Yu, Yonghui and Yang, Wenwu}, title = {Context-Aware Academic Emotion Dataset and Benchmark}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, year = {2025} }
致谢
感谢所有为本研究提供支持的老师和学生
搜集汇总
数据集介绍

构建方式
在学术情感分析领域,RAER数据集的构建采用了真实学习场景下的多模态数据采集策略。研究团队通过工业摄像机记录了9堂完整课堂教学和177个自主学习视频,覆盖教室、图书馆、实验室和宿舍等多种学习环境。视频采集后经过严格的预处理流程:首先使用商业软件提取包含学生头部、可见身体部位及学习环境的有效片段;随后由专业教师根据情绪变化进行分段,保留5-15秒的核心内容片段。为确保标注质量,研究采用双重标注体系,由29名标注员使用粗粒度(专注/分心)和细粒度(愉悦/中性/困惑/疲劳/分心)两套标签独立标注,每个视频平均获得10次标注,最终通过多数投票和交叉验证保留标注一致的2,649个有效视频片段。
特点
RAER数据集在学术情感分析领域具有三个显著特征:首先,其覆盖场景的多样性突破了现有数据集局限,包含课堂教学与自主学习等真实学习场景;其次,数据采集方式捕捉了完整的环境上下文信息,而非仅截取面部或上半身图像,为理解情绪发生的环境因素提供了重要线索;第三,采用双重粒度标注体系并通过Fleiss' κ系数(0.832)验证了标注的高一致性,细粒度标签中情绪分布(中性65.23%、分心19.89%等)真实反映了自然学习场景下的情感分布规律,与实验室诱发情感的数据集形成鲜明对比。
使用方法
该数据集支持端到端的学术情感识别模型开发,特别适合研究环境上下文对情感识别的影响。使用时应遵循80%-20%的比例划分训练测试集,保持人员不重叠且情绪分布均衡。评估推荐采用未加权平均召回率(UAR)以应对类别不平衡问题。基于CLIP的预训练框架CLIP-CAER可作为基准模型,其通过可学习文本提示将面部表情与环境线索融合:视觉模块分别处理面部图像序列和全帧序列,文本模块结合固定描述与可学习提示生成文本特征,最后通过计算视觉-文本特征相似度完成分类。实验表明该方法在分心类别识别准确率提升达19%,验证了环境上下文信息的重要价值。
背景与挑战
背景概述
RAER(Real-world Academic Emotion Recognition)数据集由浙江工商大学和浙江越秀大学的研究团队于2025年创建,旨在解决自然学习环境中学术情感自动识别的关键问题。该数据集包含约2700个视频片段,采集自140名学生在课堂、图书馆、实验室和宿舍等多样化真实学习场景中的面部表情和上下文信息。作为首个覆盖多场景自然学习环境的学术情感数据集,RAER通过双粒度情感标注体系(粗粒度“专注/分心”和细粒度“愉悦/中性/困惑/疲劳/分心”)提升了标注一致性,其Fleiss' κ系数达0.832,显著推动了教育技术领域的情感计算研究。
当前挑战
学术情感识别面临两大核心挑战:领域问题方面,现有方法主要针对基础情感设计,而学术情感与基础情感存在语义鸿沟(如“快乐”可能对应学习投入或非学术干扰),且缺乏上下文融合机制导致误判;数据构建方面,自然学习场景的隐私约束使数据获取困难,多模态标注需要协调面部微表情与环境线索的复杂关联,视频片段的情感状态切换点判定也需专家介入。RAER通过上下文感知的CLIP-CAER框架创新性地整合视觉语言模型与可学习文本提示,在分心状态识别准确率上提升19%,但跨文化泛化能力仍需通过JuniorRAER等衍生数据集进一步验证。
常用场景
经典使用场景
RAER数据集在学术情绪识别领域具有广泛的应用价值,尤其在教育技术研究中表现突出。该数据集通过捕捉学生在真实学习环境中的面部表情和上下文信息,为研究者提供了丰富的数据资源。其经典使用场景包括分析学生在课堂、图书馆、实验室和宿舍等不同学习环境中的情绪变化,从而评估学习效果和情感状态。
实际应用
在实际应用中,RAER数据集可用于开发智能教育辅助系统,实时监测学生的情感状态和学习专注度。例如,在线教育平台可以基于该数据集训练模型,识别学生的困惑或疲劳状态,并自动调整教学策略。此外,该数据集还可用于教育质量评估,帮助教师优化教学方法和课堂互动。
衍生相关工作
RAER数据集催生了一系列相关研究,其中最著名的是CLIP-CAER框架。该框架利用视觉语言模型CLIP,通过可学习文本提示整合面部表情和上下文信息,显著提升了学术情绪识别的准确性。此外,基于RAER的研究还推动了跨文化学术情绪分析、多模态情感计算等方向的发展。
以上内容由遇见数据集搜集并总结生成



