Simulated teacher-parent conversation dataset
收藏arXiv2025-05-06 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2505.03423v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由奥格斯堡大学创建,包含了29名学生参与的模拟教师与家长对话记录。数据集用于研究人工智能在教师咨询能力培训中的应用,特别是通过分析语言、副语言和非语言交流来提升咨询能力。数据集由模拟对话的录音和视频组成,涉及不同的教育场景,如学生成绩、学校活动参与等。数据集的创建过程包括在录制室和视频会议软件Zoom上进行模拟对话,并使用多种AI工具进行特征提取和反馈。数据集的应用领域包括教育、教师培训和人工智能辅助的教学改进。
This dataset was created by the University of Augsburg, containing recorded simulated conversations between teachers and parents involving 29 students. It is designed for research on the application of artificial intelligence in teacher counseling competence training, particularly to enhance counseling abilities via the analysis of linguistic, paralinguistic and nonverbal communication. The dataset comprises audio and video recordings of these simulated conversations, covering diverse educational scenarios such as student academic performance, school event participation and more. The development of the dataset involved conducting simulated dialogues in both recording studios and via the video conferencing software Zoom, with multiple AI tools utilized for feature extraction and feedback generation. Its application fields include education, teacher training and AI-assisted teaching improvement.
提供机构:
奥格斯堡大学
创建时间:
2025-05-06
搜集汇总
数据集介绍

构建方式
Simulated teacher-parent conversation dataset的构建采用了多模态数据采集方法,通过迭代式研讨会设计收集了29名师范生在模拟家校沟通场景中的交互数据。研究团队首先在专业录音棚中录制了6组对话,采用4K摄像机多角度拍摄和领夹麦克风采集音频;随后优化为Zoom视频会议形式,获取了23组更自然的远程沟通数据。数据采集过程严格遵循教育实验伦理,所有对话均围绕典型家校沟通主题展开,如学业指导、行为问题咨询等,并由专业演员扮演家长角色以确保情境真实性。
特点
该数据集的核心价值在于其多维度的沟通特征标注体系:1) 言语层面标注了基于Benien理论的对话阶段(开场、信息交换、决策等)和Gerich提出的沟通技巧(释义、结构化等);2) 副语言特征包含语速、音高、停顿等9类声学参数;3) 非言语特征通过OpenFace和LibreFace工具提取,涵盖面部表情、凝视方向等微表情指标。特别值得注意的是,所有特征均通过WhisperX语音识别实现精确时间对齐,并采用五折交叉验证确保标注一致性,言语特征标注者间信度达到66.9%-72.4%。
使用方法
该数据集主要服务于教师沟通能力训练的三大应用场景:首先,研究者可利用NOVA平台的多模态分析功能,通过平行坐标图、雷达图等可视化工具,探究副语言特征(如语速2.18-2.92词/秒)与非言语特征(如微笑频率0.01-0.04)与专家评分的相关性;其次,教育机构可基于XGBoost模型(准确率56.0%)开发自动化反馈系统,为师范生提供个性化的沟通改进建议;最后,该数据集支持对话阶段识别模型的训练,其标注体系已通过INCEpTION工具实现标准化,可直接用于监督学习任务。
背景与挑战
背景概述
Simulated teacher-parent conversation dataset是由德国奥格斯堡大学的研究团队于2025年创建的专业教育数据集,旨在提升师范生在家长咨询场景中的沟通能力。该数据集源于一项创新性研究,通过结合人工智能技术与教育心理学理论,系统采集了模拟教师-家长对话的多模态数据,包括语音、副语言特征和非语言行为。研究团队由Tobias Hallmen和Elisabeth André教授领衔,整合了人类中心人工智能、基础教育学等多个学科力量。该数据集的核心价值在于为教师培训提供了客观评估工具,解决了传统培训中主观评价偏差的痛点,对教育领域的沟通技能量化研究具有开创性意义。
当前挑战
该数据集面临双重挑战:在领域问题层面,需精准捕捉教师-家长对话中复杂的多模态交互特征,包括言语内容、语音韵律和微表情等非语言线索的协同作用,这对AI模型的跨模态理解能力提出极高要求;在构建过程中,初期录音棚采集面临音频串扰、视频不同步等技术难题,后期转为Zoom采集虽解决同步问题,但需平衡视频质量与自然对话真实性。此外,对话阶段的标注一致性仅达66.9%,反映出专业沟通技巧标注体系的标准化挑战,以及教育领域特定语境下情感特征识别的特殊性。
常用场景
经典使用场景
Simulated teacher-parent conversation dataset主要用于教师培训领域,特别是在提升准教师的咨询能力方面。通过模拟教师与家长之间的对话场景,该数据集为研究者提供了一个可控的环境,用于分析和评估教师在真实情境中的沟通技巧。数据集中的对话涵盖了多种常见教育场景,如学生行为问题、学业建议等,为准教师提供了一个实践和反思的平台。
实际应用
在实际应用中,该数据集被广泛用于教师培训课程和研讨会。通过模拟对话和AI反馈,准教师可以识别自身在沟通中的不足,并针对性地改进。此外,数据集还被用于开发自动化评估工具,帮助教育机构更高效地评估和提升教师的咨询能力。
衍生相关工作
该数据集衍生了多项相关研究,特别是在教育技术和人机交互领域。例如,基于该数据集开发的NOVA工具被用于分析非语言行为,进一步扩展到了心理治疗和其他专业咨询场景。此外,数据集还为语音和情感识别技术的研究提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成



