five

NCTE Transcripts

收藏
arXiv2023-05-25 更新2024-06-21 收录
下载链接:
https://github.com/ddemszky/classroom-transcript-analysis
下载链接
链接失效反馈
官方服务:
资源简介:
NCTE Transcripts是由斯坦福大学开发的,包含1660条4至5年级小学数学课堂的转录数据集。该数据集收集于2010至2013年,涵盖了317名教师在四个主要服务历史边缘化学生的学区。数据集不仅包含匿名化的转录文本,还附带丰富的元数据,如对话性话语移动的逐轮注释、课堂观察分数、人口统计信息、调查回复和学生测试成绩。此数据集旨在通过自然语言处理模型识别对话性话语移动,并探索这些移动与课堂观察分数及学习成果之间的关联,从而为研究人员、教育者和政策制定者提供了解和改进K-12教学的可能性。

NCTE Transcripts is a dataset developed by Stanford University, consisting of 1,660 transcripts of elementary mathematics classrooms for grades 4 and 5. Collected between 2010 and 2013, the dataset covers 317 teachers across four major school districts that historically serve marginalized student populations. In addition to anonymized transcript texts, the dataset also provides rich metadata, including turn-by-turn annotations for conversational discourse moves, classroom observation scores, demographic information, survey responses, and student test scores. The core objectives of this dataset are to identify conversational discourse moves via natural language processing models, and to investigate the correlations between these moves, classroom observation scores and student learning outcomes, thereby offering researchers, educators and policymakers opportunities to understand and improve K-12 instructional practices.
提供机构:
斯坦福大学
创建时间:
2022-11-22
搜集汇总
数据集介绍
main_image_url
构建方式
在数学教育研究领域,课堂对话被视为教学的核心媒介,其系统分析有助于揭示教学与学习的动态机制。NCTE Transcripts数据集的构建依托于美国国家教师效能中心(NCTE)在2010年至2013年间开展的大规模实地观察项目。研究团队在四个主要服务历史边缘化学生群体的学区,对317名教师的四年级和五年级数学课堂进行了系统录制,最终收集了1,660节长达45至60分钟的课堂录音。这些录音由专业转录人员转化为文本,并进行了彻底的去标识化处理,确保学生与教师的隐私得到保护。转录文本不仅记录了师生对话,还通过标注系统对每轮对话进行了细致的编码,涵盖了任务参与度、教师对学生观点的采纳、聚焦性问题及学生推理等多个维度的教学行为。
使用方法
在应用层面,该数据集为教育研究者、政策制定者及技术开发者提供了多方面的分析可能。研究者可利用自然语言处理技术,基于数据集中已标注的对话行为训练自动分类模型,以规模化地识别与评估教学实践的有效性。例如,通过微调RoBERTa等预训练模型,可以自动检测课堂中的对话式教学行为,如教师对学生观点的采纳或聚焦性提问。进一步地,这些计算指标可与课堂教学观察评分及教师增值评价进行关联分析,从而验证教学行为与学生学习成果之间的统计关系。此外,数据集还可支持教学反馈工具的研发,为教师提供基于实证的个性化改进建议,促进教学质量的提升。
背景与挑战
背景概述
课堂话语作为教学的核心媒介,其分析能够揭示教学与学习的深层机制,并为提升教学质量提供数据支持。NCTE Transcripts数据集由斯坦福大学Dorottya Demszky与哈佛大学Heather Hill等研究人员主导,于2010年至2013年间由美国教师效能国家中心(NCTE)收集,聚焦于小学四年级和五年级数学课堂。该数据集包含1,660份时长45至60分钟的课堂转录文本,覆盖了四个学区中317名教师的教学实践,这些学区主要服务于历史上被边缘化的学生群体。作为当前规模最大的数学课堂转录资源,它不仅提供了对话层面的标注,还整合了课堂观察评分、师生人口统计信息、调查反馈及学生测试成绩等丰富元数据,为教育研究、政策制定及教学工具开发开辟了新的路径。
当前挑战
在课堂话语分析领域,核心挑战在于如何精准量化并评估教学实践对学生学习成效的影响。NCTE Transcripts数据集旨在应对这一挑战,通过自然语言处理技术自动识别对话性话语行为,如教师对学生观点的采纳、聚焦性提问及学生推理等,这些行为与课堂观察评分及学习成果呈正相关。然而,数据构建过程中面临多重困难:首先,转录工作需克服课堂环境噪音及远场音频导致的语音不清晰问题,部分学生话语的可听性较低;其次,标注过程涉及主观判断,对话性话语行为的界定需依赖专家共识,且标注者间的一致性仅为中等水平,这为模型训练设置了性能上限;此外,数据代表性存在局限,样本主要来自特定学区及教师群体,难以全面反映美国课堂的多样性,而学生身份与行政数据的脱钩也增加了公平性研究的复杂性。
常用场景
经典使用场景
在数学教育研究领域,课堂对话被视为教学的核心媒介,NCTE Transcripts数据集为分析四年级和五年级数学课堂互动提供了丰富资源。该数据集包含1,660份课堂转录文本,涵盖对话轮次标注、观察评分及学生成绩等元数据,使研究者能够深入探究教师与学生之间的言语交互模式。通过自然语言处理技术,该数据集常用于训练模型以自动识别对话性话语行为,如教师对学生想法的采纳、聚焦性提问以及学生推理过程,从而揭示有效教学实践的语言特征。
解决学术问题
该数据集解决了教育研究中长期存在的关键问题,即如何量化并评估课堂对话对教学效果的影响。传统课堂观察方法依赖人工评分,成本高昂且难以规模化;NCTE Transcripts通过链接转录文本与外部变量(如学生测试成绩、教师观察评分),使得研究者能够系统分析话语行为与教学成果之间的相关性。研究表明,对话性话语行为(如教师采纳学生观点)与课堂观察评分及教师增值分数显著正相关,这为理解学生中心教学法的有效性提供了实证依据,并推动了教学测量方法向自动化、可扩展的方向发展。
实际应用
在实际教育场景中,NCTE Transcripts数据集为开发自动化教学反馈工具奠定了基础。基于该数据集训练的NLP模型可集成到教师专业发展平台中,实时分析课堂录音或转录文本,识别教师的话语模式并提供个性化改进建议。例如,系统可提示教师增加聚焦性提问或鼓励学生推理,以促进课堂对话质量。此外,教育政策制定者可通过该数据集的大规模分析,识别有效教学实践的普遍特征,为教师培训课程设计和教学标准制定提供数据驱动的决策支持。
数据集最近研究
最新研究方向
在数学教育领域,课堂对话分析正成为提升教学质量的关键前沿。NCTE Transcripts数据集作为当前规模最大的小学数学课堂转录资源,其研究焦点集中于利用自然语言处理技术自动识别对话式教学行为,如教师对学生观点的采纳、聚焦性提问及学生推理等。这些行为与课堂观察评分及学生学习成果呈显著正相关,为开发自动化教学反馈工具提供了实证基础。该数据集推动了教育技术与教学实践的深度融合,尤其在疫情后学习恢复与教育公平背景下,为优化K-12数学教学策略、缩小教育差距提供了数据驱动的创新路径。
相关研究论文
  • 1
    The NCTE Transcripts: A Dataset of Elementary Math Classroom Transcripts斯坦福大学 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作