MyST
收藏arXiv2023-09-23 更新2024-06-21 收录
下载链接:
https://catalog.ldc.upenn.edu/LDC2021S05
下载链接
链接失效反馈官方服务:
资源简介:
MyST数据集是由My Science Tutor项目开发,包含约400小时的儿童对话语音,涵盖230K条语音记录,涉及1.3K名三至五年级学生与虚拟科学导师的互动。数据集内容丰富,包括8个科学领域的对话,旨在通过自动语音识别技术提升教育领域的应用。创建过程中,学生与虚拟导师进行一对一互动,记录并转录对话,确保数据匿名化。该数据集的应用领域主要集中在教育技术,特别是远程教育和科学教育,旨在提高儿童对科学的兴趣和学习效果。
The MyST Dataset was developed by the My Science Tutor project. It contains approximately 400 hours of children’s conversational speech, comprising 230,000 speech recordings, and documents interactions between 1,300 students in grades 3 to 5 and a virtual science tutor. The dataset features rich content covering conversations across 8 scientific disciplines, and is designed to facilitate the application of automatic speech recognition (ASR) technologies in the education field. During the dataset construction process, students participated in one-on-one interactions with the virtual tutor, with their dialogues recorded and transcribed, and strict anonymization procedures were applied to ensure data privacy. The main application scenarios of this dataset lie in educational technology, especially distance education and science education, with the objective of boosting children’s interest in science and improving their learning effectiveness.
提供机构:
cemantix.org, 剑桥 MA, 美国
创建时间:
2023-09-23
搜集汇总
数据集介绍
构建方式
MyST语料库的构建依托于一项历时十三年的教育研究项目,其核心在于采集儿童与虚拟科学导师之间的自然对话。数据收集过程严格遵循实验设计,涵盖三至五年级学生,涉及八个科学模块。在虚拟导师会话中,学生通过头戴式降噪麦克风进行交互,采用严格轮转机制,每次发言均被独立录制为音频文件。为确保数据质量,项目进行了多轮清理,剔除无效会话,并依据丰富与简化两种转录指南对约十万条话语进行了文本转写,最终形成包含近四百小时语音的大规模对话语料。
特点
该语料库的突出特点在于其规模与场景的真实性。作为目前最大的儿童对话语音集合之一,它收录了超过一千三百名学生在虚拟辅导情境下的自发科学论述,语音总时长约四百小时,话语量达二十三万条。语料覆盖多个科学主题,且会话结构完整,体现了儿童在教育互动中的真实语言模式与认知过程。此外,语料库已预先划分为训练集、开发集和测试集,并附有更新后的发音词典,为语音识别与教育对话系统的研究提供了高度结构化的资源。
使用方法
研究者可通过官方渠道获取语料库,其目录结构清晰,按分区、学生编号及会话标识组织音频与转录文件。该资源主要应用于改进儿童语音的自动识别算法,尤其适用于处理自发对话场景下的语音变异。在构建教育对话智能体时,可依据语料中的对话轮次与内容设计响应模型。此外,语料库的多模态潜力支持开发结合语音、文本乃至动画的教育应用,以提升科学学习的互动性与有效性。使用中需遵循知识共享许可协议,并注意区分商业与非商业用途。
背景与挑战
背景概述
MyST(My Science Tutor)语料库诞生于2007年至2019年间,由博尔德语言技术公司、科罗拉多大学博尔德分校及语言数据联盟等机构联合构建,旨在应对美国基础教育中科学素养普遍不足的严峻挑战。该资源聚焦于提升小学三至五年级学生的科学学习成效,通过虚拟导师Marni与学童进行沉浸式对话,激发其自我解释与推理能力。作为迄今规模最大的儿童会话语音库之一,MyST涵盖约400小时语音、23万条话语,覆盖八个科学模块,不仅为自动语音识别技术的优化提供了珍贵数据,更推动了教育领域对话式人工智能代理的研发与应用,对促进儿童科学兴趣与认知发展具有深远影响。
当前挑战
MyST语料库致力于解决儿童会话语音自动识别这一核心难题,其挑战在于儿童语音在声学特性上存在显著变异性,如音高、语速及发音清晰度均与成人差异较大,加之对话中常伴随非正式表达与思维跳跃,导致传统ASR模型性能受限。在构建过程中,研究团队面临数据采集与处理的复杂性:需在严格遵循伦理审查与匿名化协议下,通过高保真设备录制数千名学童的对话,并应对音频剪切、背景噪声及沉默段处理等技术问题;转录阶段则因成本与效率考量,从详尽转录转向简化准则,致使部分数据尚未完成文本标注,这为后续大规模模型训练带来了数据不均衡与质量控制的持续挑战。
常用场景
经典使用场景
在儿童语音识别与教育技术交叉领域,MyST数据集为研究者提供了珍贵的实验平台。该数据集最经典的应用场景在于训练和评估针对儿童对话式语音的自动语音识别系统。由于儿童语音在声学特征、发音清晰度和语言模式上与成人存在显著差异,传统ASR模型往往表现不佳。MyST通过提供大规模、真实场景下的儿童与虚拟导师科学对话录音,使研究者能够开发专门适应儿童语音特性的端到端识别模型,显著提升在自发对话场景下的识别准确率。
实际应用
在实际应用层面,MyST数据集直接支撑了智能教育助手的开发与优化。基于该数据集训练的语音识别模型,能够更准确地理解儿童在科学学习过程中的口头解释与提问,从而为个性化自适应学习系统提供可靠的技术基础。教育科技公司可利用这些模型开发虚拟科学导师,在课堂内外为学生提供一对一对话式辅导。临床诊断领域也可借鉴该数据集的语音特征,开发用于评估儿童语言发展水平的辅助工具。这些应用不仅提升了教育干预的精准度,也为缩小不同群体学生的科学素养差距提供了技术可能。
衍生相关工作
围绕MyST数据集已衍生出多个具有影响力的研究方向。在模型架构方面,研究者基于该数据集对比了传统混合模型与端到端Transformer模型在儿童语音识别上的性能差异,推动了适合儿童语音的神经网络结构探索。在跨领域迁移学习方面,学者们利用MyST探究了从成人语音模型到儿童语音模型的适应策略。数据集本身的结构设计也启发了后续语料库建设项目,特别是在教育对话数据的采集规范、转录标准与伦理框架方面提供了重要参考。这些工作共同构成了儿童语音处理领域的方法论基础。
以上内容由遇见数据集搜集并总结生成



