CHSER

Name: CHSER
Creator: 加州大学洛杉矶分校电气与计算机工程系
Published: 2025-05-24 10:06:03
License: 暂无描述

arXiv2025-05-24 更新2025-05-28 收录

下载链接：

https://github.com/balaji1312/CHSER

下载链接

链接失效反馈

官方服务：

资源简介：

CHSER是一个针对儿童语音自动语音识别（ASR）生成式语音错误校正（GenSEC）的大型数据集，包含20万个假设-转录对，涵盖了多个年龄组（4-14岁）和说话风格（脚本和自发）。数据集由多个公开的儿童语音语料库编译而成，包括MyST、CMU Kids、CSLU OGI Kids和CHILDES English OCSC语料库。CHSER数据集旨在帮助模型学习儿童特有的错误模式，从而提高儿童语音ASR的转录准确性。

CHSER is a large-scale dataset dedicated to generative speech error correction (GenSEC) for children’s speech automatic speech recognition (ASR). It consists of 200,000 hypothesis-transcription pairs, covering multiple age groups (4–14 years old) and speaking styles (scripted and spontaneous). This dataset is compiled from multiple public children’s speech corpora, including MyST, CMU Kids, CSLU OGI Kids, and the CHILDES English OCSC corpus. The CHSER dataset aims to assist models in learning child-specific error patterns, thereby improving the transcription accuracy of children’s speech ASR systems.

提供机构：

加州大学洛杉矶分校电气与计算机工程系

创建时间：

2025-05-24

搜集汇总

数据集介绍

构建方式

CHSER数据集的构建基于多个公开可用的儿童语音语料库，包括MyST、CMU Kids、CSLU OGI Kids和CHILDES English OCSC Corpus，确保了年龄范围和说话风格的多样性。通过使用Whisper-base.en模型生成N-best句子假设列表，并应用严格的过滤步骤，如去除重复话语、保留概率最高的前5个假设、排除少于三个词的转录以及丢弃超出Whisper分词器词汇表的词汇，最终构建了包含200K假设-转录对的高质量数据集。数据集的分割遵循原始语料库的划分，确保了数据的科学性和可比性。

特点

CHSER数据集的特点在于其专注于儿童语音的多样性和复杂性，涵盖了4至14岁不同年龄段的儿童以及脚本化和自发性的说话风格。数据集不仅规模庞大，还通过多源语料库的整合，提供了丰富的语音变异性和语言学特征，如高音调、不流畅性和语法不一致性。这些特点使得CHSER成为评估和提升儿童语音识别（ASR）错误校正模型的理想基准。

使用方法

CHSER数据集的使用方法包括用于生成性语音错误校正（GenSEC）模型的训练和评估。研究者可以通过微调大型语言模型（如Flan T5和Llama 2）来学习儿童特定的错误模式，并在零样本或微调设置下测试模型的性能。此外，数据集还支持对传统重排序方法和上下文学习策略的比较研究，帮助开发者理解不同方法在儿童语音识别中的适用性和局限性。

背景与挑战

背景概述

CHSER数据集由加州大学洛杉矶分校的Natarajan Balaji Shankar等研究人员于2025年提出，旨在解决儿童语音识别中的关键挑战。儿童语音因其独特的声学和语言变异性，以及有限的儿童语音数据资源，导致自动语音识别（ASR）系统在转录时错误率较高。CHSER作为首个专注于儿童语音生成的语音错误校正（GenSEC）数据集，包含20万条假设-转录对，覆盖4至14岁不同年龄段和多种说话风格。该数据集的推出显著提升了儿童语音识别的准确性，为零样本和微调ASR系统分别带来了28.5%和13.3%的相对词错误率降低，填补了儿童语音错误校正领域的空白。

当前挑战

CHSER数据集面临的主要挑战包括：1）儿童语音的声学和语言变异性大，如音高较高、说话者内和说话者间差异显著，以及发育变化带来的语音特征变化，增加了ASR系统的识别难度；2）儿童语音中普遍存在的不流畅现象（如重复、重启）和语法不一致性，进一步降低了转录准确性；3）数据构建过程中需处理多样化的说话风格（如脚本化和自发性语音），并确保假设-转录对的质量，这要求严格的数据过滤和标注流程。此外，生成的错误校正模型在处理插入错误和儿童特定不流畅现象时表现不佳，显示出模型在这些方面的局限性。

常用场景

经典使用场景

在儿童语音识别领域，CHSER数据集被广泛应用于生成式语音错误校正（GenSEC）模型的训练与评估。该数据集通过整合多源儿童语音语料库，覆盖了4-14岁不同年龄段及朗读式/自发式两种说话风格，为模型提供了学习儿童特有发音变异性和语言不流畅模式的基准平台。其20万条假设-转录对特别适用于探究大语言模型在儿童语音识别错误校正中的迁移能力，如在零样本场景下实现28.5%的词错误率相对降低。

实际应用

该数据集的实际价值体现在教育科技和临床诊断场景中。在智能辅导系统方面，基于CHSER训练的校正模型可将儿童与虚拟教师对话的识别准确率提升20.7%，增强人机交互流畅性；在语言发育评估中，其标注的发音错误模式有助于构建早期语言障碍筛查工具。数据集包含的科学话题自发对话（MyST语料）更可直接用于STEM教育应用的语音接口优化。

衍生相关工作

CHSER推动了多项儿童语音处理领域的创新研究：在模型架构层面，催生了融合韵律特征的混合校正方法（如Whispering LLaMA）；在训练策略上，启发针对特定年龄段的低秩适配（LoRA）微调方案。其构建方法论影响了后续儿童语音数据集设计，如采用N-best假设筛选策略的Kid-Whisper项目。数据集公开后，更成为评估跨模态错误校正系统（如GPT-4o的少样本学习能力）的标准测试平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集