ChildMandarin

github2025-03-19 更新2025-03-19 收录

下载链接：

https://github.com/flageval-baai/ChildMandarin

下载链接

链接失效反馈

官方服务：

资源简介：

ChildMandarin是一个专门为3至5岁儿童设计的普通话语音数据集，旨在解决该领域资源稀缺的问题，并促进儿童语音识别、说话人验证及相关领域的研究。数据集包含41.25小时的录音，涉及397名来自中国22个省级行政区的儿童，录音设备为智能手机，录音环境为安静的室内环境，数据格式为WAV PCM，16kHz采样率，16位精度。

ChildMandarin is a Mandarin speech dataset specifically designed for children aged 3 to 5 years old, aiming to address the scarcity of resources in this field and promote research in children's speech recognition, speaker verification and related fields. The dataset contains 41.25 hours of recordings, involving 397 children from 22 provincial-level administrative regions in China. The recordings were collected using smartphones in quiet indoor environments, with the data format being WAV PCM, 16kHz sampling rate and 16-bit precision.

创建时间：

2025-03-12

原始信息汇总

ChildMandarin: 3-5岁儿童普通话语音数据集概述

数据集简介

目标群体: 专为3-5岁儿童设计的普通话语音数据集
主要用途: 支持儿童语音识别、说话人验证等领域研究
特点: 填补该年龄段资源空白，包含自然日常交流内容

数据集详情

基础信息

年龄范围: 3-5岁
总时长: 41.25小时
说话人数量: 397人
地理覆盖: 中国34个省级行政区中的22个
性别分布: 各年龄组均衡

技术规格

录音设备: 智能手机(Android和iPhone)
录音环境: 安静室内
数据格式: WAV PCM格式，16kHz采样率，16位精度

标注信息

字符级人工转录
包含年龄、性别、出生地、设备、口音等级等信息

数据集统计

分割	说话人数	话语数	时长(小时)	平均话语长度(秒)
训练集	317	32,658	33.35	3.68
开发集	39	4,057	3.78	3.35
测试集	41	4,198	4.12	3.53
总计	397	40,913	41.25	3.52

实验成果

自动语音识别(ASR)

从头训练模型

编码器	损失函数	参数量	贪婪解码	Beam搜索	注意力机制	注意力重评分
Transformer	CTC+AED	29M	34.55	34.4	40.61	32.15
Conformer	CTC+AED	31M	28.73	28.72	31.60	27.38
Conformer	RNN-T+AED	45M	37.11	37.14	33.84	37.14
Paraformer	Paraformer	30M	31.86	28.94	-	-

微调预训练模型

模型	参数量	零样本	微调后
CW	122M	18.05	13.66
Whisper-tiny	39M	67.63	28.78
Whisper-base	74M	51.49	23.33
Whisper-small	244M	37.99	17.45
Whisper-medium	769M	28.55	18.97

说话人验证(SV)

模型	参数量	维度	开发集(%)	EER(%)	minDCF	测试集EER(%)	测试集minDCF
x-vector	4.2M	512	75.4	8.91	0.7198	25.92	0.9780
ECAPA-TDNN	20.8M	192	84.6	13.72	0.8697	27.77	0.9490
ResNet-TDNN	15.5M	256	91.9	9.57	0.6597	22.11	0.9044

获取方式

HuggingFace地址: https://huggingface.co/datasets/BAAI/ChildMandarin
论文地址: https://arxiv.org/abs/2409.18584

引用格式

bibtex @article{zhou2024childmandarin, title={ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5}, author={Zhou, Jiaming and Wang, Shiyao and Zhao, Shiwan and He, Jiabei and Sun, Haoqin and Wang, Hui and Liu, Cheng and Kong, Aobo and Guo, Yujie and Qin, Yong}, journal={arXiv preprint arXiv:2409.18584}, year={2024} }

搜集汇总

数据集介绍

构建方式

ChildMandarin数据集的构建过程充分考虑了儿童语音数据的特殊性。研究团队通过智能手机设备在中国22个省级行政区内采集了397名3至5岁儿童的语音数据，总时长达41.25小时。为确保数据质量，所有录音均在安静的室内环境中进行，并采用字符级手动转录，同时标注了年龄、性别、出生地、设备信息及口音等级。数据格式为WAV PCM，采样率为16kHz，精度为16位。

特点

ChildMandarin数据集具有显著的代表性和多样性。其覆盖了广泛的地理区域，确保了不同方言背景的儿童语音样本的均衡性。数据集中男女比例平衡，且涵盖了3至5岁各年龄段的儿童。此外，数据集提供了详细的元数据信息，如年龄、性别、出生地等，为研究者提供了丰富的分析维度。数据集的内容聚焦于儿童日常交流，具有较高的实用价值。

使用方法

ChildMandarin数据集可通过Hugging Face平台直接访问，支持多种语音处理任务的研究。用户可以通过Hugging Face Datasets库加载数据集，并利用其提供的训练集、开发集和测试集进行模型训练与评估。数据集适用于自动语音识别（ASR）和说话人验证（SV）等任务，研究者可根据需求选择不同的预训练模型进行微调或从头训练。数据集的使用需遵循CC BY-NC-SA 4.0许可协议。

背景与挑战

背景概述

ChildMandarin数据集由北京人工智能研究院（BAAI）于2024年发布，旨在填补3至5岁儿童普通话语音数据资源的空白。该数据集涵盖了397名儿童，总时长达41.25小时，覆盖中国22个省级行政区，数据采集于安静的室内环境，使用智能手机设备录制。数据集不仅提供了字符级的手动转录，还包含了年龄、性别、出生地、设备类型和口音等级等丰富元信息。ChildMandarin的发布为儿童语音识别、说话人验证等领域的研究提供了重要支持，推动了相关技术的进步。

当前挑战

ChildMandarin数据集在构建过程中面临多重挑战。首先，儿童语音的多样性和不稳定性使得数据采集和标注变得复杂，尤其是3至5岁儿童的发音尚未完全成熟，语音特征与成人差异显著。其次，数据的地理分布广泛，不同地区的口音和方言增加了数据标注的难度。此外，儿童语音数据集的稀缺性使得模型训练和评估缺乏基准，研究人员需从头设计实验方案。在应用层面，儿童语音识别和说话人验证任务对模型的鲁棒性和泛化能力提出了更高要求，尤其是在低资源环境下，如何有效利用有限数据提升模型性能成为关键挑战。

常用场景

经典使用场景

ChildMandarin数据集在儿童语音识别领域具有广泛的应用，尤其是在3至5岁儿童的普通话语音识别研究中。该数据集通过提供高质量的语音样本和详细的标注信息，支持研究人员开发针对儿童语音特点的自动语音识别（ASR）模型。由于儿童语音与成人语音在音高、语速和发音清晰度上存在显著差异，ChildMandarin为构建适应儿童语音特征的模型提供了宝贵的训练和测试资源。

衍生相关工作

基于ChildMandarin数据集，研究人员已经开展了多项经典工作。例如，使用该数据集训练的Transformer和Conformer模型在儿童语音识别任务中表现出色，显著降低了识别错误率。此外，该数据集还被用于开发针对儿童语音的说话人验证系统，提升了系统的准确性和鲁棒性。这些工作不仅推动了儿童语音识别技术的发展，也为相关领域的研究提供了新的思路和方法。

数据集最近研究