five

ChildMandarin

收藏
github2025-03-19 更新2025-03-19 收录
下载链接:
https://github.com/flageval-baai/ChildMandarin
下载链接
链接失效反馈
官方服务:
资源简介:
ChildMandarin是一个专门为3至5岁儿童设计的普通话语音数据集,旨在解决该领域资源稀缺的问题,并促进儿童语音识别、说话人验证及相关领域的研究。数据集包含41.25小时的录音,涉及397名来自中国22个省级行政区的儿童,录音设备为智能手机,录音环境为安静的室内环境,数据格式为WAV PCM,16kHz采样率,16位精度。

ChildMandarin is a Mandarin speech dataset specifically designed for children aged 3 to 5 years old, aiming to address the scarcity of resources in this field and promote research in children's speech recognition, speaker verification and related fields. The dataset contains 41.25 hours of recordings, involving 397 children from 22 provincial-level administrative regions in China. The recordings were collected using smartphones in quiet indoor environments, with the data format being WAV PCM, 16kHz sampling rate and 16-bit precision.
创建时间:
2025-03-12
原始信息汇总

ChildMandarin: 3-5岁儿童普通话语音数据集概述

数据集简介

  • 目标群体: 专为3-5岁儿童设计的普通话语音数据集
  • 主要用途: 支持儿童语音识别、说话人验证等领域研究
  • 特点: 填补该年龄段资源空白,包含自然日常交流内容

数据集详情

基础信息

  • 年龄范围: 3-5岁
  • 总时长: 41.25小时
  • 说话人数量: 397人
  • 地理覆盖: 中国34个省级行政区中的22个
  • 性别分布: 各年龄组均衡

技术规格

  • 录音设备: 智能手机(Android和iPhone)
  • 录音环境: 安静室内
  • 数据格式: WAV PCM格式,16kHz采样率,16位精度

标注信息

  • 字符级人工转录
  • 包含年龄、性别、出生地、设备、口音等级等信息

数据集统计

分割 说话人数 话语数 时长(小时) 平均话语长度(秒)
训练集 317 32,658 33.35 3.68
开发集 39 4,057 3.78 3.35
测试集 41 4,198 4.12 3.53
总计 397 40,913 41.25 3.52

实验成果

自动语音识别(ASR)

从头训练模型

编码器 损失函数 参数量 贪婪解码 Beam搜索 注意力机制 注意力重评分
Transformer CTC+AED 29M 34.55 34.4 40.61 32.15
Conformer CTC+AED 31M 28.73 28.72 31.60 27.38
Conformer RNN-T+AED 45M 37.11 37.14 33.84 37.14
Paraformer Paraformer 30M 31.86 28.94 - -

微调预训练模型

模型 参数量 零样本 微调后
CW 122M 18.05 13.66
Whisper-tiny 39M 67.63 28.78
Whisper-base 74M 51.49 23.33
Whisper-small 244M 37.99 17.45
Whisper-medium 769M 28.55 18.97

说话人验证(SV)

模型 参数量 维度 开发集(%) EER(%) minDCF 测试集EER(%) 测试集minDCF
x-vector 4.2M 512 75.4 8.91 0.7198 25.92 0.9780
ECAPA-TDNN 20.8M 192 84.6 13.72 0.8697 27.77 0.9490
ResNet-TDNN 15.5M 256 91.9 9.57 0.6597 22.11 0.9044

获取方式

  • HuggingFace地址: https://huggingface.co/datasets/BAAI/ChildMandarin
  • 论文地址: https://arxiv.org/abs/2409.18584

引用格式

bibtex @article{zhou2024childmandarin, title={ChildMandarin: A Comprehensive Mandarin Speech Dataset for Young Children Aged 3-5}, author={Zhou, Jiaming and Wang, Shiyao and Zhao, Shiwan and He, Jiabei and Sun, Haoqin and Wang, Hui and Liu, Cheng and Kong, Aobo and Guo, Yujie and Qin, Yong}, journal={arXiv preprint arXiv:2409.18584}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
ChildMandarin数据集的构建过程充分考虑了儿童语音数据的特殊性。研究团队通过智能手机设备在中国22个省级行政区内采集了397名3至5岁儿童的语音数据,总时长达41.25小时。为确保数据质量,所有录音均在安静的室内环境中进行,并采用字符级手动转录,同时标注了年龄、性别、出生地、设备信息及口音等级。数据格式为WAV PCM,采样率为16kHz,精度为16位。
特点
ChildMandarin数据集具有显著的代表性和多样性。其覆盖了广泛的地理区域,确保了不同方言背景的儿童语音样本的均衡性。数据集中男女比例平衡,且涵盖了3至5岁各年龄段的儿童。此外,数据集提供了详细的元数据信息,如年龄、性别、出生地等,为研究者提供了丰富的分析维度。数据集的内容聚焦于儿童日常交流,具有较高的实用价值。
使用方法
ChildMandarin数据集可通过Hugging Face平台直接访问,支持多种语音处理任务的研究。用户可以通过Hugging Face Datasets库加载数据集,并利用其提供的训练集、开发集和测试集进行模型训练与评估。数据集适用于自动语音识别(ASR)和说话人验证(SV)等任务,研究者可根据需求选择不同的预训练模型进行微调或从头训练。数据集的使用需遵循CC BY-NC-SA 4.0许可协议。
背景与挑战
背景概述
ChildMandarin数据集由北京人工智能研究院(BAAI)于2024年发布,旨在填补3至5岁儿童普通话语音数据资源的空白。该数据集涵盖了397名儿童,总时长达41.25小时,覆盖中国22个省级行政区,数据采集于安静的室内环境,使用智能手机设备录制。数据集不仅提供了字符级的手动转录,还包含了年龄、性别、出生地、设备类型和口音等级等丰富元信息。ChildMandarin的发布为儿童语音识别、说话人验证等领域的研究提供了重要支持,推动了相关技术的进步。
当前挑战
ChildMandarin数据集在构建过程中面临多重挑战。首先,儿童语音的多样性和不稳定性使得数据采集和标注变得复杂,尤其是3至5岁儿童的发音尚未完全成熟,语音特征与成人差异显著。其次,数据的地理分布广泛,不同地区的口音和方言增加了数据标注的难度。此外,儿童语音数据集的稀缺性使得模型训练和评估缺乏基准,研究人员需从头设计实验方案。在应用层面,儿童语音识别和说话人验证任务对模型的鲁棒性和泛化能力提出了更高要求,尤其是在低资源环境下,如何有效利用有限数据提升模型性能成为关键挑战。
常用场景
经典使用场景
ChildMandarin数据集在儿童语音识别领域具有广泛的应用,尤其是在3至5岁儿童的普通话语音识别研究中。该数据集通过提供高质量的语音样本和详细的标注信息,支持研究人员开发针对儿童语音特点的自动语音识别(ASR)模型。由于儿童语音与成人语音在音高、语速和发音清晰度上存在显著差异,ChildMandarin为构建适应儿童语音特征的模型提供了宝贵的训练和测试资源。
衍生相关工作
基于ChildMandarin数据集,研究人员已经开展了多项经典工作。例如,使用该数据集训练的Transformer和Conformer模型在儿童语音识别任务中表现出色,显著降低了识别错误率。此外,该数据集还被用于开发针对儿童语音的说话人验证系统,提升了系统的准确性和鲁棒性。这些工作不仅推动了儿童语音识别技术的发展,也为相关领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
近年来,随着儿童语音识别技术的快速发展,ChildMandarin数据集在自动语音识别(ASR)和说话人验证(SV)领域的研究中展现出重要价值。该数据集聚焦于3至5岁儿童的普通话语音,填补了该年龄段语音数据资源的空白。研究者们通过训练和微调多种模型,如Transformer、Conformer和Whisper系列,显著提升了儿童语音识别的准确率。特别是在零样本学习和微调实验中,Whisper-large-v2和Qwen2-Audio等大规模预训练模型表现出色,进一步推动了儿童语音识别技术的进步。此外,该数据集的地理覆盖广泛,涵盖了中国的22个省级行政区,确保了数据的多样性和代表性,为跨区域儿童语音研究提供了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作