BabyHuBERT

Name: BabyHuBERT
Creator: 法国巴黎高等师范学院、法国国家科学研究中心、法国社会科学高等研究院、法国巴黎文理研究大学、美国麻省理工学院计算心理语言学实验室
Published: 2025-09-18 22:34:17
License: 暂无描述

arXiv2025-09-18 更新2025-09-20 收录

下载链接：

https://huggingface.co/coml/BabyHuBERT

下载链接

链接失效反馈

官方服务：

资源简介：

BabyHuBERT是一个基于大规模儿童中心长格式录音的多语言自监督语音表示模型，包含超过13,164小时的多语言录音，跨越40多种语言。该数据集主要用于语音分割任务，能够识别儿童说话与成人说话之间的区别。BabyHuBERT在六个不同的数据集上取得了52.1%至74.4%的F1分数，明显优于W2V2-LL4300和标准HuBERT。通过共享代码和模型，BabyHuBERT为儿童语音研究提供了基础模型，能够在多样化的下游任务上进行微调。

BabyHuBERT is a multilingual self-supervised speech representation model built on large-scale child-centered long-form audio recordings. Its training corpus includes over 13,164 hours of multilingual audio spanning more than 40 languages. This training corpus is primarily used for speech segmentation tasks, allowing for the discrimination between child and adult speech. BabyHuBERT achieved F1 scores ranging from 52.1% to 74.4% across six different datasets, substantially outperforming both W2V2-LL4300 and the standard HuBERT. By releasing its code and pre-trained model, BabyHuBERT provides a foundational model for child speech research that can be fine-tuned on a wide variety of downstream tasks.

提供机构：

法国巴黎高等师范学院、法国国家科学研究中心、法国社会科学高等研究院、法国巴黎文理研究大学、美国麻省理工学院计算心理语言学实验室

创建时间：

2025-09-18

搜集汇总

数据集介绍

构建方式

BabyHuBERT数据集的构建依托于跨越多达40种语言的19个不同数据集，总计涵盖39,029小时的原始音频。通过科学档案和直接数据共享协议获取资源后，研究团队采用语音活动检测技术筛选语音片段，将短于2秒的片段扩展并合并相邻片段以提供充足上下文，同时将非语音内容比例从80%显著降低，最终得到13,164小时的有效训练数据，其中非英语内容占比43%，确保了语言与社会文化多样性。

特点

该数据集的核心特点在于其专注于儿童中心的长时录音，涵盖了高度复杂的声学环境，包括非语音内容、重叠说话人、可变声学条件及远场或模糊音频。儿童语音本身具有更高的基频、更大的频谱变异性和非标准发音，进一步增加了数据的挑战性。数据覆盖从英语、法语到Yeli Dnye、Tsimane等 underrepresented 语言，体现了多语言性和跨文化代表性，为模型训练提供了丰富且真实的声学多样性。

使用方法

BabyHuBERT数据集的使用主要通过自监督预训练和下游任务微调实现。预训练采用HuBERT框架，利用掩码预测方法增强对噪声的鲁棒性，并进行两轮迭代聚类以优化特征表示。微调阶段则针对语音类型分类任务，添加独立的二元分类头，支持冻结特征提取器或全模型微调策略。评估时使用F1分数等指标，在多个数据集上测试性能，确保模型能够泛化到不同语言和环境，为儿童语音研究提供可靠基础。

背景与挑战

背景概述

儿童语言发展研究长期受限于自然场景下语音数据的自动化处理瓶颈。2025年由法国高等师范学院、麻省理工学院等机构联合推出的BabyHuBERT数据集，作为首个基于多语言儿童长时录音的自监督语音表征模型，整合了全球11个国家40余种语言的13,164小时儿童中心化音频数据。该数据集聚焦于破解成人语音模型在儿童语音识别中的适应性困境，通过大规模预训练提升了说话人分割任务的精度，为儿童语言环境分析、跨文化语言习得研究提供了关键基础设施，显著推动了发展语言学与计算语音学的交叉融合。

当前挑战

儿童中心化长时录音中存在80%非语音内容（环境噪声、静默段）及高度碎片化的语音特征，包括短发声片段、说话人重叠、可变声学条件等，对传统成人语音模型构成严峻挑战。数据构建过程中需克服多语言资源不平衡问题，尤其涉及尤里丹语、茨曼纳语等稀缺语言的采集与标注；同时需设计专用预处理流程，通过语音活动检测与分段融合技术降低非语音干扰，并解决儿童发声的高基频、非标准发音等声学变异问题。

常用场景

经典使用场景

在儿童语言发展研究中，BabyHuBERT数据集被广泛应用于自然场景下的语音类型分类任务。该数据集通过覆盖40多种语言、超过1.3万小时的儿童中心长时录音，为模型提供了丰富的多语言语音环境。研究者利用其进行说话人分割，区分目标儿童、成人男性、成人女性及其他儿童的语音片段，这一过程是分析儿童语言输入与输出模式的基础步骤。

衍生相关工作

BabyHuBERT催生了多项语音处理领域的创新研究。基于其训练的模型在Whisper-VTC和PyanNet-VTC等语音分类系统中表现出显著改进，推动了儿童语音成熟度分类任务的发展。后续工作进一步探索了其在同伴交互分析和儿童指向语音检测中的应用，为发展心理学和计算语言学提供了新的研究范式。

数据集最近研究