multilingual_librispeech_french_phoneme
收藏Hugging Face2026-01-13 更新2026-01-14 收录
下载链接:
https://huggingface.co/datasets/Cnam-LMSSC/multilingual_librispeech_french_phoneme
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Multilingual LibriSpeech(MLS)法语子集的精选版本,增加了音素转录列(`phoneme`)。由Cnam-LMSSC实验室创建,旨在促进法语声学建模、音素识别和语音合成的研究。它基于原始MLS数据集中来自LibriVox有声读物的高质量音频。数据集包含音频、说话者和章节元数据、原始文本以及生成的音素转录。支持的任务包括:音素识别(将音频特征直接映射到IPA音素)、自动语音识别(ASR)和文本转语音(TTS)。数据集语言为法语(`fr`)。
提供机构:
Laboratoire de Mécanique des Structures et des Systèmes Couplés
创建时间:
2026-01-08
原始信息汇总
Multilingual LibriSpeech French Phoneme 数据集概述
数据集基本信息
- 数据集名称: Multilingual LibriSpeech French (Phonemized & Curated)
- 提供方: Cnam-LMSSC Team
- 许可证: cc-by-4.0
- 语言: 法语 (
fr) - 语言来源: 众包
- 标注来源: 机器生成
- 多语言性: 单语
- 规模类别: 1K<n<10K, 10K<n<100K
- 源数据集: facebook/multilingual_librispeech
数据集简介
该数据集是 Multilingual LibriSpeech (MLS) 法语子集的精选版本,并增加了一个音素转录列 (phoneme)。Laboratoire de Mécanique des Structures et des Systèmes Couplés (Cnam-LMSSC) 创建此版本旨在促进法语声学建模、音素识别和语音合成的研究。其基础是源自原始 MLS 数据集中 LibriVox 有声读物的高质量音频。
支持的任务
- 音素识别: 训练模型将音频特征直接映射到国际音标 (IPA) 音素。
- 自动语音识别: 利用有声读物数据进行鲁棒的语音到文本任务。
- 文本到语音合成: 利用 LibriSpeech 高质量、朗读语音的特性进行合成。
数据集结构
数据实例
一个典型的数据点包含音频、关于说话者和章节的元数据(源自 LibriVox)、原始文本以及生成的音素转录。 数据结构示例如下: python { id: 1234_5678_00001, audio: { path: 1234_5678_00001.flac, array: array([-0.012, 0.045, ...], dtype=float32), sampling_rate: 16000 }, text: "IL EST TEMPS DE PARTIR", phoneme: "i l ɛ t ɑ̃ d ə p a ʁ t i ʁ", speaker_id: 1234, chapter_id: 5678, }
标签
- audio
- speech
- phonemes
- ipa
- french
- mls
- librispeech
- cnam-lmssc
任务类别
- automatic-speech-recognition
- text-to-speech
搜集汇总
数据集介绍

构建方式
在语音处理领域,高质量标注数据对模型训练至关重要。Multilingual LibriSpeech French Phoneme数据集以Multilingual LibriSpeech的法语子集为基础,通过机器自动生成音素转录列进行增强。原始音频源自LibriVox有声读物,经过精选与整理,确保了语音内容的自然性与多样性。该构建过程融合了众包语言创建与自动化标注技术,形成了兼具音频、文本及国际音标转录的结构化语料,为法语语音研究提供了可靠的数据支持。
特点
本数据集的核心特点在于其丰富的多模态标注信息。每条数据实例不仅包含高保真音频及其对应文本,还提供了精细的音素级国际音标转录,这为语音识别与合成任务提供了深层语言学特征。数据覆盖多种说话人与章节场景,体现了法语朗读语音的韵律变化与发音多样性。作为经过专门优化的版本,它在保持LibriSpeech原有高质量的同时,强化了对法语语音学研究的针对性,适用于从基础声学建模到复杂语音合成的广泛需求。
使用方法
在语音技术研究中,该数据集可直接应用于多项任务。对于音素识别,可利用音频与音素转录的对应关系训练端到端模型;在自动语音识别任务中,音频与文本配对支持传统或端到端ASR系统的开发;同时,高质量的朗读语音数据也为文本到语音合成提供了自然的声学素材。用户可通过标准接口加载音频波形、文本及音素序列,结合说话人与章节元数据,进行数据分割、特征提取或模型训练,从而推动法语语音处理技术的进步。
背景与挑战
背景概述
在语音技术领域,高质量标注数据集的构建对于推动自动语音识别与语音合成研究至关重要。Multilingual LibriSpeech French Phoneme数据集由法国国立工艺学院结构力学与耦合系统实验室(Cnam-LMSSC)基于Multilingual LibriSpeech的法语子集精心构建,发布于2023年左右,旨在为法语语音建模、音素识别及语音合成研究提供支持。该数据集源自LibriVox有声读物,通过机器生成音素转录,丰富了原始音频的语音学标注,显著促进了法语语音处理技术的发展,并为跨语言语音研究提供了重要资源。
当前挑战
该数据集致力于解决法语自动语音识别与音素识别中的核心挑战,包括应对法语丰富的音系变体与连音现象,提升模型在真实朗读语音环境下的鲁棒性。在构建过程中,挑战主要集中于音素标注的准确性与一致性,需克服机器转录对法语特殊发音规则的适应难题,同时确保音频质量与文本对齐的精确性,以维护数据集的学术可靠性。
常用场景
经典使用场景
在语音技术领域,高质量的法语语音数据对于推动声学建模研究至关重要。Multilingual LibriSpeech French Phoneme数据集以其丰富的音素标注,为法语语音识别与合成任务提供了经典实验平台。研究者常利用该数据集训练端到端音素识别模型,通过直接映射音频特征至国际音标符号,探索语音信号与音位单元间的深层关联,尤其在处理法语特有的连音和鼻化元音现象时展现出独特价值。
解决学术问题
该数据集有效解决了法语语音处理中标注数据稀缺的学术困境。通过提供大规模、高质量的音素级标注,研究者能够深入探究法语语音的声学特性与音系规律,为跨语言语音模型迁移学习、低资源语言语音技术开发等前沿课题提供实证基础。其精心设计的音素标注体系,显著提升了法语语音识别系统在复杂声学环境下的鲁棒性,推动了语音学与计算语言学的交叉融合。
衍生相关工作
基于该数据集衍生的经典工作包括端到端法语音素识别架构的优化研究,其中注意力机制与卷积神经网络的融合模型显著提升了音素边界检测精度。在跨语言语音合成领域,研究者利用其音素标注实现了法语与英语语音风格的迁移转换。此外,该数据集还催生了针对法语连音现象的特化处理算法,以及结合音素知识的自监督语音表示学习方法,为多语种语音技术栈的完善提供了关键支撑。
以上内容由遇见数据集搜集并总结生成



