multilingual_audio_alignments
收藏Hugging Face2026-01-08 更新2026-01-09 收录
下载链接:
https://huggingface.co/datasets/AAdonis/multilingual_audio_alignments
下载链接
链接失效反馈官方服务:
资源简介:
这是一个大规模的多语言语音数据集,包含了英语、德语、法语、西班牙语、俄语、日语、韩语、葡萄牙语、土耳其语和泰语等多种语言的语音数据。数据集使用了Montreal Forced Aligner (MFA)进行了精确的单词和音素对齐。每个样本包括原始音频、文本转录、单词和音素的详细时间对齐信息。数据集还提供了每种语言的配置、小时数、样本数和来源等信息。总估计小时数超过20,000小时。
This is a large-scale multilingual speech dataset comprising speech data in ten languages, namely English, German, French, Spanish, Russian, Japanese, Korean, Portuguese, Turkish, and Thai. The Montreal Forced Aligner (MFA) was employed to perform precise word-level and phoneme-level alignment for the dataset. Each sample includes the raw audio, text transcription, and detailed temporal alignment information for words and phonemes. Additionally, the dataset provides per-language metadata including configuration settings, total duration in hours, number of samples, and data sources. The total estimated duration of the dataset exceeds 20,000 hours.
创建时间:
2026-01-07
原始信息汇总
Multilingual MFA-Aligned Speech Dataset 概述
数据集基本信息
- 数据集名称:Multilingual MFA-Aligned Speech Dataset
- 状态:开发中 (UNDER DEVELOPMENT)
- 许可证:CC-BY-4.0
- 任务类别:自动语音识别、文本到语音
- 标签:音频、语音、音素对齐、MFA、强制对齐
- 数据格式:包含音频、文本转录、单词级对齐和音素级对齐
支持语言与配置
数据集包含以下10种语言的独立配置:
- 英语 (
english) - 法语 (
french) - 德语 (
german) - 日语 (
japanse) - 俄语 (
russian) - 西班牙语 (
spanish) - 土耳其语 (
turkish) - 葡萄牙语 (
portuguese) - 韩语 (
korean) - 泰语 (
thai)
数据特征
每个样本包含以下字段:
audio:16kHz音频波形transcript:文本转录phoneme_sequence:音素序列(单词间用空格分隔)words:单词级对齐信息列表,包含单词、开始时间、结束时间phonemes:音素级对齐信息列表,包含音素、开始时间、结束时间source:原始数据集来源
数据规模与来源
总时长估计:约20,000+小时
各语言数据来源:
- 英语:Common Voice, VoxPopuli, GigaSpeech, Emilia, Genshin Voice, Gemini Speech
- 德语:Multilingual LibriSpeech, Emilia
- 法语:French Game Voice, Multilingual LibriSpeech, Wolof French ASR
- 西班牙语:CML TTS, LibriVox, TEDx Spanish
- 俄语:Russian Audio Data, Multilingual LibriSpeech
- 日语:Combined Japanese Dataset, Japanese Anime Speech
- 韩语:Zeroth STT Korean, Korea Speech
- 葡萄牙语:Portuguese TTS, Multilingual LibriSpeech
- 土耳其语:Turkish Merge Audio, Khan Academy Turkish
- 泰语:Porjai Thai Voice Dataset
处理细节
- 对齐工具:使用蒙特利尔强制对齐器 (Montreal Forced Aligner, MFA) 进行对齐
- 质量过滤:基于未知词、语音噪声标记、时长和单词数进行过滤和分割
- 音素序列格式:使用IPA音标,单词内音素直接连接,单词间用空格分隔
使用方式
可通过Hugging Face datasets库加载特定语言数据:
python
from datasets import load_dataset
dataset = load_dataset("AAdonis/merged_mfa_alignments", "english", split="train")
引用要求
使用本数据集时需引用蒙特利尔强制对齐器及相关原始数据集。
搜集汇总
数据集介绍

构建方式
在语音处理领域,构建高质量的对齐数据集对于提升语音识别与合成系统的性能至关重要。本数据集通过整合多语言语音语料库,并采用蒙特利尔强制对齐器(MFA)进行统一处理,实现了词级和音素级的精确对齐。构建过程中,原始音频与转录文本经过MFA的语言特定声学模型和发音词典进行对齐,同时应用了严格的质量过滤机制,包括基于未知词和噪声标记的样本分割、时长阈值筛选以及最小词数要求,确保了数据的一致性与可靠性。
特点
该数据集的核心特点在于其广泛的多语言覆盖与精细的时间对齐信息。它涵盖了英语、德语、法语、西班牙语、俄语、日语、韩语、葡萄牙语、土耳其语和泰语等十种语言,每个样本不仅包含原始音频波形和文本转录,还提供了详细的词级与音素级对齐时间戳。这种结构化的对齐数据为语音模型训练提供了丰富的时序监督信号,尤其适用于需要精确发音建模的任务,如语音合成和语音识别。数据集还标注了原始来源,便于用户根据特定需求进行筛选和分析。
使用方法
使用本数据集时,用户可通过Hugging Face的datasets库便捷加载特定语言配置。加载后,可直接访问音频数组、采样率、转录文本、音素序列及对齐信息。数据集的灵活结构支持基于来源的过滤操作,例如筛选出来自VoxPopuli或Common Voice的样本。对齐信息以列表形式呈现,用户可轻松提取每个词或音素的起止时间,为模型训练或分析提供精确的输入。这种设计使得数据集能够无缝集成到现有的语音处理流程中,支持多语言语音技术的开发与评估。
背景与挑战
背景概述
在语音技术领域,精确的音素与单词级别对齐是语音识别、文本到语音合成及发音评估等任务的基础。Multilingual MFA-Aligned Speech Dataset由研究者AAdonis整合构建,依托蒙特利尔强制对齐器(MFA)技术,旨在提供大规模多语言语音对齐数据。该数据集汇集了包括英语、德语、法语等十种语言的多个语音语料库,如Common Voice、VoxPopuli等,覆盖约两万小时的语音资源,其核心研究问题在于解决跨语言语音对齐的标准化与可扩展性,为多语言语音模型训练提供了关键支撑,显著推动了语音处理技术的国际化发展。
当前挑战
该数据集致力于应对多语言语音对齐的复杂性挑战,具体包括不同语言音系结构的差异性、语音信号与文本转录的精确映射困难,以及低资源语言对齐数据稀缺等问题。在构建过程中,挑战主要源于原始语料库的异构性,需统一处理音频格式、转录质量及噪声干扰;同时,MFA对齐过程依赖语言特定的声学模型与发音词典,其训练与调优需克服数据不平衡与标注一致性难题,此外,质量过滤如未知词分割与时长阈值设定也增加了数据清洗的复杂度。
常用场景
经典使用场景
在语音技术领域,多语言音频对齐数据集为语音识别与合成研究提供了关键支撑。该数据集通过蒙特利尔强制对齐器(MFA)生成了精确的音素级和词级对齐标注,涵盖英语、德语、法语等十种语言,适用于训练和评估跨语言的声学模型。研究者常利用其对齐信息优化端到端语音识别系统,提升模型在多种语言环境下的时序建模能力,尤其在处理低资源语言时,对齐数据显著增强了模型的泛化性能。
解决学术问题
该数据集有效应对了多语言语音研究中对齐标注稀缺的挑战。传统语音数据往往缺乏细粒度的时序标注,制约了音素感知模型的发展。通过整合多个开源语料库并应用统一的MFA对齐流程,数据集提供了大规模、高质量的对齐信息,助力解决跨语言音素边界检测、发音变异建模以及韵律分析等基础问题。其标准化标注体系为比较不同语言间的声学特性建立了可靠基准,推动了语音学与计算语言学的交叉研究。
衍生相关工作
基于该数据集衍生的经典工作主要集中在多语言语音处理前沿。例如,研究者利用其对齐标注训练跨语言音素识别器,显著提升了低资源语言的语音识别性能。在语音合成方向,对齐数据被用于改进时长预测模型,增强了多语言文本到语音系统的自然度。此外,该数据集还促进了音素感知自监督学习方法的创新,如开发基于对齐约束的预训练模型,这些模型在语音表示学习中展现了优越的跨语言迁移能力。
以上内容由遇见数据集搜集并总结生成



