YodaLingua-Farsi

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/Thomcles/YodaLingua-Farsi

下载链接

链接失效反馈

官方服务：

资源简介：

YodaLingua数据集专为训练文本到语音（TTS）模型或其他需要干净、对齐良好的音频数据的模型而设计。它包含高质量的波斯语（Farsi）音频录音和准确的转录文本。数据集特点包括：数量（14,586个音频-转录对，43.7小时的语音）、多样性（504个不同说话者）、音频质量（经过降噪处理）、多语言支持、优化用于TTS训练以及允许商业使用。数据集的构建流程包括数据标准化、降噪、说话人分割、语音活动检测、转录和数据过滤等步骤。

创建时间：

2025-12-07

原始信息汇总

YodaLingua-Farsi 数据集概述

数据集基本信息

许可证: CC BY 4.0
主要语言: 波斯语 (fa)
任务类别: 文本到语音、自动语音识别、音频到音频、音频分类、文本到音频、语音活动检测
标签: TTS、farsi、yodas、quality
数据集名称: YodaLingua

数据集结构与内容

数据特征:
- __key__: 字符串类型
- mp3: 音频类型，采样率为 24000 Hz
- text: 字符串类型（转录文本）
- language: 字符串类型
- speaker_id: 字符串类型
- dnsmos: 浮点数类型 (float64)
数据划分: 仅包含训练集 (train)
- 样本数量: 14,586
- 字节大小: 680,427,539.778
下载大小: 636,505,858
数据集大小: 680,427,539.778

数据集特点

数据量: 包含 14,586 个音频-转录对，总计 43.7 小时的语音。
多样性: 包含 504 位不同的说话者，每位说话者代表了针对特定主题的独特发音风格、词汇和语义。
音频质量: 音频录音经过降噪/清理处理，并配有清晰的转录文本。
多语言支持: 可在 https://huggingface.co/collections/Thomcles/yodalingua 获取其他语言版本。
针对 TTS 优化: 数据处理流程受 Emilia 影响，确保为训练 TTS 模型提供最佳质量。
商业用途: 由于其宽松的许可证，音频数据可自由用于训练商业模型。

数据处理流程

该数据集基于 yodas 构建，该源数据集包含来自免版税 YouTube 视频的音频片段，允许商业使用。

处理流程包括：

数据标准化: 将所有样本转换为 WAV 格式，设置为单声道，重采样至 24 kHz。设置样本宽度为 16 位，并将目标分贝水平调整为 -20 dBFS。音量调整限制在 -3 到 3 dB 之间以避免失真。
去除背景噪声。
说话人分割: 应用说话人分割技术，根据说话人将长格式语音数据分割成多个片段，从而获取不同说话者的名称以确保语音风格的多样性。
语音活动检测: 将来自同一说话者的连续 VAD 片段连接成适当长度的语句，确保每条语句长度在 3 到 30 秒之间。
转录: 使用最先进的语音识别模型进行转录。
数据过滤: 使用 DNSMOS P.835 OVRL 评估整体语音质量，仅保留分数高于 3.0 的语音数据。

搜集汇总

数据集介绍

构建方式

在波斯语语音合成研究领域，YodaLingua-Farsi数据集的构建体现了系统化的工程流程。该数据集以Yodas数据集为基础，其音频素材源自免版税的YouTube视频，确保了商业使用的合法性。构建过程首先对原始音频进行标准化处理，统一转换为单声道、24kHz采样率、16位深度的WAV格式，并将音量标准化至-20 dBFS。随后通过降噪技术净化音频信号，并运用说话人日志分析技术对长音频进行说话人分割与识别，从而提取出504位不同说话人的语音片段。通过语音活动检测将同一说话人的连续片段合成为3至30秒的适宜语段，再采用先进的自动语音识别模型生成精准文本转录。最终利用DNSMOS P.835 OVRL指标进行质量过滤，仅保留评分高于3.0的高质量语音-文本对，形成了包含14,586个样本的纯净数据集。

特点

该数据集的核心特征在于其高质量与多样性。其收录了43.7小时的高保真波斯语语音，所有音频均经过降噪处理，语音清晰度显著提升。数据覆盖了504位发音人，每位发音人的语音风格、用词习惯及所述主题语义均具独特性，为模型训练提供了丰富的声学与语言学变异。数据集结构清晰，每条数据包含音频文件、对应文本转录、语言标签、说话人标识及客观语音质量评分，便于针对性使用。尤为重要的是，数据集基于CC-BY-4.0许可协议发布，允许用户自由用于商业模型的训练与开发，为产业应用扫清了法律障碍。

使用方法

该数据集主要服务于文本到语音合成模型的训练与评估。研究人员可直接加载HuggingFace平台提供的标准化数据文件，利用其包含的音频波形与精准文本对齐信息进行端到端模型训练。由于数据已预先分割为说话人单元并附有说话人ID，便于开展多说话人语音合成或说话人编码研究。高质量的转录文本可用于训练声学模型与语言模型，而经过标准化的24kHz单声道音频格式则与主流TTS框架兼容。开发者亦可利用其进行语音增强、语音活动检测或音频分类等辅助任务的模型训练。数据集提供的客观音质分数可作为模型输出质量的参考基准，助力性能评估与迭代优化。

背景与挑战

背景概述

在语音合成与识别技术迅猛发展的背景下，高质量、多语言的语音数据集成为推动相关研究与应用的关键资源。YodaLingua-Farsi数据集由研究团队基于Yodas数据集构建，专注于波斯语（Farsi）的文本到语音任务。该数据集创建于近期，旨在提供经过严格处理的音频-文本配对数据，包含14,586条样本，涵盖504名不同说话者，总计43.7小时的语音内容。其核心研究问题在于解决波斯语语音数据稀缺性，并通过噪声去除、说话人分割与自动转录等先进流程，确保数据在语音质量与对齐精度上的优越性，为多语言语音模型的商业化训练提供了重要支持，显著提升了波斯语语音技术的可及性与性能。

当前挑战

YodaLingua-Farsi数据集致力于应对波斯语文本到语音合成中的核心挑战，包括如何获取大规模、高保真且口音多样的语音数据，以克服该语言在语音资源上的相对匮乏。在构建过程中，研究团队面临多重技术难题：首先，从YouTube视频中提取原始音频时，需有效去除背景噪声并统一采样率至24kHz，确保音频质量的一致性；其次，通过说话人分割与语音活动检测技术，将长音频精准切分为3至30秒的片段，同时保持说话人身份的多样性；此外，利用自动语音识别模型生成准确转录文本，并基于DNSMOS评分过滤低质量样本，这一系列流程对算法的鲁棒性与效率提出了较高要求。

常用场景

经典使用场景

在语音合成领域，YodaLingua-Farsi数据集为波斯语文本到语音模型的训练提供了核心资源。其经典使用场景在于构建高质量的端到端TTS系统，通过包含14,586条音频-文本对和504位不同说话者的多样语音风格，该数据集能够有效训练模型生成自然、流畅且富有表现力的波斯语语音。研究人员利用其24kHz采样率、降噪处理及精准对齐的转录文本，优化声学模型和声码器的参数，从而在合成语音的清晰度、自然度和说话人多样性方面取得显著提升。

解决学术问题

该数据集主要解决了波斯语语音合成研究中数据稀缺和质量不均的学术难题。传统上，波斯语开源语音数据有限，且常伴有背景噪声或转录错误，制约了TTS模型的性能。YodaLingua-Farsi通过严格的管道处理，包括语音活动检测、说话人日记化和DNSMOS质量过滤，提供了高信噪比、多说话人且商业可用的语料，促进了低资源语言语音技术的公平发展。其意义在于为跨语言语音研究建立了可靠基准，推动了多语种语音合成领域的算法创新。

衍生相关工作

围绕YodaLingua-Farsi数据集，已衍生出多项经典研究工作。例如，基于其多说话人数据开发的端到端波斯语TTS模型，在自然度评估中表现优异；一些研究利用其高质量音频进行语音增强和噪声抑制算法的对比实验。该数据集还作为基准被用于跨语言语音合成迁移学习，例如将英语TTS模型适配到波斯语场景。此外，结合其说话人日记化信息，研究人员探索了说话人编码和语音风格转换技术，进一步拓展了多语种语音生成的应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集