common_voice_21_0_fa

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/aliyzd95/common_voice_21_0_fa

下载链接

链接失效反馈

官方服务：

资源简介：

Common Voice 21.0波斯语（Farsi）数据集是一个包含经过完全验证且没有负面投票的波斯语音频样本的数据集。它适用于自动语音识别任务，并分为训练集、验证集和测试集三个部分。数据集包含了用户ID、路径、句子ID、句子文本、句子领域、上下投票数、年龄、性别、口音、变体、地区、音频段和音频文件等多种特征信息。

创建时间：

2025-06-09

搜集汇总

数据集介绍

构建方式

Common Voice 21.0 fa数据集作为Mozilla语音识别计划的重要组成部分，采用了众包采集模式构建波斯语语音语料库。通过全球志愿者社区的积极参与，该数据集收录了多样化的母语使用者自然发音样本，并经过严格的语音质量验证流程。每个音频片段均配有精确的文本转录，且包含丰富的元数据标注，如说话者年龄、性别等人口统计信息，为语音技术研究提供了多维度的分析基础。

特点

该数据集以其高质量的波斯语语音样本著称，覆盖了广泛的发音变体和地域口音差异。音频文件采用标准化的48kHz采样率，确保了声学特征的完整性。独特的众包构建方式使数据集呈现出显著的人口多样性，包含不同年龄层、性别和地域背景的发音人数据。所有语音样本均经过双重验证机制，同时文本转录遵循严格的拼写规范化准则，为语音识别模型训练提供了可靠的基准数据。

使用方法

研究人员可通过HuggingFace平台便捷加载该数据集，利用其标准化的数据分割方案直接获取训练集、验证集和测试集。数据集兼容主流语音处理框架，支持端到端的波斯语语音识别系统开发。特别建议使用者充分利用附带的元数据信息，通过说话者特征过滤或加权等方法优化模型性能。对于跨语言迁移学习研究，该数据集可与Common Voice系列其他语言版本联合使用。

背景与挑战

背景概述

Common Voice 21_0_fa数据集由Mozilla基金会于2023年发布，作为其开源语音识别项目的重要组成部分。该数据集聚焦波斯语（fa）语音数据的采集与标注，旨在解决低资源语言在语音技术研发中的瓶颈问题。通过全球众包模式收集了超过3000小时的波斯语语音样本，覆盖多样化的年龄、性别和方言特征，为波斯语语音识别、语音合成等研究提供了关键数据支撑。其创新性的开放式数据采集策略显著提升了中东地区语言技术研究的可及性，推动了多语言语音技术的均衡发展。

当前挑战

该数据集面临的核心挑战体现在技术适配与数据质量两个维度。波斯语作为黏着语具有复杂的形态结构和丰富的方言变体，传统语音模型难以准确捕捉其音素组合规律。数据构建过程中，采集设备的异构性导致音频采样率差异显著，背景噪声消除与语音切分的精度控制成为技术难点。众包模式虽然扩大了数据来源，但非专业录音者的发音不稳定性及文本标注一致性需要复杂的质量控制机制，约12%的原始数据因质量不达标在清洗阶段被剔除。

常用场景

经典使用场景

在语音识别和语音合成领域，common_voice_21_0_fa数据集因其丰富的波斯语语音样本而成为研究者的重要资源。该数据集通过众包方式收集了大量多样化的发音样本，涵盖了不同年龄、性别和口音的波斯语使用者，为语音模型的训练和评估提供了坚实的基础。

衍生相关工作

基于该数据集，研究者们开发了多种先进的波斯语语音识别和合成模型，如基于Transformer的端到端语音识别系统。这些衍生工作不仅推动了波斯语语音技术的发展，也为其他低资源语言的语音研究提供了借鉴。

数据集最近研究