commonvoice-24-fa

Hugging Face2026-01-05 更新2026-01-06 收录

下载链接：

https://huggingface.co/datasets/Reza2kn/commonvoice-24-fa

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Mozilla Common Voice 24.0波斯语子集的重新打包版本。主要修改包括添加了指向音频文件的`audio`列以便于在Hub UI中播放，并仅保留了`audio`和`sentence`两列。数据集包含dev、invalidated、other、test、train和validated等多个分割部分。其他不包含音频路径的TSV文件（如报告或句子元数据）作为原始文件保存在仓库中，但未作为数据集分割公开。

This dataset is a repackaged version of the Persian subset of Mozilla Common Voice 24.0. The main modifications include adding an `audio` column pointing to audio files for playback in the Hub UI, and only retaining the `audio` and `sentence` columns. The dataset includes multiple splits such as dev, invalidated, other, test, train, and validated. Other TSV files that do not contain audio paths (such as reports or sentence metadata) are stored as original files in the repository but are not exposed as dataset splits.

创建时间：

2026-01-04

原始信息汇总

Common Voice 24 (FA) - Audio Column 数据集概述

数据集基本信息

名称: Common Voice 24 (FA) - Audio Column
语言: 波斯语 (fa)
许可证: CC0 1.0 (cc0-1.0)
描述: 该数据集是对 Mozilla Common Voice 24.0 中波斯语子集的重包装版本。

数据集内容与结构

核心变更: 添加了一个 audio 列，指向 clips/*.mp3 文件，以便在 Hub UI 中轻松播放音频。仅保留了 audio 和 sentence 两列（按此顺序）。
数据列: audio, sentence
数据分集: dev, invalidated, other, test, train, validated

附加说明

不包含音频路径的额外 TSV 文件（例如报告或句子元数据）作为原始文件保留在仓库中，但未作为数据集分集公开。

数据来源

原始数据: https://datacollective.mozillafoundation.org/datasets/cmj8u3p390081nxxb0qo37avq

使用方式

python from datasets import load_dataset ds = load_dataset("Reza2kn/commonvoice-24-fa")

搜集汇总

数据集介绍

构建方式

在语音识别领域，高质量标注数据的获取至关重要。Common Voice 24 (FA) - Audio Column 数据集源自 Mozilla Common Voice 项目的波斯语子集，该原始数据通过全球志愿者贡献的语音录音与文本转录构建而成。本数据集在此基础上进行了重新封装，核心改动在于新增了一个指向音频文件的 `audio` 列，并精简了数据结构，仅保留 `audio` 与 `sentence` 两列，旨在优化在平台上的直接播放与访问体验。

特点

该数据集的一个显著特点是其纯粹性与实用性。它专注于波斯语语音-文本配对数据，结构清晰，仅包含音频路径和对应句子，移除了其他元数据，使得数据加载和处理更为高效。数据集提供了多个标准划分，包括训练集、验证集、测试集以及用于特殊用途的‘invalidated’和‘other’子集，为模型开发与评估的不同阶段提供了便利。这种设计确保了研究者和开发者能够快速聚焦于核心的语音识别任务。

使用方法

对于希望利用该数据集的研究人员，使用方法直接而便捷。通过 Hugging Face 的 `datasets` 库，只需调用 `load_dataset("Reza2kn/commonvoice-24-fa")` 即可加载整个数据集。加载后，用户可以根据需要访问不同的数据划分，并通过 `audio` 列轻松获取音频文件路径进行播放或特征提取，`sentence` 列则提供了对应的标准文本转录，便于直接用于模型训练或评估流程。

背景与挑战

背景概述

Common Voice项目由Mozilla基金会于2017年发起，旨在构建一个开源、多语言的语音数据集，以推动语音识别技术的民主化发展。该项目的核心研究问题在于解决语音数据资源分布不均、商业数据集封闭昂贵的问题，通过众包方式收集全球志愿者的语音录音，促进语音技术在不同语言和文化背景下的公平应用。Common Voice-24-fa作为其波斯语子集，由社区贡献者与Mozilla共同维护，专注于波斯语语音数据的积累，为波斯语自动语音识别系统的开发提供了关键资源，对中东地区语言技术生态产生了积极影响。

当前挑战

在语音识别领域，波斯语面临数据稀缺与方言多样性带来的挑战，包括音素变体丰富、正式与口语化表达差异显著，这增加了模型训练的复杂性。数据集构建过程中，需克服数据质量控制难题，如录音环境噪声干扰、发音人年龄与口音差异，以及文本转录的准确性验证。此外，众包采集模式虽能扩大数据规模，但需平衡数据隐私保护与开源共享原则，并确保标注流程的标准化，以维持数据集的可靠性与代表性。

常用场景

经典使用场景

在语音识别与合成领域，Common Voice 24 (FA) 数据集为波斯语语音技术研究提供了核心资源。该数据集广泛应用于自动语音识别模型的训练与评估，研究人员利用其标注的音频与文本对，构建端到端的语音识别系统，以提升波斯语语音转文字的准确率。同时，该数据集也常用于语音合成任务，通过分析语音特征与文本对应关系，生成自然流畅的波斯语语音输出，推动多语言语音技术的发展。

解决学术问题

该数据集有效解决了波斯语语音资源匮乏的学术难题，为低资源语言语音研究提供了标准化基准。通过提供大规模、高质量的标注数据，它支持语音识别模型在噪声鲁棒性、口音适应性和跨语言迁移等方面的探索，促进了语音技术公平性与包容性的提升。此外，数据集的结构化设计有助于解决数据预处理与模型评估中的一致性挑战，为学术社区提供了可靠的实验基础。

衍生相关工作

围绕该数据集，衍生出多项经典研究工作，包括基于端到端神经网络的波斯语语音识别模型，如使用Transformer或Conformer架构的改进方案。此外，研究人员利用其进行多语言语音合成对比实验，探索跨语言语音特征迁移方法。数据集还促进了低资源语音技术竞赛的举办，激励社区开发更高效的语音处理算法，并推动了波斯语语音语料库的扩展与标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集