fleurs-farsi

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/msghol/fleurs-farsi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含经过处理的FLEURS波斯语（fa_ir）部分，适用于评估语音识别系统，特别是低资源场景。数据集包括音频记录和对应的转录文本，分为训练集、开发集和测试集，音频采样率为16kHz。

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

在语音识别技术日益发展的背景下，FLEURS Farsi数据集作为FLEURS项目的波斯语子集，由Google精心构建。该数据集通过采集真实场景下的波斯语语音样本，并辅以人工转录，确保了数据的准确性和多样性。构建过程中，数据被划分为训练集、开发集和测试集，分别包含3101、369和871个样本，音频采样率统一为16kHz，以支持标准化的模型评估。

特点

FLEURS Farsi数据集的特点在于其专注于低资源语言的语音识别研究，覆盖波斯语的日常对话场景。数据集提供了高质量的音频和对应文本转录，音频总大小约4GB，采样率为16kHz，符合主流语音模型输入要求。其结构化分割便于模型训练与验证，且遵循CC-BY-4.0许可，支持学术和商业用途。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，指定数据集名称即可访问各分割部分。用户能便捷获取音频数组和转录文本，适用于端到端语音识别模型的训练或评估。加载后，数据以字典形式呈现，支持迭代处理，集成到现有机器学习流程中无需额外预处理。

背景与挑战

背景概述

FLEURS-Farsi数据集作为谷歌于2022年推出的FLEURS多语言语音项目的重要组成部分，聚焦于波斯语（Farsi）的自动语音识别研究。该数据集由国际顶尖人工智能研究机构Google主导构建，旨在解决低资源语言环境下语音技术评估的标准化问题。其核心研究目标在于为波斯语这一关键但资源相对匮乏的语言提供高质量的语音-文本对齐数据，推动跨语言语音模型的泛化能力研究，对计算语言学与语音技术全球化部署具有深远影响。

当前挑战

波斯语语音识别面临方言变体丰富与音素复杂性高的固有挑战，FLEURS-Farsi需在有限标注资源下平衡语音覆盖度与标注准确性。数据集构建过程中，需克服波斯语特殊字符转写规范不统一、背景噪声干扰以及长尾语音现象采集难度大等难题。同时，在低资源约束下保持训练集、开发集与测试集之间的域分布一致性，亦是保障模型评估可靠性的关键挑战。

常用场景

经典使用场景

在波斯语语音识别研究中，FLEURS Farsi数据集常被用于构建和评估端到端自动语音识别系统。研究者利用其包含的数千条带标注语音样本，训练深度神经网络模型如卷积循环网络或Transformer架构，以准确地将波斯语语音转换为文本。该数据集的标准划分支持模型在训练、验证和测试阶段进行系统性能比较，尤其在处理波斯语特有的音韵特征和词汇结构时展现出重要价值。

解决学术问题

该数据集有效缓解了波斯语作为低资源语言在语音技术研究中的数据稀缺问题。通过提供高质量、大规模的标准语音-文本配对数据，它支撑了跨语言语音模型迁移学习、少样本学习等前沿课题的探索。其存在显著降低了波斯语语音识别系统的开发门槛，推动了多语言语音技术公平性研究，并为语言学家分析波斯语音系规律提供了量化基础。

衍生相关工作

该数据集催生了多项经典研究，如Meta的MMS项目利用其进行大规模多语言语音模型预训练，谷歌在FLEURS基准测试中提出的多任务学习框架，以及学术界基于该数据集的波斯语方言识别和语音情感分析拓展研究。这些工作不仅验证了数据集的可靠性，还推动了跨语言表征学习、噪声鲁棒性建模等方向的方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集