filimo-farsi

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/MohammadGholizadeh/filimo-farsi

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含音频和其对应转录文本的数据集，用于自动语音识别任务，包含开发集、测试集和训练集三个部分。数据集总大小约为36.8GB，音频采样率为16000Hz。数据集的语言是波斯语。

创建时间：

2025-06-04

搜集汇总

数据集介绍

构建方式

在波斯语语音识别研究领域，filimo-farsi数据集通过系统化采集流媒体平台Filimo的波斯语视频内容构建而成。音频数据以16kHz采样率统一处理，确保声学特征的一致性，转写文本经过专业语言学家校对，涵盖日常对话、影视对白等多种口语表达形式。数据集严格划分训练、开发和测试子集，为模型训练与评估提供结构化基础。

特点

该数据集包含超过40万条波斯语音频-文本对齐样本，总时长约3.6万小时，是目前规模最大的开源波斯语语音数据集之一。音频特征采用标准16kHz采样率，文本转写遵循现代波斯语正字法规范，涵盖正式演讲、 colloquial对话及地域方言变体。数据划分遵循机器学习标准范式，训练集、验证集与测试集的比例设置科学，有效支持模型泛化能力评估。

使用方法

研究者可通过Hugging Face数据集库调用load_dataset接口直接加载，需预先安装指定版本的fsspec依赖库。建议配置大容量缓存目录以存储约33GB的原始数据，加载后可通过标准语音处理管道进行特征提取。数据集兼容主流语音识别框架如ESPnet和SpeechBrain，支持端到端语音识别模型训练及多模态学习任务。

背景与挑战

背景概述

波斯语作为印欧语系的重要分支，在全球范围内拥有超过1.1亿使用者，其语音识别技术发展长期受限于高质量标注数据的稀缺。Filimo-Farsi数据集由MohammadGholizadeh团队构建，专注于波斯语自动语音识别领域，包含超过40万条音频-文本配对样本，总时长约600小时。该数据集源自伊朗主流视频平台Filimo的波斯语影视内容，通过专业转录流程构建，为波斯语语音模型训练提供了大规模、高质量的资源基础，显著推动了中东地区语言技术的研究进程。

当前挑战

波斯语语音识别面临方言变体丰富、音素边界模糊等语言学挑战，同时需要解决口语化表达与正式文本间的语义对齐问题。数据集构建过程中需克服音频质量不一致、背景噪声干扰、专业术语标注准确性等工程技术难题。此外，波斯语特有的右向书写系统与拉丁字母转写规范的不一致性，以及文化特定表达方式的准确捕捉，均为数据标注质量保障带来显著挑战。

常用场景

经典使用场景

在波斯语语音识别研究中，filimo-farsi数据集作为大规模标注语料库，常被用于训练端到端的自动语音识别模型。研究者通过其超过40万条语音-文本配对数据，能够有效构建深度神经网络，优化声学模型与语言模型的联合训练过程，显著提升波斯语语音转写的准确性与鲁棒性。

衍生相关工作

基于此数据集衍生了多项经典工作，如端到端Transformer架构的波斯语ASR系统FARSI-WHISPER，以及结合对抗训练的跨方言适应模型PersianNet。这些研究不仅刷新了波斯语识别基准指标，更为中东地区语言技术标准化提供了开源工具链与评估框架。

数据集最近研究