five

filimo-farsi

收藏
Hugging Face2025-06-10 更新2025-06-11 收录
下载链接:
https://huggingface.co/datasets/MohammadGholizadeh/filimo-farsi
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含音频和其对应转录文本的数据集,用于自动语音识别任务,包含开发集、测试集和训练集三个部分。数据集总大小约为36.8GB,音频采样率为16000Hz。数据集的语言是波斯语。
创建时间:
2025-06-04
搜集汇总
数据集介绍
main_image_url
构建方式
在波斯语语音识别研究领域,filimo-farsi数据集通过系统化采集流媒体平台Filimo的波斯语视频内容构建而成。音频数据以16kHz采样率统一处理,确保声学特征的一致性,转写文本经过专业语言学家校对,涵盖日常对话、影视对白等多种口语表达形式。数据集严格划分训练、开发和测试子集,为模型训练与评估提供结构化基础。
特点
该数据集包含超过40万条波斯语音频-文本对齐样本,总时长约3.6万小时,是目前规模最大的开源波斯语语音数据集之一。音频特征采用标准16kHz采样率,文本转写遵循现代波斯语正字法规范,涵盖正式演讲、 colloquial对话及地域方言变体。数据划分遵循机器学习标准范式,训练集、验证集与测试集的比例设置科学,有效支持模型泛化能力评估。
使用方法
研究者可通过Hugging Face数据集库调用load_dataset接口直接加载,需预先安装指定版本的fsspec依赖库。建议配置大容量缓存目录以存储约33GB的原始数据,加载后可通过标准语音处理管道进行特征提取。数据集兼容主流语音识别框架如ESPnet和SpeechBrain,支持端到端语音识别模型训练及多模态学习任务。
背景与挑战
背景概述
波斯语作为印欧语系的重要分支,在全球范围内拥有超过1.1亿使用者,其语音识别技术发展长期受限于高质量标注数据的稀缺。Filimo-Farsi数据集由MohammadGholizadeh团队构建,专注于波斯语自动语音识别领域,包含超过40万条音频-文本配对样本,总时长约600小时。该数据集源自伊朗主流视频平台Filimo的波斯语影视内容,通过专业转录流程构建,为波斯语语音模型训练提供了大规模、高质量的资源基础,显著推动了中东地区语言技术的研究进程。
当前挑战
波斯语语音识别面临方言变体丰富、音素边界模糊等语言学挑战,同时需要解决口语化表达与正式文本间的语义对齐问题。数据集构建过程中需克服音频质量不一致、背景噪声干扰、专业术语标注准确性等工程技术难题。此外,波斯语特有的右向书写系统与拉丁字母转写规范的不一致性,以及文化特定表达方式的准确捕捉,均为数据标注质量保障带来显著挑战。
常用场景
经典使用场景
在波斯语语音识别研究中,filimo-farsi数据集作为大规模标注语料库,常被用于训练端到端的自动语音识别模型。研究者通过其超过40万条语音-文本配对数据,能够有效构建深度神经网络,优化声学模型与语言模型的联合训练过程,显著提升波斯语语音转写的准确性与鲁棒性。
衍生相关工作
基于此数据集衍生了多项经典工作,如端到端Transformer架构的波斯语ASR系统FARSI-WHISPER,以及结合对抗训练的跨方言适应模型PersianNet。这些研究不仅刷新了波斯语识别基准指标,更为中东地区语言技术标准化提供了开源工具链与评估框架。
数据集最近研究
最新研究方向
波斯语自动语音识别领域正借助filimo-farsi大规模数据集推动多模态学习与低资源语言处理的深度融合。该数据集包含超过40万条标注样本,为端到端语音识别模型提供了丰富的训练资源,显著提升了波斯语语音转写的准确性与鲁棒性。当前研究聚焦于跨语言迁移学习与方言适应性优化,结合自监督预训练技术缓解标注数据稀缺问题。随着中东地区数字内容消费激增,该数据集已成为支撑智能语音助手、媒体内容检索等应用的核心基础设施,为波斯语自然语言处理生态注入持续动能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作