five

Esra11/mgb2-arabic

收藏
Hugging Face2026-04-22 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Esra11/mgb2-arabic
下载链接
链接失效反馈
官方服务:
资源简介:
阿拉伯多类型广播(MGB-2)数据集是一个大规模的语音识别语料库,包含来自Aljazeera阿拉伯语电视频道的1200小时阿拉伯广播音频。数据集涵盖2005年3月至2015年12月的录音,覆盖19个不同的节目系列。它最初是为SLT-2016的MGB-2挑战而创建的,专注于处理阿拉伯语音识别中的方言多样性。数据集包括轻度监督的转录(非逐字)并涵盖多种阿拉伯方言,包括现代标准阿拉伯语(MSA)和各种阿拉伯方言变体。音频来自三个主要节目类别:对话(63%)、访谈(19%)和报道(18%)。

The Arabic Multi-Genre Broadcast (MGB-2) dataset is a large-scale speech recognition corpus containing 1,200 hours of Arabic broadcast audio from Aljazeera Arabic TV channel. The dataset spans recordings from March 2005 to December 2015 and covers 19 distinct programme series. It was originally created for the MGB-2 Challenge at SLT-2016, focusing on handling dialect diversity in Arabic speech recognition. The dataset includes lightly supervised transcriptions (non-verbatim) and covers multiple Arabic dialects including Modern Standard Arabic (MSA) and various Dialectal Arabic varieties. The audio comes from three main programme categories: conversations (63%), interviews (19%), and reports (18%).
提供机构:
Esra11
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作