five

Massive Arabic Speech Corpus (MASC)

收藏
OpenDataLab2026-03-29 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Massive_Arabic_Speech_Corpus_MASC
下载链接
链接失效反馈
资源简介:
本文介绍了大规模阿拉伯语语音语料库 (MASC) 的创建。MASC是一个数据集,包含以16 kHz采样的1,000小时语音,并从700多个YouTube频道中抓取。该数据集是多区域,多流派和多方言的,旨在促进阿拉伯语语音技术的研究和开发,特别强调阿拉伯语语音识别。除了MASC之外,还开发了预训练的3-gram语言模型和预训练的自动语音识别模型,并将其提供给感兴趣的研究人员。为了增强语言模型,需要新的和包容性的阿拉伯语语音语料库,因此,还创建并发布了最初从Twitter抓取的12 m独特阿拉伯语单词的数据集。
提供机构:
OpenDataLab
创建时间:
2023-10-20
AI搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Massive Arabic Speech Corpus (MASC) 是一个大规模阿拉伯语语音数据集,包含1,000小时从700多个YouTube频道抓取的16kHz采样语音,具有多区域、多流派和多方言的特点,专门用于支持阿拉伯语语音识别等语音技术的研究与开发。该数据集还附带预训练的3-gram语言模型和自动语音识别模型,并额外提供了一个从Twitter抓取的12百万独特阿拉伯语单词的文本数据集,以增强语言模型的训练效果。
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作