pain/MASC
收藏Hugging Face2023-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pain/MASC
下载链接
链接失效反馈官方服务:
资源简介:
MASC数据集包含1000小时的语音数据,采样率为16 kHz,这些数据是从700多个YouTube频道中爬取的。该数据集是多区域、多类型和多方言的,旨在推动阿拉伯语语音技术的研究和开发,特别是阿拉伯语语音识别。
The MASC dataset contains 1,000 hours of speech data with a sampling rate of 16 kHz, which was crawled from over 700 YouTube channels. This dataset is multi-regional, multi-type and multi-dialectal, aiming to advance the research and development of Arabic speech technologies, particularly Arabic speech recognition.
提供机构:
pain
原始信息汇总
数据集概述
数据集名称
- 名称: MASC dataset
- 别名: Massive Arabic Speech Corpus
数据集内容
- 类型: 语音数据集
- 规模: 包含1,000小时的语音数据,采样率为16 kHz
- 来源: 从超过700个YouTube频道收集
- 特点: 多区域、多类型、多方言,专注于阿拉伯语音技术的研究和开发,特别是阿拉伯语音识别
数据集使用
- 加载方式: 使用
datasets库的load_dataset函数进行加载,支持本地加载和流式加载 - 示例代码: python from datasets import load_dataset masc = load_dataset("pain/MASC", split="train")
数据集结构
- 数据实例: 每个数据点包含音频文件的路径和对应的文本
- 数据字段:
video_id: 视频IDstart: 音频片段开始时间end: 音频片段结束时间duration: 片段时长text: 片段文本audio: 音频信息,包括路径、数组和采样率type: 数据集类型(清洁或噪声)file_path: 音频片段路径
数据集语言
- 语言: 阿拉伯语
引用信息
@INPROCEEDINGS{10022652, author={Al-Fetyani, Mohammad and Al-Barham, Muhammad and Abandah, Gheith and Alsharkawi, Adham and Dawas, Maha}, booktitle={2022 IEEE Spoken Language Technology Workshop (SLT)}, title={MASC: Massive Arabic Speech Corpus}, year={2023}, pages={1006-1013}, doi={10.1109/SLT54892.2023.10022652} }
搜集汇总
数据集介绍

背景与挑战
背景概述
MASC是一个包含1000小时阿拉伯语语音的大规模数据集,具有多地区、多类型和多方言特点,主要用于阿拉伯语语音识别研究。数据集支持自动语音识别任务,采用CC-BY-4.0许可协议。
以上内容由遇见数据集搜集并总结生成



