pain/MASC

Name: pain/MASC
Creator: pain
Published: 2023-06-12 19:48:45
License: 暂无描述

Hugging Face2023-06-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pain/MASC

下载链接

链接失效反馈

官方服务：

资源简介：

MASC数据集包含1000小时的语音数据，采样率为16 kHz，这些数据是从700多个YouTube频道中爬取的。该数据集是多区域、多类型和多方言的，旨在推动阿拉伯语语音技术的研究和开发，特别是阿拉伯语语音识别。

The MASC dataset contains 1,000 hours of speech data with a sampling rate of 16 kHz, which was crawled from over 700 YouTube channels. This dataset is multi-regional, multi-type and multi-dialectal, aiming to advance the research and development of Arabic speech technologies, particularly Arabic speech recognition.

提供机构：

pain

原始信息汇总

数据集概述

数据集名称

名称: MASC dataset
别名: Massive Arabic Speech Corpus

数据集内容

类型: 语音数据集
规模: 包含1,000小时的语音数据，采样率为16 kHz
来源: 从超过700个YouTube频道收集
特点: 多区域、多类型、多方言，专注于阿拉伯语音技术的研究和开发，特别是阿拉伯语音识别

数据集使用

加载方式: 使用datasets库的load_dataset函数进行加载，支持本地加载和流式加载
示例代码: python from datasets import load_dataset masc = load_dataset("pain/MASC", split="train")

数据集结构

数据实例: 每个数据点包含音频文件的路径和对应的文本
数据字段:
- video_id: 视频ID
- start: 音频片段开始时间
- end: 音频片段结束时间
- duration: 片段时长
- text: 片段文本
- audio: 音频信息，包括路径、数组和采样率
- type: 数据集类型（清洁或噪声）
- file_path: 音频片段路径

数据集语言

语言: 阿拉伯语

引用信息

@INPROCEEDINGS{10022652, author={Al-Fetyani, Mohammad and Al-Barham, Muhammad and Abandah, Gheith and Alsharkawi, Adham and Dawas, Maha}, booktitle={2022 IEEE Spoken Language Technology Workshop (SLT)}, title={MASC: Massive Arabic Speech Corpus}, year={2023}, pages={1006-1013}, doi={10.1109/SLT54892.2023.10022652} }

搜集汇总

数据集介绍

背景与挑战

背景概述

MASC是一个包含1000小时阿拉伯语语音的大规模数据集，具有多地区、多类型和多方言特点，主要用于阿拉伯语语音识别研究。数据集支持自动语音识别任务，采用CC-BY-4.0许可协议。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集