five

pain/MASC

收藏
Hugging Face2023-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pain/MASC
下载链接
链接失效反馈
官方服务:
资源简介:
MASC数据集包含1000小时的语音数据,采样率为16 kHz,这些数据是从700多个YouTube频道中爬取的。该数据集是多区域、多类型和多方言的,旨在推动阿拉伯语语音技术的研究和开发,特别是阿拉伯语语音识别。

The MASC dataset contains 1,000 hours of speech data with a sampling rate of 16 kHz, which was crawled from over 700 YouTube channels. This dataset is multi-regional, multi-type and multi-dialectal, aiming to advance the research and development of Arabic speech technologies, particularly Arabic speech recognition.
提供机构:
pain
原始信息汇总

数据集概述

数据集名称

  • 名称: MASC dataset
  • 别名: Massive Arabic Speech Corpus

数据集内容

  • 类型: 语音数据集
  • 规模: 包含1,000小时的语音数据,采样率为16 kHz
  • 来源: 从超过700个YouTube频道收集
  • 特点: 多区域、多类型、多方言,专注于阿拉伯语音技术的研究和开发,特别是阿拉伯语音识别

数据集使用

  • 加载方式: 使用datasets库的load_dataset函数进行加载,支持本地加载和流式加载
  • 示例代码: python from datasets import load_dataset masc = load_dataset("pain/MASC", split="train")

数据集结构

  • 数据实例: 每个数据点包含音频文件的路径和对应的文本
  • 数据字段:
    • video_id: 视频ID
    • start: 音频片段开始时间
    • end: 音频片段结束时间
    • duration: 片段时长
    • text: 片段文本
    • audio: 音频信息,包括路径、数组和采样率
    • type: 数据集类型(清洁或噪声)
    • file_path: 音频片段路径

数据集语言

  • 语言: 阿拉伯语

引用信息

@INPROCEEDINGS{10022652, author={Al-Fetyani, Mohammad and Al-Barham, Muhammad and Abandah, Gheith and Alsharkawi, Adham and Dawas, Maha}, booktitle={2022 IEEE Spoken Language Technology Workshop (SLT)}, title={MASC: Massive Arabic Speech Corpus}, year={2023}, pages={1006-1013}, doi={10.1109/SLT54892.2023.10022652} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
MASC是一个包含1000小时阿拉伯语语音的大规模数据集,具有多地区、多类型和多方言特点,主要用于阿拉伯语语音识别研究。数据集支持自动语音识别任务,采用CC-BY-4.0许可协议。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作