abdusah/masc|阿拉伯语语音识别数据集|语音技术研究数据集

hugging_face2023-11-16 更新2024-03-04 收录

阿拉伯语语音识别

语音技术研究

下载链接：

https://hf-mirror.com/datasets/abdusah/masc

下载链接

链接失效反馈

资源简介：

MASC（大规模阿拉伯语语音语料库）是一个包含1000小时语音数据的数据集，采样率为16kHz，数据来自700多个YouTube频道。该数据集是多地区、多类型、多方言的，旨在推动阿拉伯语语音技术的研究和开发，特别是阿拉伯语语音识别。

提供机构：

abdusah

原始信息汇总

数据集概述

数据集名称

MASC: MASSIVE ARABIC SPEECH CORPUS

数据集描述

数据集摘要

MASC是一个包含1,000小时16 kHz采样率的语音数据集，从超过700个YouTube频道收集而来。该数据集旨在推动阿拉伯语音技术，特别是阿拉伯语音识别的研究和发展。

支持的任务和排行榜

[信息待补充]

语言

多口音阿拉伯语

数据集结构

数据实例

[信息待补充]

数据字段

masc_dev
- speech
- sampling_rate
- target_text (label)

数据分割

masc_dev
- train: 100
- test: 40

数据集创建

来源数据

初始数据收集和标准化

[信息待补充]

源语言生产者

[信息待补充]

注释

注释过程

[信息待补充]

注释者

[信息待补充]

使用数据的考虑

数据集的社会影响

[信息待补充]

偏见的讨论

[信息待补充]

其他已知限制

[信息待补充]

附加信息

数据集管理者

[信息待补充]

许可证信息

CC 4.0

引用信息

Mohammad Al-Fetyani, Muhammad Al-Barham, Gheith Abandah, Adham Alsharkawi, Maha Dawas, August 18, 2021, "MASC: Massive Arabic Speech Corpus", IEEE Dataport, doi: https://dx.doi.org/10.21227/e1qb-jv46.

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

Tropicos

Tropicos是一个全球植物名称数据库，包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护，旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成，每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。数据集分为五个训练批次和一个测试批次，每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像，但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间，训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛（King William Island）位于北美洲，北极圈内，属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间，距离维多利亚岛85 km；北面距离威尔士亲王岛155 km；南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望，最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯（James Ross）发现，以当时在位的英国君主威廉四世的名字命名。行政区划上，威廉王岛隶属于加拿大努纳武特（Nunavut）地区。它的地理位置为：69&deg54′22″N - 68&deg27′12″N，99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2，海岸线总长1555.35 km。岛屿地势平坦，表面散布着无数的小湖。位于岛屿东南侧的约阿港（Gjoa Haven）是岛上最主要的居民点。在约阿港东北，有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆（岛）岸线数据集（2015），结合加拿大相关地图完成。数据集由24个数据文件组成，以.kmz和.shp数据格式存储，数据量2.98 MB（压缩成3个数据文件，数据量2.06 MB）。

国家对地观测科学数据中心收录