five

Massive Arabic Speech Corpus (MASC)|语音识别数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
语音识别
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/Massive_Arabic_Speech_Corpus_MASC
下载链接
链接失效反馈
资源简介:
本文介绍了大规模阿拉伯语语音语料库 (MASC) 的创建。MASC是一个数据集,包含以16 kHz采样的1,000小时语音,并从700多个YouTube频道中抓取。该数据集是多区域,多流派和多方言的,旨在促进阿拉伯语语音技术的研究和开发,特别强调阿拉伯语语音识别。除了MASC之外,还开发了预训练的3-gram语言模型和预训练的自动语音识别模型,并将其提供给感兴趣的研究人员。为了增强语言模型,需要新的和包容性的阿拉伯语语音语料库,因此,还创建并发布了最初从Twitter抓取的12 m独特阿拉伯语单词的数据集。
提供机构:
OpenDataLab
创建时间:
2023-10-20
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录