five

mobvoi_hotword_dataset

收藏
阿里云天池2026-05-14 更新2024-11-16 收录
下载链接:
https://tianchi.aliyun.com/dataset/190565
下载链接
链接失效反馈
官方服务:
资源简介:
(2)建议提前下载好需要应用到的数据集 (mobvoi_hotword_dataset.tgz,mobvoi_hotword_dataset_resources.tgz,musan.tar.gz,rirs_noises.zip等,因为这些数据包内存很大,有的十几个G。因为用kaldi里面的下载命令去下载会很慢,它里面是单进程下载的,要下载很久,我这里提供一个多线程下载的方法,大家可以提前下载好,然后放到对应的位置上。) kaldi语料下载网址(该网站用的国内服务器,下载更快,亲测有效) 在ubuntu用wget下载多个文件,axel多线程下载(多线程超级快) 对应位置如下图:

(2) It is recommended to pre-download the datasets required for the application, such as mobvoi_hotword_dataset.tgz, mobvoi_hotword_dataset_resources.tgz, musan.tar.gz, rirs_noises.zip, etc. These dataset packages are large in size, with some reaching tens of gigabytes. The download commands integrated within Kaldi use single-process downloading, which is extremely slow and takes a long time to complete. I hereby provide a multi-threaded downloading method for your reference: you may pre-download these files and place them in their corresponding directories. Kaldi corpus download URL: this website uses domestic servers in China, which delivers faster download speeds and has been verified to be effective through personal testing. For Ubuntu systems, you can use wget to download multiple files, or use axel for multi-threaded downloading, which is extremely fast. The corresponding storage locations are shown in the figure below.
提供机构:
阿里云天池
创建时间:
2024-11-10
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
mobvoi_hotword_dataset是一个用于语音唤醒词研究的大型数据集,包含两个子数据集(总容量约14GB),需配合其他语音资源包使用。数据集提供了高效的多线程下载方案,适合语音识别领域的研究和开发。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作