VoxCeleb, VoxCeleb2, LRW, LRS2, LRS3|语音识别数据集|说话人识别数据集
收藏数据集概述
数据集列表
数据集 | URL |
---|---|
VoxCeleb | https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html |
VoxCeleb2 | https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html |
LRW | https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html |
LRS2 | https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs2.html |
LRS3 | https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html |
下载步骤
- 获取密码:从VGG网站为每个数据集请求密码。
- 替换用户和密码:在"download_urls_with*.sh"文件中替换"<user>"和"<passwd>"为从VGG获取的"user:passwd"。
- 下载文件:使用提供的脚本下载数据集文件,例如:
- 下载VoxCeleb音频文件:
bash download_urls_with_aria2.sh url_list/voxceleb_audio_vgg_urls.txt
- 下载VoxCeleb2视频文件:
bash download_urls_with_aria2.sh url_list/voxceleb2_video_vgg_urls.txt
- 下载LRS3音频或视频文件:
bash download_urls_with_aria2.sh url_list/lrs3_audio_vgg_urls.txt
或bash download_urls_with_aria2.sh url_list/lrs3_video_vgg_urls.txt
- 下载VoxCeleb音频文件:
- 合并文件:下载所有部分后,使用命令如"cat vox2_dev_aac* > vox2_aac.zip"合并文件,并根据每个数据集的网站指示解压文件。

Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录