five

VoxCeleb, VoxCeleb2, LRW, LRS2, LRS3|语音识别数据集|说话人识别数据集

收藏
github2021-11-26 更新2024-05-31 收录
语音识别
说话人识别
下载链接:
https://github.com/walkoncross/download_voxceleb_and_lrs_datasets
下载链接
链接失效反馈
资源简介:
用于下载VoxCeleb1/VoxCeleb2/LRW/LRS2/LRS3数据集的工具

本工具旨在提供VoxCeleb1、VoxCeleb2、LRW、LRS2及LRS3数据集的下载服务。
创建时间:
2021-11-25
原始信息汇总

数据集概述

数据集列表

数据集 URL
VoxCeleb https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
VoxCeleb2 https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html
LRW https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html
LRS2 https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs2.html
LRS3 https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html

下载步骤

  1. 获取密码:从VGG网站为每个数据集请求密码。
  2. 替换用户和密码:在"download_urls_with*.sh"文件中替换"<user>"和"<passwd>"为从VGG获取的"user:passwd"。
  3. 下载文件:使用提供的脚本下载数据集文件,例如:
    • 下载VoxCeleb音频文件:bash download_urls_with_aria2.sh url_list/voxceleb_audio_vgg_urls.txt
    • 下载VoxCeleb2视频文件:bash download_urls_with_aria2.sh url_list/voxceleb2_video_vgg_urls.txt
    • 下载LRS3音频或视频文件:bash download_urls_with_aria2.sh url_list/lrs3_audio_vgg_urls.txtbash download_urls_with_aria2.sh url_list/lrs3_video_vgg_urls.txt
  4. 合并文件:下载所有部分后,使用命令如"cat vox2_dev_aac* > vox2_aac.zip"合并文件,并根据每个数据集的网站指示解压文件。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集系列,包括VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3,由牛津大学VGG实验室构建。这些数据集通过从公开视频中提取音频和视频数据,经过精心筛选和标注,形成了高质量的多模态数据资源。构建过程中,研究团队首先从多个在线平台收集了大量名人视频,随后通过自动化工具和人工校验相结合的方式,确保数据的准确性和多样性。
特点
这些数据集的显著特点在于其大规模、多样性和高质量。VoxCeleb系列专注于语音识别和说话人验证,提供了丰富的音频和视频数据;LRW、LRS2和LRS3则侧重于唇读和语音识别,包含了大量的口语视频片段。数据集的多样性体现在涵盖了不同语言、口音和场景,为多模态研究提供了坚实的基础。
使用方法
使用这些数据集时,用户需先从VGG网站申请访问权限,获取用户名和密码。随后,通过提供的脚本文件,使用aria2、curl、httpie或wget等工具下载数据。下载完成后,用户需将分段文件合并并解压缩。每个数据集的详细使用说明可在其对应的网站上找到,确保用户能够充分利用这些数据进行语音识别、唇读等相关研究。
背景与挑战
背景概述
VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3数据集是由牛津大学视觉几何组(VGG)创建的一系列用于语音和视觉研究的公开数据集。这些数据集的核心研究问题集中在语音识别、唇读和多模态学习领域,旨在通过大规模的名人语音和视频数据,推动语音和视觉技术的进步。VoxCeleb系列数据集主要包含名人的语音和视频片段,而LRW、LRS2和LRS3则专注于唇读任务,提供了丰富的视频数据以支持唇读算法的开发。这些数据集的创建时间跨度较长,自2017年起陆续发布,已成为语音和视觉研究领域的重要资源,对相关领域的研究和技术发展产生了深远影响。
当前挑战
这些数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,涉及海量的语音和视频数据,如何高效地采集、存储和处理这些数据是一个巨大的技术挑战。其次,数据集的多样性和质量控制也是关键问题,确保数据集包含广泛的名人样本和多样的语音、视频内容,以提高模型的泛化能力。此外,数据集的版权和隐私问题也需要严格管理,确保数据使用的合法性和道德性。在应用层面,如何利用这些数据集解决语音识别和唇读中的复杂问题,如噪声环境下的语音识别、多语言唇读等,也是当前研究的重点和难点。
常用场景
经典使用场景
在语音与视觉交叉领域,VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3数据集被广泛应用于语音识别、说话人验证以及唇读任务。这些数据集通过提供高质量的音频和视频数据,使得研究者能够训练和验证多模态模型,特别是在处理复杂环境下的语音和视觉信息时表现尤为突出。
实际应用
在实际应用中,这些数据集被广泛用于开发智能语音助手、安全认证系统以及视频内容分析工具。例如,在安全领域,说话人验证技术可以用于身份认证;在娱乐行业,唇读技术可以用于视频内容的自动字幕生成。这些应用极大地提升了系统的准确性和用户体验。
衍生相关工作
基于这些数据集,研究者们开发了多种先进的语音和视觉处理算法,如深度学习模型在说话人验证中的应用、多模态融合技术在语音识别中的实现等。此外,这些数据集还催生了多个开源项目和工具,进一步推动了语音与视觉领域的研究和应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Nexdata/chinese_dialect

该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。

hugging_face 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录