five

VoxCeleb, VoxCeleb2, LRW, LRS2, LRS3

收藏
github2021-11-26 更新2024-05-31 收录
下载链接:
https://github.com/walkoncross/download_voxceleb_and_lrs_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
用于下载VoxCeleb1/VoxCeleb2/LRW/LRS2/LRS3数据集的工具

本工具旨在提供VoxCeleb1、VoxCeleb2、LRW、LRS2及LRS3数据集的下载服务。
创建时间:
2021-11-25
原始信息汇总

数据集概述

数据集列表

数据集 URL
VoxCeleb https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
VoxCeleb2 https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html
LRW https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html
LRS2 https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs2.html
LRS3 https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html

下载步骤

  1. 获取密码:从VGG网站为每个数据集请求密码。
  2. 替换用户和密码:在"download_urls_with*.sh"文件中替换"<user>"和"<passwd>"为从VGG获取的"user:passwd"。
  3. 下载文件:使用提供的脚本下载数据集文件,例如:
    • 下载VoxCeleb音频文件:bash download_urls_with_aria2.sh url_list/voxceleb_audio_vgg_urls.txt
    • 下载VoxCeleb2视频文件:bash download_urls_with_aria2.sh url_list/voxceleb2_video_vgg_urls.txt
    • 下载LRS3音频或视频文件:bash download_urls_with_aria2.sh url_list/lrs3_audio_vgg_urls.txtbash download_urls_with_aria2.sh url_list/lrs3_video_vgg_urls.txt
  4. 合并文件:下载所有部分后,使用命令如"cat vox2_dev_aac* > vox2_aac.zip"合并文件,并根据每个数据集的网站指示解压文件。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集系列,包括VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3,由牛津大学VGG实验室构建。这些数据集通过从公开视频中提取音频和视频数据,经过精心筛选和标注,形成了高质量的多模态数据资源。构建过程中,研究团队首先从多个在线平台收集了大量名人视频,随后通过自动化工具和人工校验相结合的方式,确保数据的准确性和多样性。
特点
这些数据集的显著特点在于其大规模、多样性和高质量。VoxCeleb系列专注于语音识别和说话人验证,提供了丰富的音频和视频数据;LRW、LRS2和LRS3则侧重于唇读和语音识别,包含了大量的口语视频片段。数据集的多样性体现在涵盖了不同语言、口音和场景,为多模态研究提供了坚实的基础。
使用方法
使用这些数据集时,用户需先从VGG网站申请访问权限,获取用户名和密码。随后,通过提供的脚本文件,使用aria2、curl、httpie或wget等工具下载数据。下载完成后,用户需将分段文件合并并解压缩。每个数据集的详细使用说明可在其对应的网站上找到,确保用户能够充分利用这些数据进行语音识别、唇读等相关研究。
背景与挑战
背景概述
VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3数据集是由牛津大学视觉几何组(VGG)创建的一系列用于语音和视觉研究的公开数据集。这些数据集的核心研究问题集中在语音识别、唇读和多模态学习领域,旨在通过大规模的名人语音和视频数据,推动语音和视觉技术的进步。VoxCeleb系列数据集主要包含名人的语音和视频片段,而LRW、LRS2和LRS3则专注于唇读任务,提供了丰富的视频数据以支持唇读算法的开发。这些数据集的创建时间跨度较长,自2017年起陆续发布,已成为语音和视觉研究领域的重要资源,对相关领域的研究和技术发展产生了深远影响。
当前挑战
这些数据集在构建过程中面临了多重挑战。首先,数据集的规模庞大,涉及海量的语音和视频数据,如何高效地采集、存储和处理这些数据是一个巨大的技术挑战。其次,数据集的多样性和质量控制也是关键问题,确保数据集包含广泛的名人样本和多样的语音、视频内容,以提高模型的泛化能力。此外,数据集的版权和隐私问题也需要严格管理,确保数据使用的合法性和道德性。在应用层面,如何利用这些数据集解决语音识别和唇读中的复杂问题,如噪声环境下的语音识别、多语言唇读等,也是当前研究的重点和难点。
常用场景
经典使用场景
在语音与视觉交叉领域,VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3数据集被广泛应用于语音识别、说话人验证以及唇读任务。这些数据集通过提供高质量的音频和视频数据,使得研究者能够训练和验证多模态模型,特别是在处理复杂环境下的语音和视觉信息时表现尤为突出。
实际应用
在实际应用中,这些数据集被广泛用于开发智能语音助手、安全认证系统以及视频内容分析工具。例如,在安全领域,说话人验证技术可以用于身份认证;在娱乐行业,唇读技术可以用于视频内容的自动字幕生成。这些应用极大地提升了系统的准确性和用户体验。
衍生相关工作
基于这些数据集,研究者们开发了多种先进的语音和视觉处理算法,如深度学习模型在说话人验证中的应用、多模态融合技术在语音识别中的实现等。此外,这些数据集还催生了多个开源项目和工具,进一步推动了语音与视觉领域的研究和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作