VoxCeleb, VoxCeleb2, LRW, LRS2, LRS3|语音识别数据集|说话人识别数据集

github2021-11-26 更新2024-05-31 收录

语音识别

说话人识别

下载链接：

https://github.com/walkoncross/download_voxceleb_and_lrs_datasets

下载链接

链接失效反馈

资源简介：

用于下载VoxCeleb1/VoxCeleb2/LRW/LRS2/LRS3数据集的工具

本工具旨在提供VoxCeleb1、VoxCeleb2、LRW、LRS2及LRS3数据集的下载服务。

创建时间：

2021-11-25

原始信息汇总

数据集概述

数据集列表

数据集	URL
VoxCeleb	https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox1.html
VoxCeleb2	https://www.robots.ox.ac.uk/~vgg/data/voxceleb/vox2.html
LRW	https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrw1.html
LRS2	https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs2.html
LRS3	https://www.robots.ox.ac.uk/~vgg/data/lip_reading/lrs3.html

下载步骤

获取密码：从VGG网站为每个数据集请求密码。
替换用户和密码：在"download_urls_with*.sh"文件中替换"<user>"和"<passwd>"为从VGG获取的"user:passwd"。
下载文件：使用提供的脚本下载数据集文件，例如：
- 下载VoxCeleb音频文件：bash download_urls_with_aria2.sh url_list/voxceleb_audio_vgg_urls.txt
- 下载VoxCeleb2视频文件：bash download_urls_with_aria2.sh url_list/voxceleb2_video_vgg_urls.txt
- 下载LRS3音频或视频文件：bash download_urls_with_aria2.sh url_list/lrs3_audio_vgg_urls.txt 或 bash download_urls_with_aria2.sh url_list/lrs3_video_vgg_urls.txt
合并文件：下载所有部分后，使用命令如"cat vox2_dev_aac* > vox2_aac.zip"合并文件，并根据每个数据集的网站指示解压文件。

AI搜集汇总

数据集介绍

构建方式

该数据集系列，包括VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3，由牛津大学VGG实验室构建。这些数据集通过从公开视频中提取音频和视频数据，经过精心筛选和标注，形成了高质量的多模态数据资源。构建过程中，研究团队首先从多个在线平台收集了大量名人视频，随后通过自动化工具和人工校验相结合的方式，确保数据的准确性和多样性。

特点

这些数据集的显著特点在于其大规模、多样性和高质量。VoxCeleb系列专注于语音识别和说话人验证，提供了丰富的音频和视频数据；LRW、LRS2和LRS3则侧重于唇读和语音识别，包含了大量的口语视频片段。数据集的多样性体现在涵盖了不同语言、口音和场景，为多模态研究提供了坚实的基础。

使用方法

使用这些数据集时，用户需先从VGG网站申请访问权限，获取用户名和密码。随后，通过提供的脚本文件，使用aria2、curl、httpie或wget等工具下载数据。下载完成后，用户需将分段文件合并并解压缩。每个数据集的详细使用说明可在其对应的网站上找到，确保用户能够充分利用这些数据进行语音识别、唇读等相关研究。

背景与挑战

背景概述

VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3数据集是由牛津大学视觉几何组（VGG）创建的一系列用于语音和视觉研究的公开数据集。这些数据集的核心研究问题集中在语音识别、唇读和多模态学习领域，旨在通过大规模的名人语音和视频数据，推动语音和视觉技术的进步。VoxCeleb系列数据集主要包含名人的语音和视频片段，而LRW、LRS2和LRS3则专注于唇读任务，提供了丰富的视频数据以支持唇读算法的开发。这些数据集的创建时间跨度较长，自2017年起陆续发布，已成为语音和视觉研究领域的重要资源，对相关领域的研究和技术发展产生了深远影响。

当前挑战

这些数据集在构建过程中面临了多重挑战。首先，数据集的规模庞大，涉及海量的语音和视频数据，如何高效地采集、存储和处理这些数据是一个巨大的技术挑战。其次，数据集的多样性和质量控制也是关键问题，确保数据集包含广泛的名人样本和多样的语音、视频内容，以提高模型的泛化能力。此外，数据集的版权和隐私问题也需要严格管理，确保数据使用的合法性和道德性。在应用层面，如何利用这些数据集解决语音识别和唇读中的复杂问题，如噪声环境下的语音识别、多语言唇读等，也是当前研究的重点和难点。

常用场景

经典使用场景

在语音与视觉交叉领域，VoxCeleb、VoxCeleb2、LRW、LRS2和LRS3数据集被广泛应用于语音识别、说话人验证以及唇读任务。这些数据集通过提供高质量的音频和视频数据，使得研究者能够训练和验证多模态模型，特别是在处理复杂环境下的语音和视觉信息时表现尤为突出。

实际应用

在实际应用中，这些数据集被广泛用于开发智能语音助手、安全认证系统以及视频内容分析工具。例如，在安全领域，说话人验证技术可以用于身份认证；在娱乐行业，唇读技术可以用于视频内容的自动字幕生成。这些应用极大地提升了系统的准确性和用户体验。

衍生相关工作

基于这些数据集，研究者们开发了多种先进的语音和视觉处理算法，如深度学习模型在说话人验证中的应用、多模态融合技术在语音识别中的实现等。此外，这些数据集还催生了多个开源项目和工具，进一步推动了语音与视觉领域的研究和应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

EdNet

displayName: EdNet license: - CC BY-NC 4.0 paperUrl: https://arxiv.org/pdf/1912.03072v3.pdf publishDate: "2019" publishUrl: https://github.com/riiid/ednet publisher: - University of Michigan - Yale University - University of California, Berkeley - Riiid AI Research tags: - Student Activities taskTypes: - Knowledge Tracing --- # 数据集介绍 ## 简介圣诞老人收集的各种学生活动的大规模分层数据集，一个配备人工智能辅导系统的多平台自学解决方案。 EdNet 包含 2 年多来收集的 784,309 名学生的 131,441,538 次互动，这是迄今为止向公众发布的 ITS 数据集中最大的。资料来源：EdNet：教育中的大规模分层数据集 ## 引文 ``` @inproceedings{choi2020ednet, title={Ednet: A large-scale hierarchical dataset in education}, author={Choi, Youngduck and Lee, Youngnam and Shin, Dongmin and Cho, Junghyun and Park, Seoyon and Lee, Seewoo and Baek, Jineon and Bae, Chan and Kim, Byungsoo and Heo, Jaewe}, booktitle={International Conference on Artificial Intelligence in Education}, pages={69--73}, year={2020}, organization={Springer} } ``` ## Download dataset :modelscope-code[]{type="git"}

魔搭社区收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

MHEALTH Dataset

该数据集名为MHEALTH，包含了12种人类活动，这些活动是由10位不同的受试者进行的，每位受试者在左脚踝和右手腕上佩戴了运动传感器。数据由128个时间步长的序列组成；正常活动被标记为正常，而其他活动被视为异常。该数据集具有18个维度，来自10位受试者，其任务是进行异常检测。

arXiv 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统（ICS）安全研究的数据集，包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学（Singapore University of Technology and Design）发布，旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录