VoxBlink2

Name: VoxBlink2
Creator: 武汉大学计算机科学学院，中国移动研究院，杜克昆山大学苏州多模态智能系统重点实验室
Published: 2024-07-16 16:49:30
License: 暂无描述

arXiv2024-07-16 更新2024-07-18 收录

下载链接：

http://voxblink2.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

VoxBlink2数据集由武汉大学等机构创建，是目前最大的公开可用音频-视觉说话人识别数据集，包含约1000万条高质量语音及其对应视频，来自111,284名YouTube用户。数据集通过优化数据收集流程，扩展了多样性和场景。创建过程中，采用了多语言关键词列表进行用户检索，并通过高帧率视频和面部检测技术提高数据质量。该数据集主要应用于开放集说话人识别任务，旨在提高系统的识别准确率和泛化能力。

VoxBlink2 dataset was developed by Wuhan University and other institutions, and it is currently the largest publicly available audio-visual speaker recognition dataset. It contains approximately 10 million high-quality speech segments and their corresponding videos, sourced from 111,284 YouTube users. The dataset optimizes the data collection workflow to enhance its diversity and application scenarios. During the development process, multilingual keyword lists were utilized for user retrieval, and high-frame-rate videos and face detection technologies were adopted to improve data quality. This dataset is primarily applied to open-set speaker recognition tasks, with the goal of improving the recognition accuracy and generalization capability of related systems.

提供机构：

武汉大学计算机科学学院，中国移动研究院，杜克昆山大学苏州多模态智能系统重点实验室

创建时间：

2024-07-16

原始信息汇总

VoxBlink2 数据集概述

数据集简介

VoxBlink2 是一个包含超过 10 万说话者的语音识别语料库和开放集说话者识别基准。该数据集仅包含标注数据，包括 YouTube 链接、时间戳和说话者标签。用户需自行决定是否以及如何下载视频数据，并确保其使用目的在其所在国家合法。

数据集特征

10M 条语音片段：从 YouTube 上的视频中标注了约 1000 万条音频/视频片段，涵盖播客、直播、直播亮点等多种场景。
110K+ 说话者：数据集跨越 15 种不同的语言家族，具有多语言特性。
1.6 万小时：涵盖的场景与现实生活情况相符，单个说话者的音频/视频随时间变化。

语言分布

数据集的语言分布如下：

#	语言	说话者数量	#	语言	说话者数量	#	语言	说话者数量
1	英语	40000+	7	越南语	1793	13	日语	992
2	葡萄牙语	6227	8	韩语	1544	14	爱沙尼亚语	725
3	西班牙语	6009	9	意大利语	1519	15	挪威语	574
4	俄语	3961	10	法语	1503	16	波兰语	490
5	阿拉伯语	3467	11	德语	1150	17	塔加洛语	467
6	印度尼西亚语	1864	12	土耳其语	1150	18	加泰罗尼亚语	407

数据集主题

数据集涵盖了多种主题，具体主题分布可通过相关图表探索。

引用信息

如使用该数据集，请引用以下文献：

作者：Yuke Lin, Ming Cheng, Fulin Zhang, Yingying Gao, Shilei Zhang, Ming Li
标题：VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark
会议：INTERSPEECH2024

下载与使用指南

资源下载：标注文件可通过 Google Drive 下载。
执行步骤：下载标注文件后，可参考 GitHub 仓库中的指南构建数据库。
许可证：数据集和执行脚本遵循 CC BY-NC-SA 4.0 许可证。

开放集说话者识别

关于开放集说话者识别任务的评估，请参考 GitHub 仓库中的指南。

搜集汇总

数据集介绍

构建方式

VoxBlink2数据集通过优化数据收集流程构建，涵盖了从YouTube上收集的约1000万条语音和视频片段，涉及超过11万位说话者。与VoxBlink相比，VoxBlink2不仅扩展了数据量，还通过高帧率提取和面部检测技术提高了数据质量。具体步骤包括候选视频收集、帧提取与面部检测、面部识别、以及活动说话者检测与重叠语音检测，确保了数据的高纯度和多样性。

特点

VoxBlink2数据集的主要特点在于其大规模和多样性，包含超过11万位说话者的近1000万条语音和视频片段，是目前公开的最大音频-视觉说话者识别数据集。此外，数据集通过多语言关键词列表和避免重复用户及录音的策略，确保了数据的广泛覆盖和高质量。

使用方法

VoxBlink2数据集适用于多种说话者识别任务，包括说话者验证和开放集说话者识别。研究者可以使用该数据集训练和验证模型，探索不同训练策略、数据规模和模型复杂度对说话者识别性能的影响。数据集的详细信息和模型资源可在官方网站http://voxblink2.github.io获取。

背景与挑战

背景概述

VoxBlink2数据集是由武汉大学、中国移动研究院和杜克昆山大学苏州城市重点实验室联合创建的，旨在推动语音识别领域的发展。该数据集包含了超过1000万条来自11万多名说话者的语音和视频数据，极大地扩展了先前VoxBlink数据集的规模和多样性。VoxBlink2的创建不仅提升了数据集的规模，还通过优化数据收集流程，增强了数据的质量和多样性。该数据集的核心研究问题是如何在开放环境中进行有效的说话人识别，这对于商业应用具有重要意义。通过引入开放集说话人识别任务，VoxBlink2为研究者提供了一个新的挑战视角，推动了说话人识别技术的发展。

当前挑战

VoxBlink2数据集面临的挑战主要集中在两个方面。首先，开放集说话人识别任务要求系统不仅能够匹配已知的说话人，还需要能够识别并拒绝未知的说话人，这增加了识别的复杂性和难度。其次，数据集的构建过程中，如何确保数据的质量和多样性是一个重大挑战。尽管VoxBlink2通过优化数据收集流程和引入多模态数据处理技术，显著提升了数据集的质量，但如何在保持数据多样性的同时确保数据的一致性和准确性，仍然是未来研究的重要方向。此外，随着数据规模的扩大，如何有效地管理和利用这些数据，以提升模型的性能和泛化能力，也是当前研究的一个关键挑战。

常用场景

经典使用场景

VoxBlink2数据集在语音识别领域中被广泛用于开放集说话人识别任务。该数据集通过包含超过1000万条来自11万多名说话者的语音和视频记录，为研究人员提供了一个丰富的资源库。其经典使用场景包括但不限于：通过多模态数据（音频和视频）进行说话人验证，以及在开放集环境中进行说话人识别，即系统不仅需要识别已知说话者，还需能够区分未知说话者。

解决学术问题

VoxBlink2数据集解决了传统说话人识别系统在处理大规模和多样化数据时的局限性。通过提供一个包含超过11万名说话者的高质量音频和视频数据集，它极大地推动了说话人识别技术的发展。该数据集特别解决了在开放集环境中进行说话人识别的挑战，即系统需要能够在识别已知说话者的同时，有效区分和拒绝未知说话者。这一问题的解决对于提升说话人识别系统的实用性和鲁棒性具有重要意义。

衍生相关工作

基于VoxBlink2数据集，研究人员开发了多种先进的说话人识别模型和算法。例如，通过结合多模态数据（音频和视频），研究者们提出了新的特征提取和融合方法，显著提升了识别性能。此外，该数据集还促进了开放集说话人识别任务的标准化和基准测试，推动了相关领域的技术进步。这些衍生工作不仅在学术界引起了广泛关注，也在工业界得到了实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集