VoxBlink2|说话人识别数据集|音频-视觉数据数据集

arXiv2024-07-16 更新2024-07-18 收录

说话人识别

音频-视觉数据

下载链接：

http://voxblink2.github.io

下载链接

链接失效反馈

资源简介：

VoxBlink2数据集由武汉大学等机构创建，是目前最大的公开可用音频-视觉说话人识别数据集，包含约1000万条高质量语音及其对应视频，来自111,284名YouTube用户。数据集通过优化数据收集流程，扩展了多样性和场景。创建过程中，采用了多语言关键词列表进行用户检索，并通过高帧率视频和面部检测技术提高数据质量。该数据集主要应用于开放集说话人识别任务，旨在提高系统的识别准确率和泛化能力。

提供机构：

武汉大学计算机科学学院，中国移动研究院，杜克昆山大学苏州多模态智能系统重点实验室

创建时间：

2024-07-16

原始信息汇总

VoxBlink2 数据集概述

数据集简介

VoxBlink2 是一个包含超过 10 万说话者的语音识别语料库和开放集说话者识别基准。该数据集仅包含标注数据，包括 YouTube 链接、时间戳和说话者标签。用户需自行决定是否以及如何下载视频数据，并确保其使用目的在其所在国家合法。

数据集特征

10M 条语音片段：从 YouTube 上的视频中标注了约 1000 万条音频/视频片段，涵盖播客、直播、直播亮点等多种场景。
110K+ 说话者：数据集跨越 15 种不同的语言家族，具有多语言特性。
1.6 万小时：涵盖的场景与现实生活情况相符，单个说话者的音频/视频随时间变化。

语言分布

数据集的语言分布如下：

#	语言	说话者数量	#	语言	说话者数量	#	语言	说话者数量
1	英语	40000+	7	越南语	1793	13	日语	992
2	葡萄牙语	6227	8	韩语	1544	14	爱沙尼亚语	725
3	西班牙语	6009	9	意大利语	1519	15	挪威语	574
4	俄语	3961	10	法语	1503	16	波兰语	490
5	阿拉伯语	3467	11	德语	1150	17	塔加洛语	467
6	印度尼西亚语	1864	12	土耳其语	1150	18	加泰罗尼亚语	407

数据集主题

数据集涵盖了多种主题，具体主题分布可通过相关图表探索。

引用信息

如使用该数据集，请引用以下文献：

作者：Yuke Lin, Ming Cheng, Fulin Zhang, Yingying Gao, Shilei Zhang, Ming Li
标题：VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark
会议：INTERSPEECH2024

下载与使用指南

资源下载：标注文件可通过 Google Drive 下载。
执行步骤：下载标注文件后，可参考 GitHub 仓库中的指南构建数据库。
许可证：数据集和执行脚本遵循 CC BY-NC-SA 4.0 许可证。

开放集说话者识别

关于开放集说话者识别任务的评估，请参考 GitHub 仓库中的指南。

AI搜集汇总

数据集介绍

构建方式

VoxBlink2数据集通过优化数据收集流程构建，涵盖了从YouTube上收集的约1000万条语音和视频片段，涉及超过11万位说话者。与VoxBlink相比，VoxBlink2不仅扩展了数据量，还通过高帧率提取和面部检测技术提高了数据质量。具体步骤包括候选视频收集、帧提取与面部检测、面部识别、以及活动说话者检测与重叠语音检测，确保了数据的高纯度和多样性。

特点

VoxBlink2数据集的主要特点在于其大规模和多样性，包含超过11万位说话者的近1000万条语音和视频片段，是目前公开的最大音频-视觉说话者识别数据集。此外，数据集通过多语言关键词列表和避免重复用户及录音的策略，确保了数据的广泛覆盖和高质量。

使用方法

VoxBlink2数据集适用于多种说话者识别任务，包括说话者验证和开放集说话者识别。研究者可以使用该数据集训练和验证模型，探索不同训练策略、数据规模和模型复杂度对说话者识别性能的影响。数据集的详细信息和模型资源可在官方网站http://voxblink2.github.io获取。

背景与挑战

背景概述

VoxBlink2数据集是由武汉大学、中国移动研究院和杜克昆山大学苏州城市重点实验室联合创建的，旨在推动语音识别领域的发展。该数据集包含了超过1000万条来自11万多名说话者的语音和视频数据，极大地扩展了先前VoxBlink数据集的规模和多样性。VoxBlink2的创建不仅提升了数据集的规模，还通过优化数据收集流程，增强了数据的质量和多样性。该数据集的核心研究问题是如何在开放环境中进行有效的说话人识别，这对于商业应用具有重要意义。通过引入开放集说话人识别任务，VoxBlink2为研究者提供了一个新的挑战视角，推动了说话人识别技术的发展。

当前挑战

VoxBlink2数据集面临的挑战主要集中在两个方面。首先，开放集说话人识别任务要求系统不仅能够匹配已知的说话人，还需要能够识别并拒绝未知的说话人，这增加了识别的复杂性和难度。其次，数据集的构建过程中，如何确保数据的质量和多样性是一个重大挑战。尽管VoxBlink2通过优化数据收集流程和引入多模态数据处理技术，显著提升了数据集的质量，但如何在保持数据多样性的同时确保数据的一致性和准确性，仍然是未来研究的重要方向。此外，随着数据规模的扩大，如何有效地管理和利用这些数据，以提升模型的性能和泛化能力，也是当前研究的一个关键挑战。

常用场景

经典使用场景

VoxBlink2数据集在语音识别领域中被广泛用于开放集说话人识别任务。该数据集通过包含超过1000万条来自11万多名说话者的语音和视频记录，为研究人员提供了一个丰富的资源库。其经典使用场景包括但不限于：通过多模态数据（音频和视频）进行说话人验证，以及在开放集环境中进行说话人识别，即系统不仅需要识别已知说话者，还需能够区分未知说话者。

解决学术问题

VoxBlink2数据集解决了传统说话人识别系统在处理大规模和多样化数据时的局限性。通过提供一个包含超过11万名说话者的高质量音频和视频数据集，它极大地推动了说话人识别技术的发展。该数据集特别解决了在开放集环境中进行说话人识别的挑战，即系统需要能够在识别已知说话者的同时，有效区分和拒绝未知说话者。这一问题的解决对于提升说话人识别系统的实用性和鲁棒性具有重要意义。

衍生相关工作

基于VoxBlink2数据集，研究人员开发了多种先进的说话人识别模型和算法。例如，通过结合多模态数据（音频和视频），研究者们提出了新的特征提取和融合方法，显著提升了识别性能。此外，该数据集还促进了开放集说话人识别任务的标准化和基准测试，推动了相关领域的技术进步。这些衍生工作不仅在学术界引起了广泛关注，也在工业界得到了实际应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。

国家青藏高原科学数据中心收录

EdNet

displayName: EdNet license: - CC BY-NC 4.0 paperUrl: https://arxiv.org/pdf/1912.03072v3.pdf publishDate: "2019" publishUrl: https://github.com/riiid/ednet publisher: - University of Michigan - Yale University - University of California, Berkeley - Riiid AI Research tags: - Student Activities taskTypes: - Knowledge Tracing --- # 数据集介绍 ## 简介圣诞老人收集的各种学生活动的大规模分层数据集，一个配备人工智能辅导系统的多平台自学解决方案。 EdNet 包含 2 年多来收集的 784,309 名学生的 131,441,538 次互动，这是迄今为止向公众发布的 ITS 数据集中最大的。资料来源：EdNet：教育中的大规模分层数据集 ## 引文 ``` @inproceedings{choi2020ednet, title={Ednet: A large-scale hierarchical dataset in education}, author={Choi, Youngduck and Lee, Youngnam and Shin, Dongmin and Cho, Junghyun and Park, Seoyon and Lee, Seewoo and Baek, Jineon and Bae, Chan and Kim, Byungsoo and Heo, Jaewe}, booktitle={International Conference on Artificial Intelligence in Education}, pages={69--73}, year={2020}, organization={Springer} } ``` ## Download dataset :modelscope-code[]{type="git"}

魔搭社区收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

MHEALTH Dataset

该数据集名为MHEALTH，包含了12种人类活动，这些活动是由10位不同的受试者进行的，每位受试者在左脚踝和右手腕上佩戴了运动传感器。数据由128个时间步长的序列组成；正常活动被标记为正常，而其他活动被视为异常。该数据集具有18个维度，来自10位受试者，其任务是进行异常检测。

arXiv 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统（ICS）安全研究的数据集，包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学（Singapore University of Technology and Design）发布，旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录