CN-Celeb-AV

Name: CN-Celeb-AV
Creator: 清华大学语音和语言技术中心，北京邮电大学人工智能学院
Published: 2023-07-28 23:13:23
License: 暂无描述

arXiv2023-07-28 更新2024-06-21 收录

下载链接：

http://cnceleb.org/

下载链接

链接失效反馈

官方服务：

资源简介：

CN-Celeb-AV是一个多模态音频-视觉数据集，旨在评估无约束条件下的人识别技术。该数据集由清华大学语音和语言技术中心及北京邮电大学人工智能学院共同创建，包含超过419,663个视频片段，涵盖1,136位来自公共媒体的个体，涉及11种不同的真实世界场景类型。数据集的创建过程中，特别强调了多类型数据和部分信息片段的处理，以更真实地模拟现实复杂性。CN-Celeb-AV适用于研究音频-视觉人识别技术，特别是在无约束环境下的性能评估，为该领域的研究提供了一个新的基准数据集。

CN-Celeb-AV is a multimodal audio-visual dataset designed to evaluate unconstrained person recognition technologies. It was jointly developed by the Center for Speech and Language Technology at Tsinghua University and the School of Artificial Intelligence at Beijing University of Posts and Telecommunications. The dataset contains over 419,663 video clips, covering 1,136 individuals from public media and spanning 11 distinct real-world scenario types. Special emphasis was placed on the processing of multi-type data and partial information segments during dataset construction to more realistically simulate the complexity of real-world environments. CN-Celeb-AV is applicable to research on audio-visual person recognition technologies, particularly performance evaluation in unconstrained environments, providing a new benchmark dataset for relevant research in this field.

提供机构：

清华大学语音和语言技术中心，北京邮电大学人工智能学院

创建时间：

2023-05-25

搜集汇总

数据集介绍

构建方式

在音频视觉人物识别领域，构建能够反映真实世界复杂性的数据集至关重要。CN-Celeb-AV数据集通过从中国公共媒体平台Bilibili收集多类型视频片段，采用半自动化流程精心构建。该流程首先人工筛选目标人物的候选视频并标注类型，随后利用MTCNN和InsightFace模型进行人脸检测与验证，同时结合ECAPA-TDNN模型进行说话人验证，自动提取包含目标人物的5秒视频片段。最后通过人工核查确保数据质量，特别关注音频或视觉信息部分缺失的片段，从而形成包含全模态与部分模态两大部分的数据集，涵盖11种类型、1136位人物的超过419k个视频片段。

使用方法

CN-Celeb-AV数据集为音频视觉人物识别研究提供了标准化的评估框架。研究者可利用其开发集（CNC-AV-Dev-F）进行模型训练或特征学习，例如通过线性判别分析（LDA）优化音频和视觉嵌入表示。两个评估集（CNC-AV-Eval-F和CNC-AV-Eval-P）则分别用于测试系统在全模态和部分模态条件下的性能，支持单模态（说话人识别或人脸识别）与多模态融合方法的比较。数据集中每个目标人物提供清晰的注册人脸和语音样本，测试时则使用剩余视频片段，符合真实世界中约束注册与非约束测试的场景。数据集免费公开，可直接从官方网站下载，便于推动音频视觉识别技术的实际应用研究。

背景与挑战

背景概述

音频视觉人物识别作为生物特征识别领域的重要分支，旨在融合语音与面部信息的互补优势以提升在非受控环境下的识别鲁棒性。CN-Celeb-AV数据集由清华大学与北京邮电大学的研究团队于近年联合构建，其核心研究问题聚焦于解决现实场景中多模态数据部分缺失或受损条件下的身份认证难题。该数据集从公开媒体平台采集了涵盖11种流派、超过419千个视频片段，涉及1136位人物，显著推动了音频视觉人物识别技术向真实复杂环境的演进，并为相关领域提供了关键的基准评估资源。

当前挑战

CN-Celeb-AV数据集致力于应对音频视觉人物识别在现实应用中的核心挑战，即如何在多流派、非受控且模态信息部分缺失的复杂场景下实现高精度身份认证。具体而言，数据构建过程中面临双重困难：一方面需从海量公开媒体中筛选并标注具有部分模态信息（如语音或面部短暂消失、噪声干扰）的视频片段，这要求设计高效的半自动化流水线以平衡收集效率与标注准确性；另一方面，数据集的多样性引入了跨流派、跨会话的识别难度，以及模态不对称性带来的模型偏差问题，这些因素共同构成了对现有识别系统的严峻考验。

常用场景

经典使用场景

在音频视觉人物识别领域，CN-Celeb-AV数据集常被用于评估多模态融合模型在非受限环境下的鲁棒性。该数据集覆盖了11种不同媒体类型，如访谈、直播和演讲等，其视频片段常包含现实世界中的复杂干扰，例如部分模态信息缺失或噪声污染。研究人员利用这些数据模拟真实场景，测试模型在跨类型、跨会话条件下的识别能力，从而推动音频视觉融合技术的边界。

解决学术问题

CN-Celeb-AV数据集主要解决了音频视觉人物识别研究中单一模态在非受限条件下性能受限的学术问题。传统数据集往往在受控环境中采集，难以反映现实世界的复杂性，而该数据集通过引入多类型媒体和部分模态信息，为研究多模态互补性提供了实验基础。其意义在于建立了更贴近实际应用的评估基准，促进了鲁棒性融合算法的发展，对推动生物识别技术向真实场景迁移具有深远影响。

实际应用

在实际应用中，CN-Celeb-AV数据集为智能监控、远程身份验证和人机交互等场景提供了关键数据支持。例如，在公共安全领域，系统需要从嘈杂的监控视频中准确识别目标人物，该数据集的多类型和部分信息特性能够帮助训练模型应对光照变化、面部遮挡或音频干扰。这些能力使得基于音频视觉融合的身份验证技术在安防、金融和社交媒体平台中得以更可靠地部署。

数据集最近研究