MAV-Celeb

Name: MAV-Celeb
Creator: 林茨大学·计算感知研究所; 密歇根大学弗林特分校; 罗马大学; 穆罕默德·本·扎耶德人工智能大学; Fortemedia新加坡公司; IT:U跨学科转型大学奥地利分校; 奥格斯堡大学; 林茨理工大学·以人为中心的人工智能组
Published: 2026-03-26 01:47:00
License: 暂无描述

arXiv2026-03-26 更新2026-03-27 收录

下载链接：

https://github.com/msaadsaeed/polysim

下载链接

链接失效反馈

官方服务：

资源简介：

MAV-Celeb是由林茨大学等机构联合构建的多模态说话人识别数据集，包含YouTube访谈、脱口秀等场景下的双语（英语-乌尔都语）音频-视觉样本。数据集包含4039个英语训练样本和9304个乌尔都语训练样本，每个样本均包含人脸图像(.jpg)和语音片段(.wav)的成对数据。数据通过预训练模型提取特征，并采用分层结构按模态、身份和语言组织。该数据集旨在解决多模态说话人识别中的模态缺失和跨语言泛化问题，为生物识别、媒体分析等领域提供基准支持。

MAV-Celeb is a multimodal speaker recognition dataset jointly constructed by the University of Linz and other institutions. It encompasses bilingual (English-Urdu) audio-visual samples collected from scenarios including YouTube interviews and talk shows. The dataset comprises 4039 English training samples and 9304 Urdu training samples, with each sample containing paired data of facial images (.jpg) and audio clips (.wav). Features are extracted from the dataset via pre-trained models, and the data is organized in a hierarchical structure based on modality, speaker identity and language. This dataset aims to address the issues of modality missing and cross-language generalization in multimodal speaker recognition, providing benchmark support for fields such as biometrics and media analysis.

提供机构：

林茨大学·计算感知研究所; 密歇根大学弗林特分校; 罗马大学; 穆罕默德·本·扎耶德人工智能大学; Fortemedia新加坡公司; IT:U跨学科转型大学奥地利分校; 奥格斯堡大学; 林茨理工大学·以人为中心的人工智能组

创建时间：

2026-03-26

原始信息汇总

POLYSIM 2026 Grand Challenge 数据集概述

任务描述

POLYSIM 2026挑战赛旨在解决闭集说话人分类问题，使用**音频（语音）和视觉（面部）**两种模态。目标是在以下现实挑战下，从给定样本中分类说话人的身份：

测试时一种模态（面部）可能完全缺失
测试语言可能不同于训练语言
所有条件下必须使用单一统一模型

参赛者需要设计鲁棒、模态无关且跨语言的模型。

任务设置

挑战赛包含四种任务设置，涵盖多模态、缺失模态和跨语言场景。

P3：同语言多模态

训练：音频 + 面部
测试：音频 + 面部
语言：相同
描述：标准多模态说话人分类设置。

P4：缺失模态（仅音频）

训练：音频 + 面部
测试：仅音频
语言：相同
描述：测试时面部模态完全缺失。不允许重新训练。

P5：跨语言多模态

训练：音频 + 面部
测试：音频 + 面部
语言：不同
描述：在模态完全可用的情况下评估跨语言泛化能力。

P6：跨语言缺失模态

训练：音频 + 面部
测试：仅音频
语言：不同
描述：最具挑战性的设置，结合了跨语言测试和推理时面部模态缺失。

任务设置总结

设置	训练模态	测试模态	语言
P3	音频 + 面部	音频 + 面部	相同
P4	音频 + 面部	仅音频	相同
P5	音频 + 面部	音频 + 面部	跨语言
P6	音频 + 面部	仅音频	跨语言

数据集

概述

数据集MavCeleb包含从多个说话人在多种语言下收集的配对语音音频和面部图像/视频帧。

模态

音频：语音片段
视觉：面部图像或面部轨迹
标签：说话人ID

数据划分

训练集 - 原始数据，特征
开发集（标签隐藏）
测试集（标签隐藏）

缺失模态设置

缺失模态仅发生在测试时
缺失模态是明确且完全的（面部缺失）
训练数据始终包含两种模态

评估协议

评估目标在于研究：

多模态说话人分类性能
对面部模态缺失的鲁棒性
在未见语言上的泛化能力

指标

准确率

排名

指标为P3、P4、P5和P6分别计算
最终排名基于所有设置下的平均分数

提交要求

参赛者必须提交一个ZIP压缩包，其中包含CSV文件，每种语言对一个文件。压缩包内的文件必须按以下方式命名：

submission_v1_<phase>_English_English.csv
submission_v1_<phase>_English_Urdu.csv

其中<phase>为val（开发集）或test（评估集）。

参考基线

相关资源链接

挑战赛网页：https://mmosc.github.io/fame2027.github.io/index.html#home
评估计划：https://arxiv.org/abs/2603.24569

搜集汇总

数据集介绍

构建方式

在多媒体生物识别领域，数据集的构建需紧密贴合现实场景的复杂性。MAV-Celeb数据集通过精心筛选YouTube上的访谈、脱口秀和电视辩论视频，采集了双语说话者的音频-视觉样本。其核心构建策略在于确保每位说话者均包含使用英语和乌尔都语两种语言的视频片段，从而为跨语言研究奠定基础。数据经过结构化处理，按模态、身份和语言层次组织，并提供了预提取的特征表示，以支持高效的模型训练与评估。

特点

MAV-Celeb数据集的特点在于其专注于双语环境下的多模态说话人识别，尤其强调模态缺失与语言迁移的挑战。数据集包含同一批说话者在英语和乌尔都语两种语言下的配对音频与面部图像，模拟了真实场景中视觉信息可能缺失或语言条件变化的情况。其样本涵盖了多种视觉变化，如姿态、光照和运动，增强了数据的多样性与现实代表性。这一设计使得该数据集成为评估模型在跨语言与缺失模态条件下鲁棒性的理想基准。

使用方法

该数据集的使用旨在推动多模态说话人识别在复杂场景下的研究。研究者可利用其训练集，在完整音频-视觉模态下学习说话者特征，随后在测试阶段面对视觉模态缺失且音频语言不同的情境进行验证。数据集支持四种评估协议，包括同语言多模态、缺失模态、跨语言多模态及跨语言缺失模态，全面衡量模型性能。参与者需遵循指定的提交格式，通过预测身份标签完成挑战任务，并以平均准确率作为最终评价指标。

背景与挑战

背景概述

MAV-Celeb数据集是专为多模态说话人识别研究设计的音频-视觉数据集，其核心在于探索跨语言环境下的面部与语音关联问题。该数据集由约翰内斯·开普勒大学林茨分校计算感知研究所等机构的研究团队于2024年至2026年间构建，作为POLY-SIM Grand Challenge 2026的基准数据。数据集采集自YouTube视频，涵盖双语说话人在英语和乌尔都语环境下的访谈、脱口秀等场景，旨在模拟真实世界中因遮挡、设备故障或隐私限制导致的视觉模态缺失，以及语言变异带来的复杂性。通过提供标准化的多模态样本，MAV-Celeb推动了鲁棒性说话人识别系统的发展，对生物识别、媒体分析和人机交互等领域产生了深远影响。

当前挑战

MAV-Celeb数据集主要应对多模态说话人识别在缺失模态与跨语言场景中的双重挑战。在领域问题层面，传统模型依赖完整的音频-视觉输入，当视觉模态缺失或测试语言与训练语言不同时，性能显著下降，这限制了系统在真实环境中的适用性。构建过程中的挑战包括：需从公开视频中筛选高质量的双语说话人样本，确保音频与视觉数据的时空对齐；处理不同光照、姿态和运动带来的视觉变异；以及为跨语言比较建立严格的标注协议，以支持缺失模态下的鲁棒性评估。这些挑战共同促使研究者开发更灵活的表示学习与跨模态对齐方法。

常用场景

经典使用场景

在多媒体生物识别领域，MAV-Celeb数据集为研究跨语言与模态缺失条件下的说话人识别提供了标准化实验平台。该数据集最经典的应用场景体现在POLY-SIM挑战赛的P6配置中：模型在英语音频-视觉配对数据上训练后，需仅凭乌尔都语音频片段识别说话人身份。这种设置精准模拟了现实场景中视觉信息因遮挡、设备故障或隐私限制而缺失，同时语音内容存在语言迁移的复杂情况，为评估多模态模型的鲁棒性与泛化能力建立了严谨的基准。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在多模态融合架构与跨语言适应方法创新。FOP（Fusion and Orthogonal Projection）框架通过正交约束优化音视频嵌入表示，为模态缺失场景提供了基准解决方案。后续研究延伸出单分支模态不变网络设计，旨在构建共享表征空间以缓解模态鸿沟。LAVViT等视觉Transformer变体探索了潜在音视频联合表示学习。这些工作共同构成了多模态说话人识别领域应对现实约束的技术谱系，持续推动着鲁棒多媒体系统的发展。

数据集最近研究