AVA-ActiveSpeaker

arXiv2025-09-30 收录

下载链接：

https://research.google.com/ava/download.html#ava_active_speaker_download

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是首个针对野外环境中的活跃说话者检测的大型标准化基准，包含了来自全球电影行业的262个YouTube视频。每个视频都在第15至30分钟进行标注，以25-30帧/秒的速度录制，并裁剪成1至10秒的视频语句。该数据集规模为262个视频，其中120个用于训练，33个用于验证，109个用于测试，任务目标是活跃说话者检测。

This dataset is the first large-scale standardized benchmark for active speaker detection in unconstrained (wild) environments. It encompasses 262 YouTube videos sourced from the global film industry. Each video is annotated from the 15th to the 30th minute, recorded at 25–30 frames per second, and cropped into 1–10 second video utterances. The dataset totals 262 videos in total, with 120 allocated for training, 33 for validation, and 109 for testing, and its core task is active speaker detection.

搜集汇总

数据集介绍

构建方式

在视听融合研究领域，构建高质量标注数据集是推动主动说话人检测技术发展的关键。AVA-ActiveSpeaker数据集的构建过程系统而严谨，其基础视频素材来源于AVA v1.0动作识别数据集中的YouTube电影片段，确保了数据在语言、录制条件和说话人 demographics 方面的多样性。构建流程涵盖视频选择、标注词汇定义、人脸轨迹生成与人工标注四个核心阶段。首先，采用先进的人脸检测与跟踪算法自动生成候选人脸轨迹，并通过高斯核平滑填补短暂间隙，形成持续1至10秒的待标注片段。随后，标注人员在同步呈现音频波形与视频的交互界面中，对每一帧中的每个人脸进行密集的时空标注，判断其处于“非说话”、“说话且可听”或“说话但不可听”三种状态之一。整个数据集最终包含约3.65百万标注帧，对应约38.5小时的人脸轨迹及相应音频，所有标注均经过多人校验，Fleiss‘ kappa值达0.72，确保了标注的高一致性与可靠性。

特点

AVA-ActiveSpeaker数据集以其规模宏大、标注密集和场景真实而著称，为主动说话人检测研究设立了新的标杆。该数据集最显著的特点在于其标注的时空密集性，不仅提供了每一帧中每个人脸的精确边界框，还赋予了连续的说话状态标签，从而能够支持对时序模型的精细化训练与评估。数据来源于多样化的电影内容，涵盖了不同的光照条件、遮挡情况、人脸尺寸以及复杂的声学环境（如背景音乐与噪声），极大地增强了模型的泛化能力。此外，该数据集与AVA生态系统中已有的动作识别和语音活动标签相兼容，为跨任务分析与模型联合训练提供了可能。其标注还细致区分了语音的可听性，这对公平评估纯视觉模型至关重要。数据集中包含多人同时说话、画外音等具有挑战性的真实场景，充分反映了实际应用中的复杂性。

使用方法

AVA-ActiveSpeaker数据集作为一项公开基准，主要服务于端到端的视听联合建模研究。研究者可利用其提供的CSV格式标注文件，其中包含视频标识符、时间戳、人脸边界框坐标及说话状态标签，轻松构建训练与测试样本。典型的使用方法是将连续的人脸图像序列与对应的音频片段（如梅尔频谱图）作为多模态输入，训练神经网络以学习从视听信号到说话概率的映射。数据集支持静态模型与循环神经网络模型的开发，研究者可探索不同时间窗口长度对模型性能的影响。得益于其密集的帧级标注，模型可以进行全监督训练，并在测试集上使用接收者操作特征曲线下面积等指标进行严谨评估。该数据集还可用于探究模型在不同人脸大小、背景噪声条件下的鲁棒性，或与AVA-Speech标签结合，分析语音活动与可见说话人之间的关联，为说话人日志生成等下游任务提供坚实基础。

背景与挑战

背景概述

AVA-ActiveSpeaker数据集由Google AI Perception团队于2019年提出，旨在解决视听领域中的主动说话人检测问题。该数据集基于AVA v1.0动作识别数据集构建，包含来自YouTube电影的160个视频片段，总计约38.5小时的面部轨迹和对应音频，标注了约365万帧数据。核心研究问题聚焦于在多模态视频中精确识别当前说话人，以支持说话人日志、视频重定向、语音增强及人机交互等应用。该数据集的发布填补了大规模、多样化标注数据的空白，推动了联合视听模型的发展，并成为相关算法评估的重要基准。

当前挑战

AVA-ActiveSpeaker数据集面临的挑战主要体现在两个方面：在领域问题层面，主动说话人检测需克服视觉混淆（如进食、表情等非语音口部动作）和音频歧义（如背景噪声、多人重叠语音），以及视频中光照变化、遮挡和小尺寸面部等复杂条件；在构建过程中，挑战包括从多样化电影内容中自动检测并跟踪面部轨迹的准确性，以及通过人工标注确保高一致性和时间密集标签的可靠性，同时处理音频与视觉模态的同步对齐问题。

常用场景

经典使用场景

在视听融合研究领域，AVA-ActiveSpeaker数据集为主动说话人检测任务提供了基准评估平台。该数据集通过标注视频中每一帧人脸是否在说话及其语音可听性，构建了密集的时空标注体系。研究者利用其38.5小时的面部轨迹数据，可系统评估多模态模型在复杂场景下的性能，特别是在电影片段中人物对话、群体互动等多样化情境下的说话人识别能力。

解决学术问题

该数据集有效解决了视听模态融合中的关键学术难题。传统方法常受限于单模态信息的局限性：纯视觉方法易受面部非语音动作干扰，纯音频方法难以关联可见说话人。AVA-ActiveSpeaker通过提供大规模同步标注数据，使联合建模成为可能，显著提升了模型在遮挡、光照变化、背景噪声等复杂条件下的鲁棒性，推动了多模态表示学习与跨模态对齐理论的发展。

衍生相关工作

数据集催生了多领域经典研究工作的涌现。在模型架构方面，衍生出基于双塔神经网络的端到端视听融合框架，如采用门控循环单元的时序建模方法；在任务拓展上，推动了说话人日记化、视听语音分离、跨模态预训练等方向的发展。相关成果进一步丰富了ActivityNet挑战赛的评测体系，并为电影叙事分析、多人对话理解等高层级任务提供了数据基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集