AVA-ActiveSpeaker

Name: AVA-ActiveSpeaker
Creator: 谷歌人工智能感知部门
Published: 2019-05-25 09:28:15
License: 暂无描述

arXiv2019-05-25 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/1901.01342v2

下载链接

链接失效反馈

官方服务：

资源简介：

AVA-ActiveSpeaker数据集是由谷歌人工智能感知部门创建的一个大规模、多样化的音频-视觉数据集，旨在支持主动说话人检测任务。该数据集包含约3.65百万个标注帧，覆盖约38.5小时的人脸轨迹视频及其音频。数据集中的每个人脸实例都被标记为说话或不说话，以及语音是否可听见。数据集的构建过程涉及视频选择、标签词汇定义、人脸轨迹检测和人工标注。AVA-ActiveSpeaker数据集的应用领域广泛，包括说话人分割、视频会议重定向、语音增强和人与机器人交互等，旨在解决视频分析中的核心问题，如识别视频中哪个可见人物正在说话。

The AVA-ActiveSpeaker dataset is a large-scale, diverse audio-visual dataset developed by Google's AI Perception Department, which is designed to support active speaker detection tasks. It encompasses approximately 3.65 million annotated frames, spanning roughly 38.5 hours of videos with tracked face trajectories and their corresponding audio streams. Every individual face instance within the dataset is annotated with two pieces of information: whether the person is speaking, and whether the speech is audible. The development of the AVA-ActiveSpeaker dataset encompasses several key stages, including video selection, definition of labeling vocabulary, face trajectory detection, and manual annotation. This dataset has broad application prospects across multiple domains, such as speaker diarization, video conference redirection, speech enhancement, and human-robot interaction, among others. Its core goal is to address fundamental challenges in video analysis, such as identifying which visible individual in a video is currently speaking.

提供机构：

谷歌人工智能感知部门

创建时间：

2019-01-05

搜集汇总

数据集介绍

构建方式

AVA-ActiveSpeaker数据集的构建主要分为四个阶段：视频选择、标签词汇定义、人脸轨迹检测和人工标注。视频选择阶段从AVA v1.0动作识别数据集中选取了188部电影中的15至30分钟片段。标签词汇定义阶段定义了三个选项：不说话、说话且声音可听、说话但声音不可听。人脸轨迹检测阶段利用自动人脸检测和跟踪技术生成人脸轨迹。人工标注阶段由人工标注者使用标注界面进行标注，每个任务包含一个带有单个面孔边框的视频片段，并重复进行以标注所有可见面孔。该数据集包含约365万个标注帧、约38小时的人脸轨迹及其对应的音频。

特点

AVA-ActiveSpeaker数据集具有以下特点：大规模、多样化、端到端、无应用偏见。数据集包含约365万个标注帧、约38小时的人脸轨迹及其对应的音频，涵盖了多种语言、录音条件和演讲者人口统计学特征。该数据集是端到端的，可以直接从像素和音频进行训练，无需任何预训练嵌入。此外，该数据集与AVA语料库中的其他标签相结合，使得跨任务的建模和标签共享成为可能。

使用方法

AVA-ActiveSpeaker数据集可以用于主动说话者检测算法的开发和评估。数据集包含时空密集的标注，可以用于训练和评估各种算法。数据集还包含多种噪声条件和面孔大小，可以用于测试算法在不同情况下的鲁棒性。此外，数据集还可以用于开发其他多模态任务，如说话者识别、说话者分离、情节和叙事结构分析等。

背景与挑战

背景概述

在视频分析算法中，主动说话人检测是一个重要的组成部分，它被应用于诸如说话人分割、视频会议重定向、语音增强和人与机器人交互等领域。由于缺乏一个大规模、精心标记的音频视觉数据集，这些算法的评价受到了数据多样性、环境和准确性的限制。为了解决这一问题，Roth等人于2019年5月发布了AVA-ActiveSpeaker数据集，这是一个包含约365万个由人类标记的帧或约38.5小时的面部轨迹及其对应音频的音频视觉数据集。该数据集的创建旨在促进算法开发，并使算法之间的比较成为可能。

当前挑战

主动说话人检测建模的稳健性面临着两个挑战来源。第一个是任务的内在难度。仅使用视觉的方法容易受到其他面部/嘴部动作的干扰，例如进食、表情、将手举到嘴边或打哈欠。仅使用音频的方法无法将语音检测与视觉人物检测相关联，除非做出一些约束假设（例如说话人始终可见），而这些假设并不具有普遍性。第二个挑战是网络视频内容来自多样化的群体、录制设备分辨率、包含遮挡和变化的照明设置。对于主动说话人检测的稳健建模，需要从大型和多样化的数据集中联合音频视觉模型进行训练。AVA-ActiveSpeaker数据集填补了这一空白，但数据集中仍存在一些挑战，例如面部检测系统在遮挡和照明条件下的漏检问题，以及如何更好地利用音频和视觉信息进行同步学习。

常用场景

经典使用场景

AVA-ActiveSpeaker 数据集是一个大规模、多样化、人工标注的公共基准数据集，用于主动说话人检测。该数据集包含视频中的时间标记面部轨迹，其中每个面部实例都被标记为说话或不说话，以及语音是否可听。该数据集包含约 365 万个人工标记的帧，约 38.5 小时的面部轨迹和相应的音频。AVA-ActiveSpeaker 数据集的经典使用场景包括说话人分割、视频重定向、语音增强和人机交互。该数据集可以帮助研究人员开发和评估主动说话人检测算法，并促进跨任务的模型共享和分析。

解决学术问题

AVA-ActiveSpeaker 数据集解决了主动说话人检测任务中缺乏大规模、多样化、人工标注的数据集的问题。传统的主动说话人检测数据集规模较小，多样性不足，难以评估算法在数据多样性、环境和准确性方面的性能。AVA-ActiveSpeaker 数据集包含来自不同语言、记录条件和说话人人口统计学的视频，并提供时间密集的标签，从而促进了主动说话人检测算法的发展。此外，该数据集还提供了与 AVA 语料库中先前发布的动作和语音活动标签的相关性分析，为跨任务的模型共享和分析提供了机会。

衍生相关工作

AVA-ActiveSpeaker 数据集的发布推动了主动说话人检测领域的研究进展，并衍生了多个相关的工作。例如，基于 AVA-ActiveSpeaker 数据集，研究人员开发了一种新的视听方法用于主动说话人检测，并分析了其性能。此外，AVA-ActiveSpeaker 数据集还被用于评估和比较各种模型的性能，并分析了模型在不同背景噪声和面部尺寸条件下的表现。这些研究工作有助于提高主动说话人检测算法的性能，并促进该领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集