AVA-ActiveSpeaker
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/AVA-ActiveSpeaker
下载链接
链接失效反馈官方服务:
资源简介:
包含视频中时间标记的人脸轨迹,其中每个人脸实例都被标记为说话与否,以及语音是否可听。该数据集包含大约 365 万个人类标记帧或大约 38.5 小时的面部轨迹,以及相应的音频。
This dataset contains time-stamped facial trajectories from videos. Each facial instance is annotated as either speaking or non-speaking, and whether the corresponding speech is audible. The dataset includes approximately 3.65 million human-annotated frames, or equivalently roughly 38.5 hours of facial trajectories, along with the corresponding audio.
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
AVA-ActiveSpeaker是一个用于主动说话人检测的视听数据集,包含约365万标记帧(38.5小时)的视频人脸轨迹及对应音频,每个人脸实例都标注了说话状态。该数据集由Google AI Research于2019年发布,支持音频-视觉联合分析研究。
以上内容由遇见数据集搜集并总结生成



