AVTrack

github2026-05-13 更新2026-05-14 收录

下载链接：

https://github.com/FudanCVL/AVTrack

下载链接

链接失效反馈

官方服务：

资源简介：

AVTrack是一个以人为中心的视听实例分割数据集，专为动态真实世界场景的评估而设计。它包含871个视频，每个视频平均54秒，提供像素级实例掩码和跨帧身份跟踪，涵盖访谈、电影、动漫、歌剧、叙述和舞台表演等多种场景，具有广泛的说话者、语言和声学条件覆盖。

AVTrack is a human-centric audio-visual instance segmentation dataset designed for evaluation in dynamic real-world scenarios. It consists of 871 videos with an average duration of 54 seconds each, providing pixel-level instance masks and cross-frame identity tracking. It covers diverse scenarios including interviews, films, animations, operas, narrations and stage performances, with comprehensive coverage of various speakers, languages and acoustic conditions.

创建时间：

2026-05-13

原始信息汇总

AVTrack 数据集概述

基本信息

全称: AVTrack: Audio-Visual Tracking in Human-centric Complex Scenes
发布机构: 复旦大学大数据学院、计算机科学与技术学院、人工智能学院
论文发表: ICML 2026
许可证: MIT License
数据集托管: Hugging Face - FudanCVL/AVTrack
项目主页: https://fudancvl.github.io/AVTrack/

数据集特点

AVTrack是一个以人为中心的音视频实例分割（AVIS）数据集，专为动态真实世界场景中的评估而构建，弥补了现有AVIS基准依赖静态、单说话人或实验室风格视频的不足。

数据集规模

指标	数值
视频总数	871 个
数据划分	100% 测试集
平均时长	54 秒/视频
标注类型	像素级实例掩码 + 跨帧身份跟踪 + 对齐音频

内容覆盖

涵盖以下场景类型：

采访
电影
动漫
歌剧
叙述/旁白
舞台表演

覆盖广泛的说话人、语言和声学条件。

挑战属性

每个视频标注了以下挑战属性：

相机运动
遮挡
位置变化
重叠语音
其他复杂条件

附带的基线方法

数据集提供了无需训练的基线（AVTracker），包含完整流水线：

SAM3 - 视频跟踪（生成掩码）
Whisper - 语音识别（ASR）
Mossformer2（可选）- 语音分离
VLM（Qwen3-VL）- 局部和全局窗口分析，确认说话人身份
DeepFace（可选手部变体）- 面部匹配

变体配置

变体	配置	描述
基础版（默认）	`agent=base`	完整方法：压缩 + 语音边界窗口 + VLM全局匹配 + Mossformer2语音分离
无分离	`agent=no_separation`	消融：禁用Mossformer2语音分离
无压缩	`agent=no_compression`	消融：禁用语块压缩
固定窗口	`agent=fix_window`	消融：使用固定8秒窗口替代语音边界
面部版	`agent=face`	全局阶段使用DeepFace替代VLM进行人物分组
Plus版	`model/vlm=qwen3vl_plus`	使用Qwen3-VL-Plus API提升VLM推理能力

数据目录结构

AVTRACK_DATA_ROOT/ ├── avtrack_meta.json # 元数据文件 ├── Images/ # 图像帧 ├── Audios/ # 音频文件 ├── Instance_Masks/ # 实例掩码 └── Instance_Masks_merged/ # 合并后的实例掩码

引用信息

bibtex @inproceedings{wang2026avtrack, title = {{AVTrack}: Audio-Visual Tracking in Human-centric Complex Scenes}, author = {Wang, Yaoting and Zhou, Yun and Zhang, Zipei and Ding, Henghui}, booktitle = {International Conference on Machine Learning (ICML)}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在动态且复杂的人为中心的真实场景中，现有的视听实例分割基准往往局限于静态、单说话人或实验室环境。为填补这一空白，AVTrack数据集应运而生，它是一项专为评估动态真实世界场景中视听实例分割性能而构建的大规模资源。该数据集汇聚了871段视频，每段平均时长54秒，全部划分为测试集，覆盖访谈、电影、动画、歌剧、旁白及舞台表演等多种类型，广泛囊括了多样的说话人、语言和声学条件。通过为每段视频提供像素级实例掩码及跨帧身份追踪标注，并结合对齐的音频信号，AVTrack确保了时空维度上的精确关联。此外，数据集还为每个视频标注了挑战属性，如相机运动、遮挡、位置变化和重叠语音等，以模拟真实世界的复杂性。所有数据均托管于Hugging Face平台，便于研究者直接下载使用。

特点

AVTrack数据集的核心特点在于其高度的人为中心导向和动态场景适应性，这使其显著区别于传统静态或单说话人基准。数据集包含超过800段视频，平均时长达到54秒，确保了对长时间序列行为的捕捉能力。其标注体系不仅提供精细的像素级实例掩码，还通过跨帧身份关联实现了完整的追踪信息，配合同步音频，形成了真正的多模态数据源。特定挑战属性的标记，如相机运动、遮挡和重叠语音，为评估算法在极端条件下的鲁棒性提供了宝贵契机。此外，数据集附带的AVTracker无训练基线方法，集成了SAM3追踪、Whisper语音识别及大型视觉语言模型，为后续研究提供了可复现的参考框架，有效降低了研究门槛。

使用方法

使用AVTrack数据集时，研究者应首先通过安装依赖管理工具uv并同步项目环境，确保所有核心和可选依赖项正确配置。随后，用户需从Hugging Face平台下载数据集并解压至指定目录，通过设置环境变量AVTRACK_DATA_ROOT指向数据根目录。在进行推断或评估时，可利用Hydra配置系统灵活选择方法变体，例如启用或禁用语音分离、调整窗口策略或切换身份匹配模型。用户可通过命令行参数轻松控制模型选择、GPU分配及超参数调整，如更改IoU匹配阈值或最大帧数。单视频演示脚本为快速测试提供了便捷入口，而完整的推断和评估脚本则支持批量处理和多GPU并行计算，从而全面适应不同规模的研究需求。

背景与挑战

背景概述

在动态真实世界场景中，基于人中心的音视频实例分割（AVIS）研究面临数据匮乏的窘境，现有基准多依赖于静态、单说话人或实验室风格的数据，难以反映复杂多变的现实应用需求。为此，复旦大学大数据学院、计算机科学与技术学院及人工智能学院的Yaoting Wang、Yun Zhou、Zipei Zhang和Henghui Ding等研究人员，于2026年在ICML会议上发布了AVTrack数据集。该数据集包含871段平均时长54秒的视频，覆盖访谈、电影、动漫、歌剧、解说和舞台表演等多种场景，提供像素级实例掩码、跨帧身份追踪（跟踪）及对齐音频，并标注了每段视频的挑战属性，如相机运动、遮挡、位置变化和重叠语音等。AVTrack的推出填补了动态人中心AVIS评估的空白，为领域提供了关键基准，其配套的无训练基线方法AVTracker也为后续研究提供了便利。

当前挑战

AVTrack数据集所应对的核心挑战是解决音视频追踪在动态真实世界场景中的领域难题，即如何从含有相机运动、严重遮挡、频繁位置变化和多人重叠语音等混杂噪声的视频中，精确分割并追踪特定说话人的实例掩码。构建过程中面临的挑战尤为艰巨：首先，数据采集需横跨多种媒体类型和语言环境，保证场景的广泛性与代表性，同时为每个视频标注像素级掩码和跨帧身份，工作量巨大；其次，需同步录制高质量音频并确保音视频在时间上的精确对齐，以支持多模态分析；最后，还需要设计统一的挑战属性标注方案，如标注摄像机运动类型、遮挡程度与重叠语音时段等，这些属性对后续模型评估至关重要。

常用场景

经典使用场景

在动态真实场景中以人为核心的视听实例分割与跟踪领域，AVTrack数据集提供了丰富的多模态标注资源。其经典使用场景涵盖访谈、电影、动画、歌剧、旁白及舞台表演等复杂环境，视频时长平均54秒，包含871个全测试集样本。研究者可利用其像素级实例掩码与跨帧身份跟踪信息，结合对齐音频，验证多模态融合模型在相机运动、遮挡、位置变化及重叠语音等挑战性条件下的鲁棒性与泛化能力。

衍生相关工作

围绕AVTrack数据集，衍生了一系列具有代表性的研究工作。其官方基线AVTracker巧妙整合了SAM3、Whisper大模型及Mossformer2语音分离模块，通过局部窗口分析与全局身份匹配的流水线，为无训练跨模态跟踪范式树立了标杆。后续研究或通过设计端到端的多模态Transformer架构替代传统的分步管道，或探索基于跨注意力机制的语音-视觉特征对齐方案，均以AVTrack为验证平台。该数据集同时激发了针对说话人相似性压缩、固定窗口替代动态分割等消融实验的深入探讨，推动了视听跟踪领域方法论的迭代与创新。

数据集最近研究