BURST

arXiv2025-09-30 收录

下载链接：

https://github.com/ali2500/burst-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估开放世界视频实例分割任务，其中包含了常见和不常见类别的开放世界跟踪准确度指标。该数据集的任务定位在于开放世界的视频实例分割。

This dataset is employed to evaluate the open-world video instance segmentation task, and it includes open-world tracking accuracy metrics for both common and uncommon categories. The core task targeted by this dataset is focused on open-world video instance segmentation.

搜集汇总

数据集介绍

构建方式

BURST数据集以TAO数据集为基础，后者提供每秒1帧的边界框级多目标跟踪标注。研究团队首先对所有342,052个边界框进行了像素级掩码的专业重标注。为提升训练集的时间密度至每秒6帧，他们设计了一套半自动流水线：利用STCN和AOT-L两种前沿视频目标分割方法，通过前向、后向及双向传播策略生成五组候选掩码，再经逐像素多数投票形成共识掩码。随后，基于掩码质量评分Q与像素面积自动筛选低质量样本，仅对评分低于0.8或面积小于750像素的掩码（占总量的16.9%）进行人工重标注，从而在控制成本的同时确保了标注精度。

特点

BURST数据集涵盖2,914个视频，总时长约28.9小时，包含超过60万个高质量对象掩码，覆盖482个对象类别，规模远超同类基准。其视频来源多样，融合了户外驾驶场景、室内互动、电影片段及互联网野生视频，场景复杂度极高。数据集采用联邦式标注策略，即非穷尽式标注，并明确记录每个视频中哪些类别被标注、哪些类别不存在，这一设计使得评估时能够精确惩罚假阳性和假阴性。此外，BURST构建了一个包含六项任务的层次化基准体系，涵盖示例引导（掩码、边界框、点）和类别引导（常见类、长尾类、开放世界）两大流，所有任务共享统一数据和可比的HOTA评估指标，为跨任务知识迁移提供了独特平台。

使用方法

BURST数据集支持六项相互关联的视频目标分割与跟踪任务。对于示例引导任务，研究者需利用首帧中给定的目标掩码、边界框或内部点作为线索，在后续帧中分割并跟踪目标；对于类别引导任务，方法需自动检测、分割并跟踪属于预定义类别集（78类常见、482类全量或开放世界）的所有对象。所有任务均采用基于HOTA的统一评估体系，其中开放世界任务使用修正的OWTA指标以避免惩罚假阳性。数据集提供了基于STCN传播和Box Tracker跟踪的多种基线方法，研究者可直接在验证集和测试集上评估模型性能，并通过对比不同任务的HOTA分数，量化分析检测精度与时间关联能力之间的权衡，从而促进通用型视频理解方法的发展。

背景与挑战

背景概述

在视频理解领域，对象识别、分割与跟踪任务长期处于各自独立发展的状态，不同子社区间缺乏有效互动。为弥合这一鸿沟，2022年由亚琛工业大学、卡内基梅隆大学、谷歌和亚马逊的研究人员共同提出了BURST数据集。该数据集基于TAO数据集进行了像素级掩码重标注，包含2914段多样化的视频，覆盖室内外场景、街景及互联网视频，涵盖482个对象类别。BURST的核心贡献在于统一了六个相关任务（包括掩码引导、边界框引导、点引导的示例驱动任务，以及常见类、长尾类和开放世界的类引导任务），并采用一致的HOTA评估指标，为跨任务方法比较与知识迁移提供了标准化平台。该数据集对推动通用视频对象理解方法的研发具有重要影响力。

当前挑战

BURST面临的挑战主要体现在两方面。领域问题层面，现有基准如VOS和MOTS各自为政，方法难以跨任务比较和迁移，亟需统一框架来促进子社区融合。构建过程层面，将TAO的边界框标注升级为像素级掩码并提升训练集时间密度至6fps面临巨大标注成本：若完全人工标注需25.5万额外掩码。为此，研究者开发了半自动流程，利用STCN和AOT-L等SOTA方法进行掩码传播，再通过质量评估筛选低质量结果（Q<0.8或面积<750像素）进行人工重标注，最终仅需16.9%的掩码人工介入。此外，长尾类别的检测质量低下（HOTAunc仅2.5-3.6）成为类引导任务的核心瓶颈，亟需更鲁棒的检测与关联方法。

常用场景

经典使用场景

BURST数据集的核心经典使用场景在于统一视频中多目标物体的识别、分割与跟踪任务。该数据集基于TAO数据集进行了像素级掩码重标注，涵盖了482类物体、2914段多样化的视频，包括室内外场景、互联网野生视频、电影片段及车载街景。其核心价值在于将原本割裂的视频目标分割（VOS）、多目标跟踪与分割（MOTS）等六个任务整合到一个统一的基准框架下，允许研究者在同一数据上使用一致的评估指标（如HOTA）进行比较，从而促进不同子社区间的知识迁移与方法融合。

实际应用

该数据集的实际应用场景广泛，尤其适用于自动驾驶、机器人导航和视频监控等需要实时、鲁棒的多目标感知系统。例如，在自动驾驶中，车辆需同时识别、分割并跟踪道路上的行人、车辆等动态物体，BURST涵盖的多样化驾驶场景（如ArgoVerse、BDD）和长尾类别（如罕见障碍物）可有效评估模型在复杂环境下的泛化能力。此外，在视频分析领域，BURST支持开放世界跟踪任务，允许模型检测并跟踪训练时未见的物体类别，这对于安防监控中的异常事件检测和智能视频编辑中的自动化对象操作具有重要实践意义。

衍生相关工作

BURST数据集衍生了一系列重要的相关工作，推动了视频感知领域的统一化进程。例如，基于BURST的基准，研究者提出了跨任务基线方法，如利用STCN（用于示例引导的掩码传播）改进类别引导跟踪中的时间关联精度，或使用Mask2Former等图像级检测器构建跟踪-检测基线。此外，开放世界跟踪方法（如OWTB）在BURST上得到了有效评估，其通过不惩罚假阳性来适应未知类别，为无限制场景下的物体感知提供了新范式。这些工作不仅验证了BURST作为统一基准的有效性，还启发了后续研究如何将示例引导与类别引导方法相互融合，从而提升多任务泛化性能。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集