LVOS

Name: LVOS
Creator: 复旦大学
Published: 2023-08-18 20:35:59
License: 暂无描述

arXiv2023-08-18 更新2024-06-21 收录

下载链接：

https://lingyihongfd.github.io/lvos.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

LVOS数据集是复旦大学创建的，专注于长期视频对象分割的基准数据集。该数据集包含220个视频，总时长421分钟，平均每个视频时长1.59分钟，远超现有短期视频数据集。LVOS数据集通过半自动标注流程，实现了所有帧的高质量密集标注，包含27个类别，其中7个为未见类别，以评估模型的泛化能力。该数据集旨在解决长期视频中对象频繁出现和消失的问题，以及跨时间相似对象的混淆问题，为视频理解和编辑、增强现实等应用提供支持。

The LVOS dataset is a benchmark dedicated to long-term video object segmentation, created by Fudan University. It contains 220 videos with a total duration of 421 minutes, averaging 1.59 minutes per video, which far exceeds the scale of existing short-term video datasets. All frames in the dataset are annotated with high-quality dense labels via a semi-automatic annotation pipeline, covering 27 categories in total, among which 7 are unseen categories for evaluating the generalization ability of models. This dataset aims to tackle the issues of frequent appearance and disappearance of objects in long-term videos, as well as the confusion of similar objects across time, providing support for applications such as video understanding and editing, augmented reality, and other relevant fields.

提供机构：

复旦大学

创建时间：

2022-11-18

搜集汇总

数据集介绍

构建方式

LVOS 数据集的构建遵循了四个原则：长期性、大规模、密集且高质量标注以及全面标注。首先，LVOS 包含的视频平均时长为 1.14 分钟，远超现有数据集中 3-10 秒的平均时长，更贴近实际应用场景。其次，LVOS 包含 297K 帧和 407K 个高质量标注对象，规模远超现有数据集。为了高效标注，LVOS 开发了半自动标注流程，包括自动分割、手动校正、掩码传播和手动校正四个步骤。最后，LVOS 包含 5 个父类和 44 个子类，涵盖日常生活场景，并提供 12 个未见类别用于评估模型的泛化能力。

特点

LVOS 数据集的特点在于其长期性、大规模、密集且高质量标注以及全面标注。首先，LVOS 的视频平均时长为 1.14 分钟，远超现有数据集，更能反映实际应用场景的复杂性。其次，LVOS 包含 297K 帧和 407K 个高质量标注对象，规模远超现有数据集，为模型训练和评估提供充足的数据。此外，LVOS 的标注密度高，每个视频每秒 6 帧，确保了标注的准确性。最后，LVOS 包含 5 个父类和 44 个子类，涵盖日常生活场景，并提供 12 个未见类别用于评估模型的泛化能力，为模型训练和评估提供更全面的数据。

使用方法

LVOS 数据集的使用方法主要包括数据集下载、模型训练和评估。首先，用户可以从 LVOS 官方网站下载数据集，并按照数据集说明进行解压和准备。其次，用户可以使用 LVOS 数据集进行模型训练，并根据数据集提供的评估指标进行模型性能评估。LVOS 数据集支持多种视频对象分割任务，包括半监督视频对象分割、无监督单目标视频对象分割、无监督多目标视频对象分割和交互式视频对象分割，方便用户进行不同场景下的模型评估。此外，LVOS 数据集还提供了丰富的属性标注，方便用户进行基于属性的模型评估和分析。

背景与挑战

背景概述

视频目标分割（Video Object Segmentation，VOS）旨在视频中识别和跟踪目标对象。尽管现有的VOS模型在短时视频上取得了优异的性能，但现有的VOS基准数据集主要关注时长约为5秒的短时视频，其中对象大部分时间都是可见的。然而，这些基准数据集并不能很好地代表实际应用场景，长期数据集的缺失限制了VOS在现实场景中的进一步研究。为了解决这个问题，Lingyi Hong等人于2020年提出了一个新的基准数据集LVOS，包含720个视频，296,401帧和407,945个高质量注释。LVOS视频平均时长为1.14分钟，比现有数据集中的视频长5倍左右。每个视频都包含各种属性，尤其是来自野外的挑战，例如长期重新出现和跨时间相似对象。与之前的基准数据集相比，我们的LVOS更好地反映了VOS模型在现实场景中的性能。

当前挑战

LVOS数据集的提出为VOS研究带来了新的挑战，主要体现在以下几个方面：1) 现有的VOS模型主要针对短时场景，在处理长期视频时存在性能下降的问题，主要体现在对象消失和重新出现时的跟踪准确性下降，以及时间累积误差的增加；2) 构建长期数据集需要解决标注工作量大的问题，LVOS数据集采用半自动标注流程，提高了标注效率，但仍需要进一步探索降低标注依赖性的方法；3) 长期视频场景的复杂性对模型的空间-时间关联能力提出了更高的要求，需要开发更强的时空关联机制来处理长期视频中的运动、遮挡、变形等挑战；4) 长期视频对内存的需求更大，需要进一步探索内存管理方法，以适应边缘设备等计算资源受限的场景。

常用场景

经典使用场景

LVOS 数据集被广泛用于视频目标分割（VOS）任务的评估和模型训练。其包含的长期视频和丰富的挑战属性，使其成为评估模型在现实场景中性能的理想选择。LVOS 数据集常用于以下场景：评估现有 VOS 模型在长期视频中的性能；研究影响 VOS 模型性能的因素；探索提高 VOS 模型在长期视频任务中准确性的方法。

解决学术问题

LVOS 数据集解决了现有 VOS 基准数据集主要针对短期视频的局限性，无法有效评估模型在现实场景中的性能。LVOS 数据集的长期视频和丰富的挑战属性，使其能够更好地反映现实场景中的复杂性，并为 VOS 模型的训练和评估提供更可靠的基准。

衍生相关工作

LVOS 数据集的提出，推动了长期视频目标分割领域的研究。基于 LVOS 数据集，研究人员探索了各种提高 VOS 模型在长期视频任务中准确性的方法，例如：利用长期依赖关系、动态场景适应、处理遮挡或消失的对象、加强时空关联、内存管理等。这些研究成果为长期视频目标分割领域的发展提供了重要的理论和实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集