UTV, SUTV

Name: UTV, SUTV
Creator: 香港科技大学, 代尔夫特理工大学, 三一学院都柏林
Published: 2025-03-17 13:18:20
License: 暂无描述

arXiv2025-03-17 更新2025-03-19 收录

下载链接：

http://arxiv.org/abs/2503.12828v1

下载链接

链接失效反馈

官方服务：

资源简介：

UTV数据集由香港科技大学等机构收集和注释，包含2000个视频文本对，提供了全面的注释，涵盖了外观、纹理、相机参数等细节。SUTV数据集是一个合成的海洋视频数据集，包含10000个带有像素级对象标注的视频，用于提高水下下游任务的性能。

The UTV Dataset was collected and annotated by The Hong Kong University of Science and Technology and other institutions. It contains 2000 video-text pairs and provides comprehensive annotations covering details such as appearance, texture, camera parameters and more. The SUTV Dataset is a synthetic marine video dataset that includes 10,000 videos with pixel-level object annotations, which is used to improve the performance of downstream underwater tasks.

提供机构：

香港科技大学, 代尔夫特理工大学, 三一学院都柏林

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

UTV和SUTV数据集的构建基于AUTV框架，该框架结合了文本到视频（T2V）生成技术和对象分割技术。UTV是一个真实世界的数据集，包含2000个视频-文本对，每个视频都经过精细的标注，涵盖了海洋生物的外观、纹理、光照、行为等多个属性。SUTV则是一个合成数据集，包含10000个带有像素级对象分割掩码的视频，通过水下图像实例分割数据集生成文本提示，并利用AUTV框架生成视频和对应的对象掩码。

使用方法

UTV和SUTV数据集可用于多种水下计算机视觉任务。UTV数据集可用于训练和微调文本到视频生成模型，特别适用于海洋领域的视频生成任务。SUTV数据集则可用于视频修复和视频对象分割等下游任务，通过其丰富的合成视频和对象掩码，能够显著提升模型的性能。此外，SUTV还可用于自监督学习，通过合成标签提升视频对象分割模型的准确性。

背景与挑战

背景概述

UTV和SUTV数据集由香港科技大学、迪肯大学和都柏林圣三一学院的研究团队于2025年提出，旨在解决水下视频分析中的关键问题。UTV是一个包含2000个视频-文本对的真实世界数据集，提供了丰富的注释信息，涵盖外观、纹理、相机参数、光照和动物行为等。SUTV则是一个包含10000个视频的合成数据集，带有像素级的分割掩码。这些数据集的创建旨在推动水下计算机视觉研究，特别是在视频修复和视频对象分割等下游任务中的应用。通过结合文本到视频（T2V）和对象分割技术，AUTV框架能够从文本描述生成高质量的水下视频，并自动生成像素级注释，为海洋生物学研究提供了重要支持。

当前挑战

UTV和SUTV数据集的构建面临多重挑战。首先，水下环境的动态性和相机运动使得视频生成过程中难以保持时间一致性，导致生成的视频帧与对象掩码之间的对齐问题。其次，现有的训练自由视频生成技术在帧间运动动态学习上表现不佳，容易产生运动中断和错位现象。此外，合成视频的质量控制也是一个难题，特别是在去除频繁的抖动相机运动和确保视频美学质量方面。这些挑战需要通过精细的模型调优和过滤步骤来解决，以确保生成的数据集能够有效支持下游任务的研究和应用。

常用场景

经典使用场景

UTV和SUTV数据集在计算机视觉领域，尤其是水下视频分析中，具有广泛的应用。UTV数据集包含2000个真实水下视频-文本对，提供了丰富的标注信息，如物体外观、纹理、光照和动物行为等。SUTV数据集则通过AUTV框架生成了10000个带有像素级标注的合成水下视频。这些数据集常用于训练和评估水下视频生成、视频修复和视频对象分割等任务，特别是在动态海洋环境中，能够有效提升模型的鲁棒性和准确性。

解决学术问题

UTV和SUTV数据集解决了水下计算机视觉研究中的多个关键问题。首先，它们填补了水下视频数据集的空白，提供了高质量的标注数据，支持水下物体识别、行为分析和环境评估等任务。其次，通过AUTV框架生成的合成数据，解决了真实数据获取困难的问题，特别是在动态海洋环境中，能够生成具有高保真度和时间一致性的视频内容。这些数据集为水下视频生成、修复和分割等任务提供了强有力的数据支持，推动了相关领域的研究进展。

实际应用

UTV和SUTV数据集在实际应用中具有重要价值。例如，在海洋生物学研究中，这些数据集可用于海洋物种识别、栖息地评估和行为分析。在海洋工程领域，它们支持水下机器人视觉系统的开发，提升其在复杂环境中的感知能力。此外，这些数据集还可用于水下视频修复，帮助恢复因光照不足或水质浑浊而受损的视频内容，为海洋资源管理和环境保护提供技术支持。

数据集最近研究