five

MOSE|视频对象分割数据集|复杂场景处理数据集

收藏
arXiv2023-02-04 更新2024-06-21 收录
视频对象分割
复杂场景处理
下载链接:
https://henghuiding.github.io/MOSE
下载链接
链接失效反馈
资源简介:
MOSE数据集是由南洋理工大学等机构创建,专注于复杂场景下的视频对象分割。该数据集包含2,149个视频片段,总计5,200个对象,覆盖36个类别,拥有431,725个高质量对象分割掩码。MOSE的显著特点是包含大量拥挤和遮挡对象,目标对象常被其他对象遮挡或在某些帧中消失。数据集的创建过程涉及从现有数据集继承视频和从现实世界场景新拍摄视频,确保包含多种遮挡场景、运动场景和对象消失-重现场景。MOSE数据集旨在推动更全面和鲁棒的视频对象分割算法的发展,特别是在处理复杂环境中的对象跟踪和分割问题。
提供机构:
南洋理工大学
创建时间:
2023-02-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
MOSE数据集的构建旨在解决复杂场景下的视频目标分割问题。该数据集的视频来源分为两部分:一部分继承自OVIS数据集,经过剪辑以适应视频目标分割任务;另一部分是全新拍摄的视频,涵盖现实生活中的常见场景。为了确保数据集的复杂性和多样性,视频收集过程中设定了多个规则,包括视频必须包含多个物体、存在遮挡、物体消失后重新出现、物体大小和类型多样以及物体运动充分。视频标注过程中,首先标注目标物体的第一帧掩码,然后使用交互式标注工具跟踪和标注后续帧中的目标物体分割掩码。为了确保标注质量,对标注结果进行了验证。
特点
MOSE数据集的特点在于其复杂场景,包括拥挤、遮挡和物体消失后重新出现等。与现有数据集相比,MOSE拥有最多的掩码标注和最长的视频时长,提供了更多样化的遮挡、运动和物体消失后重新出现的场景。此外,MOSE数据集中物体消失的频率最高,达到28.8%,这反映了数据集中消失和遮挡的频繁和严重程度。
使用方法
MOSE数据集的使用方法包括四个不同的视频目标分割设置:使用掩码初始化的半监督VOS、使用边界框初始化的半监督VOS、无监督VOS和交互式VOS。在实验中,研究人员重新训练和评估了现有VOS方法在MOSE数据集上的性能。为了确保公平性,MOSE数据集的格式与YouTube-VOS保持一致,并且遵循了YouTube-VOS的训练设置。在评估过程中,研究人员使用了与先前方法相同的图像预训练模型,但没有使用任何其他视频数据集进行预训练。
背景与挑战
背景概述
视频目标分割(VOS)是计算机视觉领域的一项基本且具有挑战性的任务,其目标是在整个视频序列中分割出特定的目标对象。现有的VOS方法在公开数据集上已经取得了优异的性能,但这些数据集中的目标对象通常相对突出、占据主导地位且孤立。为了使VOS方法更适用于现实世界,Henghui Ding等人收集了一个新的VOS数据集,称为复杂视频目标分割(MOSE),用于研究在复杂环境中跟踪和分割对象。MOSE包含2,149个视频片段和5,200个对象,这些对象来自36个类别,并带有431,725个高质量的对象分割掩码。MOSE数据集最显著的特点是复杂场景,其中包括拥挤和遮挡的对象。目标对象在视频中通常被其他对象遮挡,并在某些帧中消失。为了分析所提出的MOSE数据集,研究人员在MOSE数据集上对18种现有的VOS方法进行了基准测试,并进行了全面的比较。实验结果表明,当前的VOS算法在复杂场景中无法很好地感知对象。例如,在半监督VOS设置下,现有的最先进的VOS方法在MOSE上的最高 & 只有59.4%,远低于它们在DAVIS上的∼90% & 的性能。这些结果表明,尽管在现有基准测试中取得了卓越的性能,但在复杂场景下仍存在未解决的挑战,未来需要更多的努力来探索这些挑战。
当前挑战
MOSE数据集相关的挑战包括:1)所解决的领域问题的挑战:MOSE数据集旨在解决在复杂场景下进行视频目标分割的挑战,其中目标对象经常被其他对象遮挡,并在某些帧中消失。2)构建过程中所遇到的挑战:MOSE数据集的构建过程中遇到了一些挑战,例如如何确保数据集的多样性、复杂性和实用性,以及如何确保标注的质量和准确性。为了应对这些挑战,研究人员采取了多种措施,例如从OVIS数据集中继承视频,并从真实场景中捕获新视频,以确保数据集的多样性;通过制定规则来确保视频包含拥挤和遮挡的对象,以及物体消失和重新出现的场景;开发交互式标注工具来辅助标注,并确保所有视频至少每五帧进行标注。
常用场景
经典使用场景
MOSE数据集主要用于视频对象分割(VOS)的研究,特别是在复杂场景下的VOS任务。该数据集包含了2,149个视频片段,其中包含5,200个对象,这些对象来自36个类别,并提供了431,725个高质量的对象分割掩膜。MOSE数据集的独特之处在于其复杂场景,其中目标对象经常被其他对象遮挡,并且在某些帧中消失。这种数据集对于评估和改进现有的VOS算法在现实世界中的应用具有重要意义。
衍生相关工作
MOSE数据集的发布促进了VOS研究在复杂场景下的进展,并衍生了一系列相关研究工作。例如,一些研究工作集中在开发更强大的关联/再识别算法,以跟踪在复杂场景下消失和重新出现的对象。其他研究工作则专注于研究遮挡视频理解,以帮助VOS算法更好地处理遮挡场景。此外,还有一些研究工作专注于小尺寸和不显眼的物体的跟踪和分割,以及人群中的跟踪和分割对象。这些研究工作为VOS研究在复杂场景下的进一步发展提供了重要的基础。
数据集最近研究
最新研究方向
视频对象分割(VOS)在复杂场景中的应用研究
相关研究论文
  • 1
    MOSE: A New Dataset for Video Object Segmentation in Complex Scenes南洋理工大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

ERIC (Education Resources Information Center)

ERIC (Education Resources Information Center) 是一个广泛的教育文献数据库,包含超过130万条记录,涵盖从1966年至今的教育研究、政策和实践。数据集内容包括教育相关的期刊文章、书籍、研究报告、会议论文、技术报告、政策文件等。

eric.ed.gov 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录