five

MOSE|视频对象分割数据集|复杂场景处理数据集

收藏
arXiv2023-02-04 更新2024-06-21 收录
视频对象分割
复杂场景处理
下载链接:
https://henghuiding.github.io/MOSE
下载链接
链接失效反馈
资源简介:
MOSE数据集是由南洋理工大学等机构创建,专注于复杂场景下的视频对象分割。该数据集包含2,149个视频片段,总计5,200个对象,覆盖36个类别,拥有431,725个高质量对象分割掩码。MOSE的显著特点是包含大量拥挤和遮挡对象,目标对象常被其他对象遮挡或在某些帧中消失。数据集的创建过程涉及从现有数据集继承视频和从现实世界场景新拍摄视频,确保包含多种遮挡场景、运动场景和对象消失-重现场景。MOSE数据集旨在推动更全面和鲁棒的视频对象分割算法的发展,特别是在处理复杂环境中的对象跟踪和分割问题。
提供机构:
南洋理工大学
创建时间:
2023-02-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
MOSE数据集的构建旨在解决复杂场景下的视频目标分割问题。该数据集的视频来源分为两部分:一部分继承自OVIS数据集,经过剪辑以适应视频目标分割任务;另一部分是全新拍摄的视频,涵盖现实生活中的常见场景。为了确保数据集的复杂性和多样性,视频收集过程中设定了多个规则,包括视频必须包含多个物体、存在遮挡、物体消失后重新出现、物体大小和类型多样以及物体运动充分。视频标注过程中,首先标注目标物体的第一帧掩码,然后使用交互式标注工具跟踪和标注后续帧中的目标物体分割掩码。为了确保标注质量,对标注结果进行了验证。
特点
MOSE数据集的特点在于其复杂场景,包括拥挤、遮挡和物体消失后重新出现等。与现有数据集相比,MOSE拥有最多的掩码标注和最长的视频时长,提供了更多样化的遮挡、运动和物体消失后重新出现的场景。此外,MOSE数据集中物体消失的频率最高,达到28.8%,这反映了数据集中消失和遮挡的频繁和严重程度。
使用方法
MOSE数据集的使用方法包括四个不同的视频目标分割设置:使用掩码初始化的半监督VOS、使用边界框初始化的半监督VOS、无监督VOS和交互式VOS。在实验中,研究人员重新训练和评估了现有VOS方法在MOSE数据集上的性能。为了确保公平性,MOSE数据集的格式与YouTube-VOS保持一致,并且遵循了YouTube-VOS的训练设置。在评估过程中,研究人员使用了与先前方法相同的图像预训练模型,但没有使用任何其他视频数据集进行预训练。
背景与挑战
背景概述
视频目标分割(VOS)是计算机视觉领域的一项基本且具有挑战性的任务,其目标是在整个视频序列中分割出特定的目标对象。现有的VOS方法在公开数据集上已经取得了优异的性能,但这些数据集中的目标对象通常相对突出、占据主导地位且孤立。为了使VOS方法更适用于现实世界,Henghui Ding等人收集了一个新的VOS数据集,称为复杂视频目标分割(MOSE),用于研究在复杂环境中跟踪和分割对象。MOSE包含2,149个视频片段和5,200个对象,这些对象来自36个类别,并带有431,725个高质量的对象分割掩码。MOSE数据集最显著的特点是复杂场景,其中包括拥挤和遮挡的对象。目标对象在视频中通常被其他对象遮挡,并在某些帧中消失。为了分析所提出的MOSE数据集,研究人员在MOSE数据集上对18种现有的VOS方法进行了基准测试,并进行了全面的比较。实验结果表明,当前的VOS算法在复杂场景中无法很好地感知对象。例如,在半监督VOS设置下,现有的最先进的VOS方法在MOSE上的最高 & 只有59.4%,远低于它们在DAVIS上的∼90% & 的性能。这些结果表明,尽管在现有基准测试中取得了卓越的性能,但在复杂场景下仍存在未解决的挑战,未来需要更多的努力来探索这些挑战。
当前挑战
MOSE数据集相关的挑战包括:1)所解决的领域问题的挑战:MOSE数据集旨在解决在复杂场景下进行视频目标分割的挑战,其中目标对象经常被其他对象遮挡,并在某些帧中消失。2)构建过程中所遇到的挑战:MOSE数据集的构建过程中遇到了一些挑战,例如如何确保数据集的多样性、复杂性和实用性,以及如何确保标注的质量和准确性。为了应对这些挑战,研究人员采取了多种措施,例如从OVIS数据集中继承视频,并从真实场景中捕获新视频,以确保数据集的多样性;通过制定规则来确保视频包含拥挤和遮挡的对象,以及物体消失和重新出现的场景;开发交互式标注工具来辅助标注,并确保所有视频至少每五帧进行标注。
常用场景
经典使用场景
MOSE数据集主要用于视频对象分割(VOS)的研究,特别是在复杂场景下的VOS任务。该数据集包含了2,149个视频片段,其中包含5,200个对象,这些对象来自36个类别,并提供了431,725个高质量的对象分割掩膜。MOSE数据集的独特之处在于其复杂场景,其中目标对象经常被其他对象遮挡,并且在某些帧中消失。这种数据集对于评估和改进现有的VOS算法在现实世界中的应用具有重要意义。
衍生相关工作
MOSE数据集的发布促进了VOS研究在复杂场景下的进展,并衍生了一系列相关研究工作。例如,一些研究工作集中在开发更强大的关联/再识别算法,以跟踪在复杂场景下消失和重新出现的对象。其他研究工作则专注于研究遮挡视频理解,以帮助VOS算法更好地处理遮挡场景。此外,还有一些研究工作专注于小尺寸和不显眼的物体的跟踪和分割,以及人群中的跟踪和分割对象。这些研究工作为VOS研究在复杂场景下的进一步发展提供了重要的基础。
数据集最近研究
最新研究方向
视频对象分割(VOS)在复杂场景中的应用研究
相关研究论文
  • 1
    MOSE: A New Dataset for Video Object Segmentation in Complex Scenes南洋理工大学 · 2023年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录