five

MSVCOD|视频伪装对象检测数据集|计算机视觉数据集

收藏
arXiv2025-02-20 更新2025-02-25 收录
视频伪装对象检测
计算机视觉
下载链接:
http://arxiv.org/abs/2502.13859v1
下载链接
链接失效反馈
资源简介:
MSVCOD是一个大规模的多场景视频伪装对象检测数据集,由复旦大学构建。该数据集包含162个视频片段,共计9486帧,涵盖了人类、动物、医疗和车辆四大类对象,以及水生、田野、医疗、艺术、丛林、沙漠和雪地七种场景。数据集通过半自动化的迭代标注流程确保高质量标注,是迄今为止最大的视频伪装对象检测数据集。
提供机构:
复旦大学, 上海, 中国
创建时间:
2025-02-20
AI搜集汇总
数据集介绍
main_image_url
构建方式
MSVCOD数据集的构建旨在突破现有视频伪装物体检测数据集的局限,扩大研究范围并提升模型泛化能力。数据集涵盖了人类、动物、医疗和车辆四种类型的物体,并跨越了水下、陆地、沙漠、丛林、雪地、医疗和人工环境等七种场景。为了实现高质量的标注,研究团队设计了一种半自动迭代标注流程,通过利用半监督视频对象分割算法生成伪标签,并辅以人工修正,确保了标注的准确性和效率。最终,MSVCOD数据集包含了162个视频片段和9486个帧,为视频伪装物体检测研究提供了宝贵的资源。
特点
MSVCOD数据集具有以下特点:首先,它涵盖了多种物体类别和场景,突破了以往数据集仅限于动物场景的局限;其次,数据集提供了丰富的标注信息,包括边界框、掩码、实例和类别级别,为研究提供了详尽的参考;最后,数据集的规模庞大,提供了足够的样本用于模型训练和评估,有助于提升模型的泛化能力。
使用方法
MSVCOD数据集的使用方法包括:首先,研究者可以下载并使用该数据集进行视频伪装物体检测模型的训练和评估;其次,数据集提供的丰富标注信息可以用于模型性能的分析和比较;最后,研究者可以利用数据集中的不同场景和物体类别进行模型泛化能力的测试,以提高模型在实际应用中的表现。
背景与挑战
背景概述
视频伪装目标检测(VCOD)是一项具有挑战性的任务,旨在识别在视频背景中无缝隐藏的目标。动态的视频特性使得通过运动线索或不同视角来检测伪装目标成为可能。之前的VCOD数据集主要包含动物对象,将研究范围限制在野生动物场景中。然而,VCOD的应用已扩展到野生动物之外,并在安全、艺术和医疗领域具有重要意义。针对这一问题,我们构建了一个新的、大规模的多领域VCOD数据集MSVCOD。为了实现高质量的注释,我们设计了一个半自动的迭代注释流程,在保持注释准确性的同时减少了成本。我们的MSVCOD是目前最大的VCOD数据集,首次引入了包括人类、动物、医疗和车辆对象在内的多个对象类别,同时还扩展了各种环境下的背景多样性。这一扩展范围增加了VCOD任务在伪装目标检测中的实际应用性。除了这个数据集,我们还介绍了一个单流的视频伪装目标检测模型,该模型在没有额外的运动特征融合模块的情况下,同时进行特征提取和信息融合。我们的框架在现有的VCOD动物数据集和提出的MSVCOD上取得了最先进的成果。数据集和代码将公开发布。
当前挑战
尽管视频可以有效地揭示伪装,但由于视频伪装数据有限以及手动标注耗时费力,VCOD数据集相对较少。此外,现有的VCOD数据集主要关注动物场景,忽略了人类社会中的多种伪装模式。这一局限性限制了VCOD的更广泛适用性,尤其是在医疗、安全、搜救和艺术等领域。缺乏多样化的数据集导致研究人员没有足够的数据来在基准数据集上训练和测试模型。为了提高模型在场景和对象之间的泛化能力,现有的VCOD模型[25, 53]通常在静态图像数据集[9]上进行预训练。为了解决这一差距,我们构建了一个新颖的、大规模的多场景VCOD基准数据集。它包括162个视频剪辑,跨越四个对象类别(人类、动物、医疗和车辆)和七个场景(水生、田野、医疗、艺术、丛林、沙漠、雪地)。我们的数据集每秒提供6帧地面真实掩码注释,总计9,486帧注释,使其成为迄今为止最大的VCOD数据集。表1和图4显示了我们的数据集的特征。一些基于静态图像的方法首先定位,然后细化[9, 10, 12],有时结合多任务[16, 32, 51]来检测静态图像中的伪装对象。其他模型[24, 36, 46]通过结合简单的图像或特征放大来获得显著的性能提升。然而,这些模型只关注静态图像,无法利用视频中的运动信息。为了解决这个问题,一些模型[25, 53]明确地将光流信息集成到伪装目标检测中,从邻近的视频显著目标检测领域[13, 22, 26]中汲取灵感。SLT-Net[2]分别从连续的帧中提取图像特征,然后融合短期和长期特征来检测伪装对象。上述所有VCOD模型都遵循双流架构,其中特征提取和信息融合是分开进行的。这种方法计算量大,往往由于难以自适应地提取可利用的特征而导致性能较差。相比之下,受视频目标跟踪和视频目标分割[4, 17]的启发,并结合MSVCOD,我们提出了一个单流的VCOD模型。该模型同时提取图像特征和运动信息,消除了将光流作为输入的需要。在解码层,我们设计了一个简单、全连接的UNet-like解码器,依赖于线性适配层,没有任何不必要的复杂性,实现了最先进的性能。我们的主要贡献如下:•我们设计了一个半自动的迭代注释流程,并构建了一个新颖的、大规模的多场景视频伪装目标检测数据集MSVCOD。该数据集由162个剪辑和9,486帧组成,涵盖7个场景和4个主要类别,首次引入了广泛的非野生动物目标。它提供了框、掩码、实例和类别级别的注释。•我们开发了一个简单的、单流的伪装目标检测模型,配备了全连接的UNet-like解码器,能够同时提取图像特征和融合运动特征•广泛的实验表明,我们提出的数据集提高了模型性能,并提高了多个场景的泛化能力。此外,许多实验表明,我们的模型显著优于之前的VCOD模型。
常用场景
经典使用场景
MSVCOD数据集是一个大规模的多场景视频伪装目标检测数据集,包含162个视频片段和9486帧图像,涵盖7种场景和4种对象类别(人类、动物、医疗和车辆)。该数据集适用于视频伪装目标检测任务,可以用于训练和评估各种视频伪装目标检测模型,例如SINet、SINet-V2、ZoomNet、DGNet、FSPNet、FEDER、HitNet、RCRNet、PNS-Net、MG、SLT-Net、SLT-Net-Long、IMEX、TSP-SAM-Point和TSP-SAM-Bbox等。这些模型可以同时提取图像特征和运动信息,有效地检测和分割视频中的伪装目标。
解决学术问题
MSVCOD数据集的提出解决了现有视频伪装目标检测数据集场景单一、对象类别有限的问题。该数据集涵盖了多种场景和对象类别,可以用于训练和评估更加鲁棒的模型,提高视频伪装目标检测的性能和泛化能力。此外,该数据集还可以用于研究视频伪装目标检测的算法和模型,推动该领域的发展。
衍生相关工作
MSVCOD数据集的提出促进了视频伪装目标检测领域的研究和发展。基于该数据集,研究人员提出了许多新的视频伪装目标检测模型,例如SINet、SINet-V2、ZoomNet、DGNet、FSPNet、FEDER、HitNet、RCRNet、PNS-Net、MG、SLT-Net、SLT-Net-Long、IMEX、TSP-SAM-Point和TSP-SAM-Bbox等。这些模型在视频伪装目标检测任务中取得了优异的性能,推动了该领域的发展。此外,MSVCOD数据集还可以用于其他相关领域的研究,例如视频目标分割、视频目标跟踪等。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录