UVT-VOD2024
收藏arXiv2024-10-16 更新2024-10-18 收录
下载链接:
http://arxiv.org/abs/2410.12143v1
下载链接
链接失效反馈资源简介:
UVT-VOD2024是由中国人工智能协会创建的一个用于未对齐RGBT视频对象检测的大型数据集。该数据集包含174个视频,总计30,494对未对齐的RGBT图像,这些图像直接从多光谱相机中捕获。数据集的创建过程包括数据收集、清洗、标注和验证,旨在真实反映多光谱传感器的捕获数据。UVT-VOD2024主要应用于视频对象检测领域,旨在解决现有方法在处理未对齐RGBT图像时的局限性,提升检测的鲁棒性和效率。
UVT-VOD2024 is a large-scale dataset developed by the Chinese Association for Artificial Intelligence for unaligned RGBT video object detection. This dataset comprises 174 videos, with a total of 30,494 pairs of unaligned RGBT images directly captured by multispectral cameras. The dataset creation pipeline encompasses data collection, cleaning, annotation and validation, aiming to faithfully represent the raw data captured by multispectral sensors. UVT-VOD2024 is primarily utilized in the field of video object detection, with the goal of addressing the limitations of existing state-of-the-art methods when processing unaligned RGBT images and improving the robustness and efficiency of object detection.
提供机构:
中国人工智能协会
创建时间:
2024-10-16
搜集汇总
数据集介绍

构建方式
UVT-VOD2024数据集的构建基于Hikvision的RGBT多光谱手持相机,历时十个月,涵盖多种真实场景。该数据集包含174个原始视频,共计30,494对未对齐的RGBT图像,未经过任何对齐处理,真实反映了多光谱传感器采集的数据特性。数据采集过程中,采用了动态拍摄方式,包括移动和静止物体,场景涵盖校园、农村和城镇道路等。数据清洗后,使用LabelImg工具进行标注,提供VOC和COCO两种格式的标注文件,确保与大多数检测模型的输入要求兼容。
特点
UVT-VOD2024数据集的主要特点在于其未对齐的RGBT图像对,这使得该数据集在实际应用中具有更高的代表性和挑战性。数据集包含11个常见的生活场景类别,每个类别拥有足够的实例数量,便于网络全面学习其特征。此外,数据集的标注质量和多样性确保了其在评估和分析检测模型时的可靠性和广泛适用性。
使用方法
UVT-VOD2024数据集适用于评估和开发针对未对齐RGBT图像的目标检测算法。研究人员可以通过该数据集测试其模型的鲁棒性和适应性,特别是在处理多光谱图像对齐问题时的表现。数据集提供了详细的标注信息和多种格式的标注文件,便于不同检测模型的输入和评估。此外,数据集的公开访问确保了研究的透明性和可重复性,促进了该领域的进一步发展。
背景与挑战
背景概述
随着多光谱传感器技术的进步,RGB-Thermal视频目标检测(RGBT VOD)已成为提升检测鲁棒性的重要手段,特别是在复杂光照条件下。然而,现有的RGBT VOD方法依赖于图像级别的手动对齐,这在实际应用中由于视场和分辨率的差异而受到限制。为了解决这一问题,Qishun Wang等人提出了一种多模态动态局部融合网络(MDLNet),并构建了一个名为UVT-VOD2024的数据集。该数据集包含30,494对未对齐的RGBT图像,直接从多光谱相机中捕获,旨在为未对齐的RGBT VOD提供一个全面的评估基准。
当前挑战
UVT-VOD2024数据集面临的挑战主要集中在两个方面:一是解决多模态图像在视场和分辨率上的未对齐问题,这需要开发新的融合方法以有效利用局部区域信息;二是构建过程中遇到的实际数据采集和标注问题,包括多光谱传感器捕获图像时的动态变化和手动标注的复杂性。此外,该数据集还需要应对在不同对齐程度下模型的适应性和鲁棒性问题,确保在各种实际场景中的有效应用。
常用场景
经典使用场景
在多模态视频目标检测领域,UVT-VOD2024数据集被广泛用于评估和优化处理未对齐RGBT图像对的方法。该数据集通过提供30,494对未对齐的RGBT图像,为研究人员提供了一个真实的测试平台,以验证其算法在处理不同视场和分辨率差异时的鲁棒性。通过使用UVT-VOD2024,研究人员可以开发和测试新的多模态动态局部融合网络(MDLNet),该网络能够有效处理未对齐的RGBT图像对,从而在实际应用中提升目标检测的准确性和效率。
实际应用
UVT-VOD2024数据集在实际应用中具有广泛的前景,特别是在需要多模态数据融合的场景中,如夜间监控、自动驾驶和复杂环境下的目标识别。通过提供未对齐的RGBT图像对,该数据集帮助开发出能够在不同光照条件和分辨率差异下工作的算法,从而提高系统的适应性和可靠性。例如,在夜间监控中,热成像数据可以弥补可见光图像的不足,而UVT-VOD2024则为开发能够有效融合这两种数据的算法提供了宝贵的资源。
衍生相关工作
基于UVT-VOD2024数据集,研究人员开发了多种多模态动态局部融合网络(MDLNet)及其变体,这些工作在视频目标检测领域取得了显著进展。例如,MDLNet通过引入多模态动态局部融合模块(MDLF)和级联时间扰码器(CTS),显著提升了未对齐RGBT图像对的目标检测性能。此外,该数据集还促进了其他相关研究,如多模态数据增强技术和跨模态特征对齐方法,进一步推动了多模态数据处理技术的发展和应用。
以上内容由遇见数据集搜集并总结生成



