UniBench300

Name: UniBench300
Creator: 江南大学
Published: 2025-08-14 21:54:04
License: 暂无描述

arXiv2025-08-14 更新2025-08-16 收录

下载链接：

https://github.com/Zhangyong-Tang/UniBench300

下载链接

链接失效反馈

官方服务：

资源简介：

UniBench300是一个多模态视觉目标跟踪（MMVOT）的统一基准数据集，由江南大学的研究团队创建。它包含300个视频序列，其中包括100个RGBT序列、100个RGBD序列和100个RGBE序列，总计368.1K帧。UniBench300旨在解决现有多模态跟踪数据集在训练和测试之间的不一致性，通过整合不同任务的数据，提供了一个更方便和高效的评估平台。

UniBench300 is a unified benchmark dataset for multimodal visual object tracking (MMVOT), developed by the research team at Jiangnan University. It encompasses 300 video sequences, including 100 RGBT sequences, 100 RGBD sequences, and 100 RGBE sequences, with a total of 368.1K frames. UniBench300 is designed to address the inconsistency between training and testing phases in existing multimodal tracking datasets, and provides a more convenient and efficient evaluation platform by integrating data across diverse tasks.

提供机构：

江南大学

创建时间：

2025-08-14

原始信息汇总

UniBench300数据集概述

数据集内容

包含RGBT、RGBD和RGBE三种数据类型
完整数据集因文件大小限制未在页面直接提供，仅展示部分样本

数据集获取

数据集下载链接：https://pan.baidu.com/s/1zpyymZvaSWj6T8OmeBFLPw (提取码：TZYD)

基准测试工具包

主文件：UniBench_Toolkit.zip
使用步骤：
1. 解压主文件后生成tracking_results目录
2. 将其他文件解压至该目录

实验结果

提供LasHeR、DepthTrack和VisEvent数据集上的原始/混合/CL-boosted版本结果文件(SymTrack*)

训练代码信息

阶段	初始化方式	使用数据	保存模型
1	Random	VisEvent	SymTrack-e.pth.tar
2	SymTrack-e.pth.tar	VisEvent, LasHeR	SymTrack-et.pth.tar
3	SymTrack-et.pth.tar	VisEvent, LasHeR, DepthTrack	SymTrack-etd.pth.tar

核心配置文件

提供基础训练配置文件：base-t.yaml

搜集汇总

数据集介绍

构建方式

UniBench300作为首个整合RGBT、RGBD和RGBE数据的统一基准测试集，其构建过程遵循严格的科学流程。研究团队从LasHeR、VisEvent、DepthTrack和RGBD1K等权威数据集中精选300段视频序列（各模态100段），通过性能排序筛选最具挑战性的样本，确保数据分布的平衡性与多样性。构建过程中采用多模态数据联合标注策略，利用交互式标注工具进行边界框与模态对齐校验，最终形成包含36.8万帧的高质量数据集。

使用方法

使用UniBench300需遵循其特有的持续学习评估框架。研究者需首先加载统一的JSON格式标注文件，通过内置数据加载器实现多模态流的同步解析。评估阶段支持两种模式：传统分离测试（各模态独立评估）与创新联合测试（端到端多任务评估）。关键指标包括精度率（PR）、标准化精度率（NPR）和成功率（SR），评估脚本自动生成跨模态性能对比矩阵。对于持续学习研究，数据集提供标准化的任务序列分割方案（RGBT→RGBD→RGBE），并包含遗忘度量模块以量化知识迁移效果。

背景与挑战

背景概述

UniBench300是由江南大学、南京理工大学和萨里大学的研究团队于2025年提出的首个多模态视觉目标跟踪统一基准数据集。该数据集整合了RGBT（可见光+热红外）、RGBD（RGB+深度）和RGBE（RGB+事件相机）三种模态的300个视频序列（各100个），共计36.8万帧数据，旨在解决现有多模态跟踪任务中训练与测试范式不一致的核心问题。其创新性体现在通过构建联合数据分布，将传统需要三次独立评估的流程缩减为单次推理，效率提升27%，为多模态跟踪系统的统一建模提供了标准化评估平台。该工作发表于ACM Multimedia 2025会议，标志着多模态视觉跟踪领域从分散评估向统一范式的重要转变。

当前挑战

UniBench300面临的挑战主要体现在两个方面：领域问题上，多模态跟踪需克服模态间特征分布差异（如热红外与事件数据的异构性）导致的性能退化，实验显示RGBT任务性能下降幅度（3.3%）显著高于RGBD（2.57%）和RGBE（1.2%）；数据构建上，需平衡模态间样本数量（各33.3%）以避免评估偏差，同时从LasHeR等原始数据集中筛选最具挑战性的序列（如选择跟踪难度最高的100个RGBT序列），这对数据清洗和标注一致性提出了极高要求。此外，网络容量与模态差异的负相关性（ViPT轻量架构性能下降比SymTrack高1.1%）也揭示了模型设计的新挑战。

常用场景

经典使用场景

UniBench300作为首个整合RGBT、RGBD与RGBE数据的统一基准，其经典应用场景聚焦于多模态视觉目标跟踪（MMVOT）领域。在复杂光照变化、三维感知需求或高速运动场景中，研究者通过该数据集可同时评估模型在可见光、热红外、深度及事件相机模态下的跨模态协同能力。例如，在夜间安防监控中，热红外（T）数据弥补了RGB模态的不足；而在自动驾驶场景中，深度（D）信息与事件流（E）的时序特性通过该数据集实现了统一验证。

解决学术问题

该数据集解决了多模态跟踪研究中训练与测试范式不一致的核心问题。传统方法需在LasHeR、DepthTrack等独立基准上分别评估，导致模型优化目标（联合分布全局最优）与测试环境（单任务局部最优）脱节。UniBench300通过构建包含300段平衡多模态序列的联合分布，将推理次数从三次降至一次，时间消耗减少27%，显著提升了评估效率。此外，其序列筛选策略（选择现有基准中挑战性最高的样本）推动了算法在跨模态差异、模态失效等极端场景下的鲁棒性研究。

实际应用

在实际应用中，UniBench300支持了多模态终端设备的算法部署优化。例如无人机搜救系统可借助该数据集训练单一模型，动态切换RGB-T（森林火场定位）、RGB-D（地形避障）和RGB-E（快速运动目标捕捉）模式，避免多模型切换的资源开销。工业检测领域则利用其跨模态标注数据，开发适应金属反光（RGB失效时启用T）、透明物体（依赖D）等特殊场景的通用跟踪方案，显著降低了硬件适配成本。

数据集最近研究