DRSet

Name: DRSet
Creator: 华中科技大学; 中南民族大学
Published: 2026-02-04 23:56:16
License: 暂无描述

arXiv2026-02-04 更新2026-02-07 收录

下载链接：

https://github.com/chen-si-jia/DRMOT

下载链接

链接失效反馈

官方服务：

资源简介：

DRSet是由华中科技大学和中南民族大学联合构建的RGB-D指代多目标跟踪数据集，包含187个场景的同步RGB图像与深度图，以及240条语言描述（含56条深度相关描述）。该数据集通过系统化标注流程整合静态属性与动态行为特征，旨在解决传统RGB指代跟踪中因缺乏显式3D空间信息导致的语义歧义问题。其多模态特性支持机器人交互、自动驾驶等需融合视觉-语言-几何信息的应用场景，为3D感知的指代跟踪研究提供基准评估平台。

DRSet is an RGB-D referring multi-object tracking dataset jointly constructed by Huazhong University of Science and Technology and South-Central Minzu University. It contains synchronized RGB images and depth maps across 187 scenes, as well as 240 linguistic descriptions, including 56 depth-related ones. This dataset integrates static attributes and dynamic behavioral features through a systematic annotation pipeline, aiming to address the semantic ambiguity issue in traditional RGB referring tracking caused by the lack of explicit 3D spatial information. Its multimodal characteristics support application scenarios that require fusion of visual, linguistic and geometric information, such as robot interaction and autonomous driving, providing a benchmark evaluation platform for referring tracking research in 3D perception.

提供机构：

华中科技大学; 中南民族大学

创建时间：

2026-02-04

原始信息汇总

DRMOT数据集概述

数据集基本信息

数据集名称：DRMOT (RGBD Referring Multi-Object Tracking)
核心内容：一个用于RGBD参考多目标跟踪的数据集和框架
关联项目：与CRMOT项目类似（https://github.com/chen-si-jia/CRMOT）

数据集特点与目的

主要特点：整合RGB图像、语言描述和深度信息
解决的核心问题：解决仅依赖RGB图像和语言描述时，在深度相关空间描述下产生的歧义问题
技术优势：利用深度线索消除空间模糊性，实现准确的目标定位并保持时间身份一致性

数据与代码发布状态

发布计划：若论文被接受，将在一个月内完全开源DRSet数据集和DRTrack框架
开源内容：包括代码和模型权重

相关资源

论文地址：https://arxiv.org/pdf/2602.04692
示意图：展示了RMOT与DRMOT的对比（图示内容见数据集页面）

搜集汇总

数据集介绍

构建方式

在RGBD指代多目标跟踪研究领域，DRSet数据集的构建遵循了系统化的多模态数据整合原则。该数据集以ARKitTrack为基础，精心选取了187个涵盖室内外、复杂天气及夜间场景的视频序列，并为其同步采集了高质量的RGB图像与深度图。构建过程中，研究团队设计了一套严谨的四步标注流程：首先创建涵盖静态属性与动态行为的属性表，随后依据属性筛选代表性跟踪目标，接着逐帧绘制边界框并撰写对应的自然语言描述，最后通过双人交叉审核机制确保标注的准确性与一致性。最终，数据集包含了240条语言描述，其中56条融入了深度相关信息，为模型的三维空间语义理解提供了扎实的数据基础。

使用方法

DRSet数据集主要用于训练与评估RGBD指代多目标跟踪模型。研究人员可利用其提供的成对RGB图像、深度图及对应的语言描述，开发能够联合理解视觉外观、三维几何与自然语言语义的算法。典型的使用流程包括：将多模态数据输入模型，要求模型根据语言查询在视频序列中持续定位并关联特定目标。数据集的官方划分包含141个训练视频和99个测试视频，确保了场景的独立性。评估时，通常采用高阶跟踪精度等指标，全面衡量模型在检测、关联与定位方面的性能，从而推动三维感知交互系统的技术进步。

背景与挑战

背景概述

在交互式人工智能系统，如机器人学和自动驾驶领域，基于语言描述追踪特定目标的指代多目标跟踪技术至关重要。然而，现有的指代多目标跟踪模型仅依赖二维RGB数据，在缺乏显式三维空间信息的情况下，难以准确检测和关联具有复杂空间语义的目标，并在严重遮挡下维持可靠的身份一致性。为此，华中科技大学与中南民族大学的研究团队于2026年提出了RGBD指代多目标跟踪这一新任务，并同步构建了专用数据集DRSet。该数据集包含187个场景的RGB图像与深度图，以及240条语言描述，其中56条融入了深度相关信息，旨在评估模型的空间语义理解与跟踪能力，为推进三维感知的交互式视觉语言理解研究提供了关键资源。

当前挑战

DRSet数据集旨在解决的核心领域挑战是RGBD指代多目标跟踪，即要求模型融合RGB、深度和语言三种模态，实现对三维空间语义描述的目标进行精准检测与跨帧身份关联。具体而言，领域挑战体现在模型需克服二维视觉的固有局限，准确解析如“距离相机最近的人”等依赖深度关系的语言描述，并在严重遮挡、目标外观变化等复杂场景下保持轨迹的时空一致性。在数据集构建过程中，挑战主要来自高质量多模态数据的对齐与标注。这需要确保RGB图像与深度图的精确时空同步，并设计系统性的标注流程以生成涵盖丰富静态属性、动态行为及深度关系的语言描述，同时通过多人交叉审核机制保障边界框标注与语义描述的一致性，以构建一个评估性全面、可靠性高的基准数据集。

常用场景

经典使用场景

在交互式人工智能系统，特别是机器人学和自动驾驶领域，实现精准的环境感知与语义交互是核心挑战。DRSet数据集在此背景下，其最经典的使用场景是作为RGBD Referring Multi-Object Tracking（DRMOT）任务的基准测试平台。该数据集通过提供同步的RGB图像、深度图以及包含空间语义的自然语言描述，专门用于评估模型在三维空间中进行语言指称目标定位与持续跟踪的综合能力。研究者利用DRSet来训练和验证模型如何有效融合视觉、深度与语言三种模态，以解决传统二维指称跟踪在空间关系推理与严重遮挡下的身份维持难题。

解决学术问题

DRSet数据集的构建，旨在解决指称多目标跟踪领域长期存在的关键学术问题。传统RMOT方法仅依赖二维RGB信息，难以精确解析语言描述中蕴含的深度相关空间语义，例如“距离相机最近的人”，且在目标严重遮挡时易出现身份切换。DRSet通过引入高质量的深度模态，为研究社区提供了评估模型空间-语义对齐能力与三维感知跟踪鲁棒性的标准资源。它推动了从纯外观关联到联合几何与语言理解的范式转变，为解决复杂动态场景下的精准语义跟踪奠定了数据基础。

实际应用

超越纯学术研究，DRSet数据集所支撑的技术具有广泛的实际应用前景。在服务机器人领域，系统需根据“请把水杯递给沙发左侧的人”这类指令，在复杂家居环境中精准识别并跟踪特定目标。在智能监控与自动驾驶场景中，系统需要理解“跟踪正在接近路口的蓝色轿车”或“关注人群中最前方的个体”等指令，并利用深度信息克服遮挡与视角变化，实现稳定跟踪。DRSet通过模拟这些真实世界的多模态交互需求，为开发更智能、更可靠的具身智能体与自主系统提供了关键的训练与验证数据。

数据集最近研究