ORSet

Name: ORSet
Creator: 华中科技大学·多谱信息智能处理技术国家重点实验室
Published: 2026-03-06 01:15:01
License: 暂无描述

arXiv2026-03-06 更新2026-03-07 收录

下载链接：

https://github.com/chen-si-jia/ORMOT

下载链接

链接失效反馈

官方服务：

资源简介：

ORSet是由华中科技大学团队构建的首个全向参考多目标跟踪数据集，基于JackRabbot数据集扩展而来。该数据集包含27个多样化全向场景、848条涵盖外观/动作/空间关系的语言描述，以及3401个带有边界框和时空轨迹的标注对象，数据总量达17个训练场景和10个测试场景。通过三阶段标注流程（关键帧选择-GPT-4o描述生成-人工校验对齐）确保数据质量，特别关注全向相机特有的长时程语义理解。该数据集旨在解决传统受限视场相机导致的跟踪碎片化问题，推动360°视觉-语言多模态对齐、零样本泛化和时序 grounding 等研究方向。

提供机构：

华中科技大学·多谱信息智能处理技术国家重点实验室

创建时间：

2026-03-06

原始信息汇总

ORMOT数据集概述

数据集基本信息

数据集名称：ORMOT (Omnidirectional Referring Multi-Object Tracking)
核心内容：一个用于全向参考多目标跟踪的数据集与框架。
关联项目：与CRMOT项目类似（https://github.com/chen-si-jia/CRMOT）。

数据集特点与定义

任务定义：全向参考多目标跟踪。
技术特点：利用全向相机宽广的视野，不仅提供空间优势，还通过提供“扩展的时间上下文”来延长跟踪持续时间，使模型能够正确理解长视野语言描述并准确跟踪目标。
对比任务：与传统参考多目标跟踪相比，传统相机视野有限，使得现有常见RMOT模型更难以理解长视野语言描述并执行精确跟踪。

数据获取与状态

当前状态：论文若被接受，作者将在一个月内完全开源ORSet数据集和ORTrack框架（包括其代码和模型权重）。
开源计划：遵循其CRMOT项目的模式。

论文与引用

论文标题：ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking
预印本地址：https://arxiv.org/pdf/2603.05384
作者：Sijia Chen, Zihan Zhou, Yanqiu Yu, En Yu, Wenbing Tao
机构：华中科技大学
发表信息：arXiv preprint arXiv:2603.05384, 2026
引用格式：

@article{chen2026ormot, title={ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking}, author={Chen, Sijia and Zhou, Zihan and Yu, Yanqiu and Yu, En and Tao, Wenbing}, journal={arXiv preprint arXiv:2603.05384}, year={2026} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，全向感知技术因其360度无死角的视野覆盖而备受关注，但传统多目标跟踪方法在视觉-语言融合场景中面临视野局限的挑战。ORSet数据集的构建基于JackRabbot数据集，通过系统化的多阶段标注流程实现。首先，采用帧差峰值检测算法结合GPT辅助筛选，从27个全向场景中识别出语义丰富的关键帧；随后，利用GPT-4o大语言模型基于关键帧视觉内容生成涵盖外观、动作及全向特异性特征的848条语言描述；最后，通过人工验证与对齐，将描述与3401个标注对象的时空轨迹精确匹配，确保视觉、语言与时间信息的深度融合。

特点

ORSet数据集的核心特点体现在其全向特异性与多模态融合的深度。数据集包含175条全向特异性描述，专门针对360度影像的边界穿越运动、圆周方向提示、投影感知语义消歧和视场过渡标记等独特现象进行标注，有效解决了传统数据集中因视野限制导致的轨迹碎片化问题。语言描述平均覆盖575.3帧，支持长时程语言理解，同时词汇分布涵盖外观、动作及空间关系等多维度语义，平均描述长度8.2词，兼具简洁性与丰富性。数据划分遵循6:4比例，包含17个训练场景与10个测试场景，为模型零样本泛化与时空对齐研究提供了均衡且具挑战性的基准平台。

使用方法

ORSet数据集为全向指称多目标跟踪任务提供了标准化的评估框架。研究者可将数据集加载至支持全向图像处理的视觉-语言模型中，利用其提供的边界框标注、轨迹ID及语言描述进行端到端训练或零样本评估。典型使用流程包括：首先解析JSON格式的标注文件，获取每个场景的帧序列、对象轨迹及对应语言描述；随后，将全向图像与语言描述输入至如ORTrack等大型视觉语言模型驱动的框架中，执行语言引导的检测与跨帧关联；最终，通过HOTA、DetA、AssA等标准指标量化模型在检测精度、关联一致性与定位准确性方面的性能，推动全向环境下多模态跟踪算法的创新与优化。

背景与挑战

背景概述

ORSet数据集由华中科技大学多谱信息智能处理技术国家重点实验室的研究团队于2026年构建，旨在推动全向参考多目标跟踪这一新兴任务的发展。该数据集源于对现有参考多目标跟踪方法局限性的深刻洞察，传统方法受限于常规相机的有限视场，导致目标移出画面时跟踪中断，难以理解长时序语言描述。ORSet基于JackRabbot数据集，通过引入全向视觉模态，提供了27个多样化场景、848条语言描述及3401个标注对象，其核心研究问题在于如何实现语言描述与360度全景视频中多目标轨迹的精准对齐，为视觉语言模型在开放词汇、时序定位和多模态对齐方面的研究提供了关键基准。

当前挑战

ORSet数据集致力于解决全向参考多目标跟踪领域的核心挑战，即如何在360度全景视频中，依据自然语言描述持续、准确地追踪多个目标。这一任务面临全景图像特有的几何畸变、目标在画面边界连续穿越带来的身份混淆，以及长时序语言描述与复杂视觉场景对齐等难题。在数据集构建过程中，挑战同样显著：需设计系统化的标注流程以生成高质量、与全向视觉特性紧密关联的语言描述；必须克服全景投影导致的语义歧义，例如将实际直线运动因畸变误判为曲线；还需确保描述能涵盖边界穿越、圆周方向指示等全向特有现象，这对标注的一致性与语义准确性提出了极高要求。

常用场景

经典使用场景

在计算机视觉领域，全景视觉与语言引导跟踪的交叉研究正成为新兴热点。ORSet数据集作为首个专为全景参考多目标跟踪任务构建的基准，其经典使用场景聚焦于评估和推动模型在360度视频中依据自然语言描述进行长时序、多目标持续跟踪的能力。该数据集通过涵盖边界穿越、圆周方向描述、投影感知语义消歧等全景特有描述，为模型提供了理解复杂空间关系与长视野语言指令的标准化测试平台，成为验证全景环境下视觉-语言对齐性能的核心工具。

衍生相关工作

围绕ORSet数据集，已衍生出一系列推动领域发展的经典工作。其配套框架ORTrack首次利用大型视觉语言模型实现了全景场景下的开放词汇检测与跟踪，为任务设立了强基线。后续研究如CRMOT将参考跟踪扩展至跨视图设置，DRMOT与RT-RMOT则分别引入了RGB-D与RGB-T模态的数据集与框架，进一步丰富了多模态感知下的语言引导跟踪范式。这些工作共同构建了从全景到多模态的参考跟踪研究体系。

数据集最近研究