MoT3DVG

github2026-05-07 更新2026-05-09 收录

下载链接：

https://github.com/Harry710887048/MoT3DVG

下载链接

链接失效反馈

官方服务：

资源简介：

MoT3DVG是基于nuScenes数据集构建的，额外补充了运动感知描述，为户外3D视觉定位任务提供语言提示。

MoT3DVG is constructed based on the nuScenes dataset, with additional motion-aware descriptions incorporated to provide linguistic prompts for outdoor 3D visual localization tasks.

创建时间：

2026-05-02

原始信息汇总

MoT3DVG 数据集概述

1. 数据集简介

名称：MoT3DVG
全称：A Benchmark for Outdoor 3D Visual Grounding with Motion-Aware Descriptions and Temporal Cues
用途：为户外3D视觉定位任务提供语言提示，包含运动感知描述和时间线索。
基础数据集：基于 nuScenes 数据集构建。

2. 数据来源

官方数据集：需从 nuScenes 官方下载 3D 物体检测数据集（v1.0-trainval）。
下载地址：未直接在页面中提供，需自行获取 nuScenes 数据集。

3. 文件组织方式

目录结构要求：将 nuScenes 数据集按以下方式组织：

├── data │ ├── nuscenes │ │ │── v1.0-trainval │ │ │ │── samples │ │ │ │── sweeps │ │ │ │── maps │ │ │ │── v1.0-trainval
额外文件：MoT3DVG 提供统一的 PKL 文件，包含边界框标注、语言提示及其他相关信息，需放置于目录 /nuscenes/v1.0-trainval 下。

4. 数据集特色

运动感知描述：为每个目标添加运动相关的自然语言描述。
时间线索：利用时序信息增强视觉定位能力。
外部链接：数据集可直接从 Kaggle 获取：MoT3DVG on Kaggle

搜集汇总

数据集介绍

构建方式

MoT3DVG数据集基于自动驾驶领域的经典数据集nuScenes构建，通过为其中三维场景目标添加运动感知语言描述，构建了一个面向室外三维视觉定位任务的基准数据集。研究者提取了nuScenes中的点云数据、多视角图像以及三维边界框标注，并针对每个目标补充了包含运动状态、速度变化、轨迹特征等信息的自然语言提示，最终将所有标注、语言描述与上下文信息整合为一个统一的PKL文件，便于后续研究与模型评估。

使用方法

使用MoT3DVG前需自行下载官方nuScenes三维目标检测数据集，并按指定目录结构组织数据。将nuScenes的v1.0-trainval文件置于data/nuscenes目录下，包含samples、sweeps、maps及标注文件夹。下载MoT3DVG提供的PKL文件后，将其放置在/nuscenes/v1.0-trainval路径下。研究者可通过读取PKL文件获取三维边界框、运动感知语言描述及时间信息，方便直接接入现有三维视觉定位模型进行训练与性能评估。

背景与挑战

背景概述

MoT3DVG数据集诞生于户外三维视觉定位研究的前沿领域，由多个研究机构于近年联合提出，旨在弥补现有三维视觉定位基准在动态场景理解方面的不足。其核心研究问题聚焦于如何利用运动感知的自然语言描述与时间线索，在复杂的室外环境中精确识别并定位三维目标。该数据集基于nuScenes自动驾驶数据集构建，通过引入丰富的运动感知语言注释，为户外三维视觉定位任务提供了全新的评测标准。自发布以来，MoT3DVG已迅速成为该领域的重要基准，推动了多模态感知与时空推理技术的交叉发展。

当前挑战

该数据集面临的挑战主要包括两个方面。在领域问题层面，户外三维视觉定位需应对动态场景中目标外观剧烈变化、语言描述与点云数据的跨模态对齐困难，以及时间线索的有效融合难题。在构建过程中，如何从大规模自动驾驶序列中提取具有运动属性的自然语言描述，并确保注释的准确性与一致性，成为数据标注的主要瓶颈。此外，数据集的规模有限且场景多样性不足，限制了模型在极端天气或罕见交通状况下的泛化能力，对构建更全面、更具鲁棒性的基准提出了更高要求。

常用场景

经典使用场景

在自动驾驶与机器人导航的浪潮中，三维视觉定位（3D Visual Grounding）作为连接自然语言与物理世界的关键桥梁，其重要性日益凸显。MoT3DVG数据集聚焦于室外场景，针对运动感知描述与时间线索的整合，为评估和推动三维视觉定位算法提供了专业化基准。经典的使用场景包括：给定一段描述某个动态目标（如“那辆正在左转的白色轿车”）的自然语言查询，模型需从多帧点云或图像数据中精准定位该目标的3D边界框。该数据集尤其强调对运动状态的理解，要求算法不仅识别物体静态属性，还需捕捉其速度、方向等动态特征，从而在复杂室外环境中实现鲁棒的定位能力。

解决学术问题

MoT3DVG数据集解决了现有三维视觉定位研究中长期存在的两大瓶颈：一是缺乏面向室外动态场景的大规模标注数据，二是多数方法忽略时间线索对运动目标定位的增益。通过引入运动感知描述和时间戳对齐的3D框标注，该数据集促使学术界从静态定位转向动态理解，推动了多模态融合、时序建模与空间推理的交叉研究。其意义在于，为构建能够理解自然语言中运动指令的智能系统提供了标准化测试平台，显著提升了模型在真实自动驾驶场景中的泛化能力，并对视觉-语言导航、人机交互等领域的理论突破产生了深远影响。

实际应用

在实际应用中，MoT3DVG数据集驱动了多项关键技术落地。在自动驾驶感知系统中，它赋能车辆精确理解乘客或行人的口语指令（如“跟随前方那辆红色卡车”），实现基于自然语言的自主导航与避障。在智能监控领域，该数据集支持对移动目标的自然语言查询与跟踪，例如通过描述“穿蓝色外套跑步的人”快速定位视频中的目标。此外，在增强现实（AR）交互中，用户可通过语音描述动态物体来触发虚拟信息叠加，极大提升了人机协作的自然性与效率。这些应用均受益于MoT3DVG对运动感知与时间建模能力的强化。

数据集最近研究