Motion-o trajectory-grounding dataset

Name: Motion-o trajectory-grounding dataset
Creator: 东北大学
Published: 2026-03-19 21:00:29
License: 暂无描述

arXiv2026-03-19 更新2026-03-21 收录

下载链接：

https://github.com/ostadabbas/Motion-o

下载链接

链接失效反馈

官方服务：

资源简介：

Motion-o轨迹标注数据集由东北大学团队构建，旨在增强视频理解中的运动推理能力。该数据集通过扩展稀疏关键帧标注生成密集边界框轨迹，并自动计算方向、速度和尺度变化等运动基元，为模型提供显式的轨迹级监督信号。数据来源于视频序列的时空证据链增强，采用强化学习框架进行轨迹对齐奖励优化，主要应用于动态场景理解、轨迹预测及运动敏感问答等视频推理任务。

The Motion-o trajectory annotation dataset was constructed by the team from Northeastern University (China), aiming to enhance motion reasoning capabilities in video understanding. This dataset generates dense bounding box trajectories by expanding sparse keyframe annotations, and automatically calculates motion primitives such as direction, velocity and scale changes, providing explicit trajectory-level supervision signals for models. The dataset is derived from the enhancement of spatiotemporal evidence chains in video sequences, and adopts a reinforcement learning framework to optimize trajectory alignment rewards, which is mainly applied to video reasoning tasks such as dynamic scene understanding, trajectory prediction and motion-sensitive question answering.

提供机构：

东北大学

创建时间：

2026-03-19

原始信息汇总

Motion-Aware Trajectory Reasoning for Video Understanding 数据集概述

数据集基本信息

数据集名称: Motion-Aware Trajectory Reasoning for Video Understanding (Motion-O)
核心贡献: 训练视觉语言模型（VLM）通过可验证的、运动感知的证据链和轨迹级几何奖励来推理视频运动。
核心创新: 运动感知轨迹奖励 — 不仅评估物体在哪里，还评估它们如何移动，使用从预测边界框序列导出的几何运动指标。

数据集内容与结构

${DATA_ROOT}/ ├── json_data/ │ ├── STGR-SFT.json (30k 样本) │ └── STGR-RL.json (36k 样本) └── videos/ ├── gqa/, stgr/, timerft/, 等.

依赖数据集: STGR 数据集。
数据配置: 下载 STGR 数据集后，需更新 configs/data_root.py 文件中的 DATA_ROOT 路径。

模型与训练

预训练模型发布平台: Hugging Face。
可用模型变体:
1. Motion-O (无视觉定位) – 主模型，位于仓库根目录 bishoygaloaa/motion-o。
2. Open-o3 + MCoT (带视觉定位) – 子文件夹 bishoygaloaa/motion-o，设置 subfolder="open-o3-mcot"。
3. Open-o3 + MCoT (无视觉定位) – 子文件夹 bishoygaloaa/motion-o，设置 subfolder="open-o3-mcot-no-vg"。
训练流程:
1. 基线训练（无运动奖励）: 执行脚本 bash scripts/run_sft.sh 和 bash scripts/run_grpo_baseline.sh。
2. 带运动奖励的训练: 执行脚本 bash scripts/run_grpo_motion.sh。

评估与可视化

评估基准: V-STaR, Video-MME, VideoMMMU, WorldSense。
完整评估流程: 使用脚本 sbatch scripts/eval_all_h200.sh /path/to/checkpoint-dir。
V-STaR 专项评估: 使用脚本 sbatch scripts/eval_vstar.sh /path/to/checkpoint-dir。
结果可视化:
- V-STaR 证据链可视化: 使用 evaluation/visualize_results.py 脚本。
- Video-MME 推理可视化: 使用 evaluation/visualize_videomme_results.py 脚本，仅可视化正确答案样本。

项目结构与核心模块

vlmm-mcot/ ├── src/ # 核心运动推理模块 │ ├── motion_metrics.py # 轨迹级几何指标 │ ├── geometric_reward.py # 多维度奖励组合 │ └── evidence_parser.py # 证据链解析 ├── training/ # 基于 GRPO 的训练基础设施 │ ├── grpo_trainer.py # GRPO 训练器 │ ├── reward_func.py # 模块化奖励函数 │ └── motion_reward.py # 运动轨迹奖励 ├── evaluation/ # 评估套件 │ ├── test/ # 各基准测试 │ └── 可视化脚本 ├── configs/ # 配置文件 └── scripts/ # 训练启动脚本

关键指标与奖励组成

运动感知奖励组件 (R_motion, λ=0.35):
- 方向相似性 (0.4): 位移向量的余弦相似度。
- 速度保真度 (0.4): 速度大小匹配。
- 轨迹平滑度 (0.2): 对物理上不合理运动的加速度惩罚。
基线奖励组件:
- R_spatial (λ=0.25): 通过匈牙利匹配的边界框 IoU。
- R_temporal (λ=0.15): 时间间隔 IoU。
- R_caption (λ=0.20): 文本相似性。
- R_format (gate): 可解析性验证。

预期性能结果

基准测试	基线	+运动奖励	提升 Δ
V-STAR mAM	35.5%	37-40%	+2-5%
V-STAR mLGM	49.0%	52-56%	+3-7%
运动密集型任务	-	-	+5-10%

训练配置与技巧

多GPU设置: 支持使用 DeepSpeed ZeRO-3 进行多 GPU 训练。
内存优化: 支持梯度检查点、Flash Attention 2、4 位量化。
训练监控: 可通过日志文件监控各奖励组件的得分。

消融研究

可通过修改 training/motion_reward.py 中的权重配置，运行不同运动组件的实验（例如，仅方向、方向+速度等）。

引用

如需使用 Motion-O，请引用： bibtex @article{galoaa2026motion, title = {Motion-Aware Trajectory Reasoning for Video Understanding}, author = {Galoaa, Bishoy* and Moezzi, Shayda* and Bai, Xiangyu and Ostadabbas, Sarah}, journal = {arXiv preprint arXiv:2603.18856}, year = {2026}, url = {https://arxiv.org/abs/2603.18856} }

许可

MIT 许可证。

致谢

本工作基于 STGR 数据集以及 Open-o3 Video 发布的训练和评估基础设施，并广泛使用了 V-STaR、Video-MME、VideoMMMU 和 WorldSense 等公共视频基准进行评估。

搜集汇总

数据集介绍

构建方式

在视频理解领域，现有数据集通常仅提供稀疏的关键帧标注，难以支撑对连续运动轨迹的深入推理。Motion-o轨迹接地数据集通过创新的数据增强方法，将稀疏的关键帧监督扩展为密集的边界框轨迹。具体而言，该数据集以Perception-LM子集为基础，在原始标注的关键帧之间，以固定的时间步长插入中间监督点，并通过插值真实密集掩码生成对应的边界框。这一过程将离散的时空观测转化为连续、高密度的物体轨迹，为计算方向、速度和尺度变化等运动基元提供了充分的时间覆盖。随后，系统自动从这些增强轨迹中提取离散的运动描述符，并将其以结构化标签形式注入模型的推理链中，从而构建了一个支持时空轨迹联合推理的训练资源。

特点

该数据集的核心特征在于其开创性地将运动轨迹显式化为结构化推理目标，弥补了现有视频推理框架中动态维度缺失的空白。区别于传统仅关注“何时”与“何处”的时空接地数据集，Motion-o引入了空间-时间-轨迹三维证据链，要求模型不仅定位物体在特定时刻的位置，还需通过<motion/>标签明确总结物体在观测点之间的运动模式，包括方向、速度和尺度变化。这种设计将隐含的运动插值过程转化为可解释、可验证的结构化输出。此外，数据集通过密集轨迹增强提供了更强的运动监督信号，其离散化的运动属性表示（如八个罗盘方向、四级速度）与语言模型的词汇表自然对齐，确保了模型学习的可行性与评估的精确性。

使用方法

该数据集主要用于训练和评估具备显式轨迹推理能力的视频语言模型。在使用方法上，它遵循两阶段的训练范式。在监督微调阶段，模型学习在生成时空证据链（包含物体、边界框、时间戳）后，自动输出结构化的<motion/>标签以总结轨迹动态。在强化学习阶段，数据集支持通过两种互补的奖励机制优化模型：轨迹奖励通过比对预测运动标签与从真实轨迹计算出的基元来确保运动描述的准确性；视觉接地奖励则通过双链验证技术，对比模型在原始视频与运动掩码（如冻结帧）视频上的输出，激励模型依赖真实的时序视觉证据而非文本先验进行推理。该数据集可直接用于现有视觉语言模型管道的微调，无需修改模型架构，即可提升其在轨迹预测、时空接地及运动敏感问答等任务上的性能。

背景与挑战

背景概述

视频理解领域近年来在时空证据链推理方面取得了显著进展，但现有模型普遍缺乏对物体运动轨迹的显式建模能力。Motion-o轨迹接地数据集由美国东北大学的研究团队于2026年提出，旨在填补这一关键空白。该数据集的核心研究问题聚焦于空间-时间-轨迹三维推理，通过引入结构化运动标签将离散的时空观测连接为连续轨迹。其创新性在于将传统视频理解从静态的“何时何地”扩展至动态的“如何运动”，为轨迹预测、异常检测等下游任务提供了可验证的推理基础，推动了证据链视频理解向运动感知范式的演进。

当前挑战

该数据集致力于解决视频轨迹推理领域的核心挑战：现有视觉语言模型在描述物体运动时往往依赖隐式插值或文本先验，导致推理过程不可验证且易受静态偏见影响。具体而言，构建过程中面临双重困难：首先，原始标注数据仅提供稀疏关键帧的边界框，难以捕捉连续运动模式，研究团队需通过密集轨迹插值与运动原语计算实现监督信号增强；其次，设计离散化运动描述符需平衡表达力与模型可学习性，连续数值表示会导致训练崩溃，而离散分箱策略必须精确量化方向、速度、尺度变化等动态属性，确保运动标签既能准确反映轨迹动力学，又能与语言模型的输出空间自然对齐。

常用场景

经典使用场景

在视频理解领域，Motion-o轨迹接地数据集为模型提供了结构化运动推理的训练基础。该数据集通过稠密边界框轨迹和离散运动标签，使视觉语言模型能够学习如何将时空证据链扩展为空间-时间-轨迹推理。其经典使用场景在于训练模型生成显式的运动描述符，例如在视频问答任务中，模型不仅定位对象在特定时刻的位置，还需总结对象在观测点之间的运动方向、速度和尺度变化，从而实现对动态轨迹的显式建模与验证。

解决学术问题

Motion-o数据集解决了视频推理中轨迹理解隐式化的核心学术问题。传统方法仅提供稀疏关键帧的边界框标注，迫使模型隐式插值对象运动，导致推理过程难以验证且易受静态先验影响。该数据集通过稠密轨迹标注和结构化运动标签，使模型能够显式表达对象的方向、速度和尺度变化，从而填补了空间-时间-轨迹推理的空白。其意义在于推动了视频理解向可解释、可验证的动态推理发展，为运动感知的问答、轨迹预测和异常检测等任务提供了可靠基础。

衍生相关工作

Motion-o数据集衍生了一系列聚焦运动推理的经典研究工作。基于其提出的空间-时间-轨迹证据链和运动链式思维框架，后续研究扩展了多对象交互轨迹建模、非线性运动表示以及更丰富的运动属性描述。例如，一些工作将MCoT标签集成到强化学习框架中，进一步优化轨迹一致性奖励；另一些研究则利用该数据集的稠密标注，开发了针对特定领域如体育分析或机器人导航的运动理解模型。这些衍生工作共同推动了视频推理向结构化、可解释的动态理解演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集