Motion-o trajectory-grounding dataset
收藏Motion-Aware Trajectory Reasoning for Video Understanding 数据集概述
数据集基本信息
- 数据集名称: Motion-Aware Trajectory Reasoning for Video Understanding (Motion-O)
- 核心贡献: 训练视觉语言模型(VLM)通过可验证的、运动感知的证据链和轨迹级几何奖励来推理视频运动。
- 核心创新: 运动感知轨迹奖励 — 不仅评估物体在哪里,还评估它们如何移动,使用从预测边界框序列导出的几何运动指标。
数据集内容与结构
- 预期数据目录结构:
${DATA_ROOT}/ ├── json_data/ │ ├── STGR-SFT.json (30k 样本) │ └── STGR-RL.json (36k 样本) └── videos/ ├── gqa/, stgr/, timerft/, 等.
- 依赖数据集: STGR 数据集。
- 数据配置: 下载 STGR 数据集后,需更新
configs/data_root.py文件中的DATA_ROOT路径。
模型与训练
- 预训练模型发布平台: Hugging Face。
- 可用模型变体:
- Motion-O (无视觉定位) – 主模型,位于仓库根目录
bishoygaloaa/motion-o。 - Open-o3 + MCoT (带视觉定位) – 子文件夹
bishoygaloaa/motion-o,设置subfolder="open-o3-mcot"。 - Open-o3 + MCoT (无视觉定位) – 子文件夹
bishoygaloaa/motion-o,设置subfolder="open-o3-mcot-no-vg"。
- Motion-O (无视觉定位) – 主模型,位于仓库根目录
- 训练流程:
- 基线训练(无运动奖励): 执行脚本
bash scripts/run_sft.sh和bash scripts/run_grpo_baseline.sh。 - 带运动奖励的训练: 执行脚本
bash scripts/run_grpo_motion.sh。
- 基线训练(无运动奖励): 执行脚本
评估与可视化
- 评估基准: V-STaR, Video-MME, VideoMMMU, WorldSense。
- 完整评估流程: 使用脚本
sbatch scripts/eval_all_h200.sh /path/to/checkpoint-dir。 - V-STaR 专项评估: 使用脚本
sbatch scripts/eval_vstar.sh /path/to/checkpoint-dir。 - 结果可视化:
- V-STaR 证据链可视化: 使用
evaluation/visualize_results.py脚本。 - Video-MME 推理可视化: 使用
evaluation/visualize_videomme_results.py脚本,仅可视化正确答案样本。
- V-STaR 证据链可视化: 使用
项目结构与核心模块
vlmm-mcot/ ├── src/ # 核心运动推理模块 │ ├── motion_metrics.py # 轨迹级几何指标 │ ├── geometric_reward.py # 多维度奖励组合 │ └── evidence_parser.py # 证据链解析 ├── training/ # 基于 GRPO 的训练基础设施 │ ├── grpo_trainer.py # GRPO 训练器 │ ├── reward_func.py # 模块化奖励函数 │ └── motion_reward.py # 运动轨迹奖励 ├── evaluation/ # 评估套件 │ ├── test/ # 各基准测试 │ └── 可视化脚本 ├── configs/ # 配置文件 └── scripts/ # 训练启动脚本
关键指标与奖励组成
- 运动感知奖励组件 (R_motion, λ=0.35):
- 方向相似性 (0.4): 位移向量的余弦相似度。
- 速度保真度 (0.4): 速度大小匹配。
- 轨迹平滑度 (0.2): 对物理上不合理运动的加速度惩罚。
- 基线奖励组件:
- R_spatial (λ=0.25): 通过匈牙利匹配的边界框 IoU。
- R_temporal (λ=0.15): 时间间隔 IoU。
- R_caption (λ=0.20): 文本相似性。
- R_format (gate): 可解析性验证。
预期性能结果
| 基准测试 | 基线 | +运动奖励 | 提升 Δ |
|---|---|---|---|
| V-STAR mAM | 35.5% | 37-40% | +2-5% |
| V-STAR mLGM | 49.0% | 52-56% | +3-7% |
| 运动密集型任务 | - | - | +5-10% |
训练配置与技巧
- 多GPU设置: 支持使用 DeepSpeed ZeRO-3 进行多 GPU 训练。
- 内存优化: 支持梯度检查点、Flash Attention 2、4 位量化。
- 训练监控: 可通过日志文件监控各奖励组件的得分。
消融研究
可通过修改 training/motion_reward.py 中的权重配置,运行不同运动组件的实验(例如,仅方向、方向+速度等)。
引用
如需使用 Motion-O,请引用: bibtex @article{galoaa2026motion, title = {Motion-Aware Trajectory Reasoning for Video Understanding}, author = {Galoaa, Bishoy* and Moezzi, Shayda* and Bai, Xiangyu and Ostadabbas, Sarah}, journal = {arXiv preprint arXiv:2603.18856}, year = {2026}, url = {https://arxiv.org/abs/2603.18856} }
许可
MIT 许可证。
致谢
本工作基于 STGR 数据集以及 Open-o3 Video 发布的训练和评估基础设施,并广泛使用了 V-STaR、Video-MME、VideoMMMU 和 WorldSense 等公共视频基准进行评估。




