MODIRECT
收藏arXiv2026-05-22 更新2026-05-23 收录
下载链接:
https://github.com/KHU-VLL/DeltaDirect
下载链接
链接失效反馈官方服务:
资源简介:
MODIRECT是由庆熙大学和普林斯顿大学联合构建的专用于视频大语言模型运动方向理解的数据集家族,旨在系统诊断和改善模型对图像平面符号化运动方向的识别能力。该数据集包含三个子集:MODIRECT-INST用于指令微调,MODIRECT-SYNBENCH用于合成视频评估,MODIRECT-REALBENCH用于真实视频评估,其中合成部分采用2×2控制设计,涵盖几何图元与真实物体剪影在前景类型、合成与真实背景的组合变体。数据集通过程序化生成合成视频并整合Something-Something-V2等真实视频源构建,严格控制运动轨迹与背景变量以隔离方向感知信号。其核心应用在于解决视频大语言模型普遍存在的'方向运动盲区'问题,通过提供精准的运动方向监督信号,推动模型在基础时空感知能力上的实质性突破。
MODIRECT is a family of datasets jointly developed by Kyung Hee University and Princeton University, specifically tailored for motion direction understanding in video large language models (LLMs). It aims to systematically diagnose and enhance models' ability to recognize symbolized motion directions on the image plane. This dataset family comprises three subsets: MODIRECT-INST for instruction tuning, MODIRECT-SYNBENCH for synthetic video evaluation, and MODIRECT-REALBENCH for real-world video evaluation. The synthetic subset adopts a 2×2 controlled experimental design, covering combined variants of geometric primitives and real object silhouettes across foreground types, as well as synthetic and real backgrounds. The datasets are constructed by programmatically generating synthetic videos and integrating real-world video sources such as Something-Something-V2, with strict control over motion trajectories and background variables to isolate direction perception signals. Its core application is to address the widespread "motion direction blind spot" problem in video LLMs, and drive substantial breakthroughs in the fundamental spatiotemporal perception capabilities of models by providing precise motion direction supervision signals.
提供机构:
庆熙大学; 普林斯顿大学
创建时间:
2026-05-22
原始信息汇总
数据集概述
- 项目名称:DeltaDirect
- 关联论文:"Which Way Did It Move?"
- 仓库性质:该页面对应论文的官方实现代码仓库,数据集相关代码即将发布
当前状态
- 代码尚未发布(标注为“coming soon”),README文件中未提供具体数据集内容、格式、大小或下载链接。
说明
- 页面地址:https://github.com/KHU-VLL/DeltaDirect
- 除论文标题外,该页面目前不包含任何关于数据集的进一步详情。
搜集汇总
数据集介绍

构建方式
MODIRECT是一个面向指令微调与评估的运动方向数据集家族,包含三个子集。其合成部分采用2×2因子设计,涵盖前景类型(原始几何图形与真实物体剪影)和背景类型(纯色与自然场景),构建出Primitive-on-Syn、Cutout-on-Syn、Primitive-on-Real和Cutout-on-Real四个领域。从最简领域Primitive-on-Syn中抽取100K个视频-问答对构成MODIRECT-INST用于指令微调,其余合成领域构成MODIRECT-SYNBENCH用于受控评估,而MODIRECT-REALBENCH则从Something-Something-V2、KTH和TOMATO数据集中筛选真实视频样本组成。
特点
MODIRECT的核心特点在于其精细化的受控实验设计:通过解耦前景与背景的视觉复杂度,精准隔离运动方向理解能力的不同维度。其合成视频采用线性匀速运动并随机化起始位置,避免了静态位置捷径;多项选择问题格式中随机化选项顺序,直接考验模型将感知方向与具体文本选项绑定的能力。此外,数据集提供了从简单到复杂的渐近难度梯度,结合真实视频评估,使得模型在运动方向上的领域内学习与领域外泛化能力得以被清晰区分和诊断。
使用方法
MODIRECT的应用主要分两个层次:指令微调与系统评估。在微调阶段,研究者可使用MODIRECT-INST中的方向多项选择、开放式方向及外观等多样化问答格式,通过标准的下一个词预测目标训练视频大语言模型。在评估阶段,MODIRECT-SYNBENCH和MODIRECT-REALBENCH分别提供合成与真实环境下的四方向运动方向多项选择任务,模型需根据均匀采样的8帧视频输出方向选项。配合配套的DeltaDirect训练目标,该方法仅在训练阶段预测相邻帧特征差分的归一化二维运动矢量,测试时原架构不变,实现对方向感知能力的诊断式提升。
背景与挑战
背景概述
MODIRECT数据集由韩国庆熙大学与普林斯顿大学的研究人员于2026年联合创建,旨在系统性地诊断与克服视频大语言模型(Video-LLMs)中的方向性运动盲症。该现象表现为,尽管模型在物体外观识别上表现优异,却无法准确辨别基本的图像平面运动方向(如左、右、上、下)。研究团队通过构建涵盖合成与真实场景的多域基准,揭示了模型内部虽保留运动方向信号,却无法将其可靠绑定至正确答案的“方向绑定鸿沟”。MODIRECT的提出为深入理解视频理解中的感知-语言错配提供了关键诊断工具,推动了该领域从表象识别向精细运动理解的范式转变。
当前挑战
MODIRECT所面对的挑战体现在两个层面。首先,在领域问题层面,Video-LLMs普遍存在方向性运动盲症,即使在简单视频中,模型对四个基本方向的识别准确率仍近乎随机水平,这表明现有模型缺乏对符号化运动方向的真实理解能力。其次,在数据集构建过程中,研究者面临视觉复杂度对泛化性能的显著影响:合成场景上训练的模型在真实背景或复杂前景下准确率急剧下降。通过概念向量分析发现,跨域共享的运动方向表示虽具有一致的几何取向,但其信号强度随视觉复杂度增大而衰减,形成“幅度赤字”,这成为制约模型跨域泛化的核心瓶颈。
常用场景
经典使用场景
在视频大语言模型(Video-LLMs)的时空感知研究领域中,MODIRECT数据集被广泛用于诊断和评估模型对基本运动方向(左、右、上、下)的理解能力。该数据集通过精细设计的前景类型(基础几何图元与真实物体剪影)和背景类型(纯色合成背景与自然场景)构成2×2交叉实验框架,能够系统地剖析模型在不同视觉复杂度下的运动方向判别表现。研究者通常利用MODIRECT对Video-LLMs进行基准测试,以揭示其在感知层面存在的‘方向运动盲视’现象。
解决学术问题
MODIRECT数据集揭示了Video-LLMs中一个根本性的学术问题——方向绑定鸿沟。研究发现,尽管运动方向信息在视觉编码器、投影器和语言模型隐藏状态中均保持线性可解码状态,模型却无法可靠地将这些感知信号与正确的语言回答选项绑定。该数据集通过消融实验证实,模型在简单合成场景上通过微调可弥合该鸿沟,但在面对包含自然背景和复杂前景的跨域输入时,由于共享方向概念向量的幅度衰减,该鸿沟会重新出现,从而为理解多模态模型中感知-语言接口的薄弱环节提供了关键洞见。
衍生相关工作
基于MODIRECT数据集的分析诊断,衍生出了一系列富有影响力的经典工作。其中最具代表性的是DeltaDirect方法,该工作从方向概念向量的幅度不足这一诊断结论出发,设计了仅在训练阶段起作用的投影器级辅助目标,通过预测相邻帧投影器特征差分的归一化二维运动向量,有效强化了视觉-语言接口处的位移信号。此外,受到MODIRECT揭示的方向绑定鸿沟的启发,后续研究探索了运动方向概念的因果干预,通过在读出层注入特定方向的概念向量,验证了方向概念向量对答案选择的因果驱动作用。该数据集的诊断范式还推动了对Video-LLMs中视觉复杂度如何导致信号向低方差维度迁移的研究,为理解多模态模型中感知信号的编码几何提供了理论基础。
以上内容由遇见数据集搜集并总结生成



