MATRIX-11K
收藏arXiv2025-10-09 更新2025-10-10 收录
下载链接:
https://cvlab-kaist.github.io/MATRIX
下载链接
链接失效反馈官方服务:
资源简介:
MATRIX-11K是一个包含11000个视频的数据集,每个视频都配有交互感知的标题和多实例掩码轨迹。该数据集旨在分析视频扩散变换器(Video DiTs)如何内部表示多实例或主语-对象交互。数据集的创建过程涉及使用大型语言模型(LLM)进行交互识别和实例ID提取,并通过视觉语言模型(VLM)进行验证和掩码轨迹构建。MATRIX-11K数据集的应用领域是视频生成,旨在解决现有模型在生成多实例或主语-对象交互方面的不足。
MATRIX-11K is a dataset comprising 11,000 videos, each paired with interaction-aware captions and multi-instance mask trajectories. This dataset is intended to analyze how Video Diffusion Transformers (Video DiTs) internally represent multi-instance or subject-object interactions. The dataset construction process involves using Large Language Models (LLMs) for interaction recognition and instance ID extraction, as well as validation and mask trajectory generation via Vision-Language Models (VLMs). The application domain of the MATRIX-11K dataset is video generation, aiming to address the limitations of existing models in generating multi-instance or subject-object interactions.
提供机构:
韩国科学技术院(KAIST)人工智能实验室
创建时间:
2025-10-09
原始信息汇总
MATRIX: Mask Track Alignment for Interaction-Aware Video Generation
数据集概述
- 数据集名称: MATRIX-11K
- 数据规模: 11K视频
- 数据内容: 包含交互感知描述和实例级掩码轨迹
- 核心贡献: 首个系统分析视频DiT中语义基础和语义传播的工作
数据集构建流程
-
LLM处理阶段:
- 识别交互三元组
- 使用动态性和接触度进行过滤
- 提取每个ID的外观描述
-
VLM验证阶段:
- 验证候选帧选择锚定帧
- 使用SAM2传播掩码生成实例掩码轨迹
技术框架
- 核心方法: MATRIX正则化方法
- 损失函数:
- 语义基础对齐损失(SGA)
- 语义传播对齐损失(SPA)
- 实施策略: 仅在交互主导层应用对齐损失
评估协议
- InterGenEval评估协议:
- 关键交互语义对齐(KISA)
- 语义基础完整性(SGI)
- 语义传播完整性(SPI)
- 交互保真度(IF)
实验结果
定量比较
| 方法 | KISA | SGI | IF | 人类保真度 | 运动评分 | 图像质量 |
|---|---|---|---|---|---|---|
| CogVideoX-2B-I2V | 0.420 | 0.470 | 0.445 | 0.937 | 0.993 | 69.69 |
| CogVideoX-5B-I2V | 0.406 | 0.491 | 0.449 | 0.936 | 0.987 | 69.66 |
| Open-Sora-11B-I2V | 0.453 | 0.508 | 0.480 | 0.891 | 0.992 | 63.32 |
| TaVid | 0.465 | 0.522 | 0.494 | 0.917 | 0.991 | 68.90 |
| MATRIX | 0.546 | 0.641 | 0.593 | 0.954 | 0.994 | 69.73 |
消融研究
完整MATRIX方法(SGA+SPA损失+层选择)在所有评估指标上表现最佳
引用信息
bibtex @misc{jin2025matrixmasktrackalignment, title={MATRIX: Mask Track Alignment for Interaction-aware Video Generation}, author={Siyoon Jin and Seongchan Kim and Dahyun Chung and Jaeho Lee and Hyunwook Choi and Jisu Nam and Jiyoung Kim and Seungryong Kim}, year={2025}, eprint={2510.07310}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2510.07310} }
搜集汇总
数据集介绍

构建方式
在视频生成领域,针对多实例交互建模的挑战,MATRIX-11K数据集通过系统化流程构建而成。该数据集首先利用大语言模型对原始视频描述进行交互三元组提取,识别主语、动词和宾语的关系,并通过动态性和接触度评分筛选具有物理意义的时间交互。随后采用视觉语言模型验证实例边界框与文本描述的匹配度,结合SAM2模型进行掩码轨迹传播,最终通过人工审核确保掩码轨迹与交互描述的空间对齐精度。
特点
MATRIX-11K数据集的核心特征体现在其多模态对齐架构上。数据集包含1.1万个视频片段,每个片段均配备交互感知的文本描述和逐帧实例掩码轨迹,实现了语言符号与视觉实体的精确绑定。其独特价值在于首次提供了主语-动词-宾语三元组与像素级掩码轨迹的联合标注,支持对视频扩散模型中语义落地与传播机制的量化分析。数据集覆盖动态交互的连续时空演化过程,为交互感知视频生成提供了可靠的基准测试环境。
使用方法
该数据集主要服务于视频扩散模型的交互感知能力研究。研究者可通过加载多实例掩码轨迹与文本提示,在预训练视频DiT模型中分析语义落地与传播的注意力机制。具体操作时,将首帧RGB图像与实例ID映射作为条件输入,利用数据集提供的掩码轨迹监督注意力对齐损失。评估阶段可采用提出的InterGenEval协议,通过关键交互语义对齐、语义落地完整性和语义传播完整性三项指标,系统量化生成视频的交互保真度与时空一致性。
背景与挑战
背景概述
MATRIX-11K数据集由KAIST AI团队于2025年提出,旨在解决视频生成中多实例交互建模的核心难题。该数据集包含1.1万段视频,每段视频均配备交互感知描述文本及多实例掩码轨迹,为分析视频扩散变换器中主体-客体交互的语义基础与传播机制提供了首个系统化基准。其创新性在于将文本描述的交互三元组与像素级实例轨迹精确对齐,推动了交互感知视频生成领域从单对象控制向复杂关系建模的范式转变。
当前挑战
该数据集主要面临双重挑战:在领域问题层面,需解决视频扩散模型对多实例交互的语义 grounding 与传播失效问题,具体表现为名词-动词注意力错位、实例身份漂移及交互区域幻觉;在构建过程中,需克服交互标注与实例轨迹的对齐难题,包括通过大语言模型筛选动态接触型交互、利用视觉语言模型验证跨帧实例一致性,以及通过SAM2实现掩码轨迹的时序传播。
常用场景
解决学术问题
该数据集有效解决了视频生成中长期存在的交互建模难题,包括语义定位失效导致的文本-视频错位,以及语义传播失效引发的身份漂移与幻觉现象。通过提供精确的实例掩码轨迹与交互感知描述,研究者首次能够量化评估视频扩散变换器在名词动词对齐、时空一致性保持等方面的性能表现,为理解生成模型如何绑定“谁对谁做什么”的语义关系提供了可验证的研究范式,显著推进了交互感知视频生成的机理探索。
衍生相关工作
该数据集的发布催生了一系列创新性研究工作,其中最具代表性的是基于注意力对齐机制的MATRIX框架。该框架通过语义定位对齐与语义传播对齐损失函数,将交互主导层的注意力图与实例掩码轨迹进行显式对齐,衍生出包括层次化交互建模、动态掩码引导生成等分支方向。后续研究进一步拓展了跨模态交互控制、开放词汇动词集适配等延伸课题,形成了以注意力机制解析为核心的技术演进路线。
以上内容由遇见数据集搜集并总结生成



