DiffTrack

Name: DiffTrack
Creator: 韩国科学技术院（KAIST）, 韩国大学, 谷歌DeepMind
Published: 2025-06-21 01:59:55
License: 暂无描述

arXiv2025-06-21 更新2025-06-24 收录

下载链接：

https://cvlab-kaist.github.io/DiffTrack

下载链接

链接失效反馈

官方服务：

资源简介：

DiffTrack是一个用于分析视频生成模型中时间对应关系的框架。它通过构建基于提示生成的视频数据集，并使用伪真实轨迹标注来评估视频扩散模型中3D注意力机制的各个组成部分对建立时间对应关系的贡献。该数据集包括对象和场景两个子集，每个子集包含50个文本提示和相应的50个视频。

DiffTrack is a framework for analyzing temporal correspondence in video generation models. It constructs prompt-generated video datasets and uses pseudo-ground-truth trajectory annotations to evaluate the contributions of each component of the 3D attention mechanism in video diffusion models to establishing temporal correspondence. This dataset includes two subsets: object and scene, with each subset containing 50 text prompts and their corresponding 50 videos.

提供机构：

韩国科学技术院（KAIST）, 韩国大学, 谷歌DeepMind

创建时间：

2025-06-21

原始信息汇总

DiffTrack数据集概述

基本信息

标题: Emergent Temporal Correspondences from Video Diffusion Transformers
作者: Jisu Nam1, Soowon Son1, Dahyun Chung2, Jiyoung Kim1, Siyoon Jin1, Junhwa Hur†3, Seungryong Kim†1
机构: 1KAIST AI, 2Korea University, 3Google DeepMind
贡献: * Equal contribution. †Co-corresponding author.
arXiv: 链接
代码: 未提供具体链接

核心内容

TL;DR: 通过视频扩散变换器（DiT）生成的视频具有涌现的时间对应关系
DiffTrack概述:
- 揭示视频扩散变换器（DiTs）在视频生成过程中如何建立时间对应关系
- 给定提示和第一帧中的起始点，DiffTrack跟踪单个点在视频DiTs中跨帧的对齐方式
- 以零样本方式从生成视频和真实视频中提取连贯的运动轨迹
- 实际应用包括：
  1. 零样本点跟踪
  2. 通过新颖的引导方法实现运动增强的视频生成

分析结果

CogVideoX-5B中的时间匹配分析

表示选择: 查询-键匹配比中间特征匹配具有更高的准确性
层间分析: 跨层和时间步的查询-键匹配的调和平均值显示时间对应主要由有限的层集控制
噪声水平分析:
- 时间匹配随着噪声减少而改善
- 早期时间步更依赖文本嵌入和自帧注意力
- 后期时间步转向跨帧注意力以增强连贯性

应用

零样本点跟踪

TAP-Vid数据集上的定量比较:
- 结合DiffTrack的视频DiTs在零样本跟踪上优于所有基于单图像训练的视觉基础模型和基于两视图图像或视频训练的自监督模型
定性比较:
- DiffTrack在CogVideoX-5B上产生更平滑和准确的轨迹
- DINOv2和VFS在时间动态上表现不佳，轨迹不一致

运动增强视频生成

示例提示:
1. "He takes a slow, appreciative sip, his eyes closing momentarily as he savors the complex flavors."
2. "A determined individual, ascends a thick, rugged rope hanging from a towering rock face."
3. "A motorcycle cruising along a coastal highway."
效果: 交叉注意力引导（CAG）增强时间匹配并纠正合成视频中的运动不一致

DiffTrack分析框架

评估数据集构建

对象数据集: 50个动态对象中心视频的文本提示
场景数据集: 50个带有相机运动的静态场景的文本提示
生成: 每个提示使用CogVideoX-2B生成50个视频
评估方法: 使用CoTracker获取伪地面真实轨迹

时间对应估计

匹配成本计算:
- 计算第一帧和第j帧描述符之间的匹配成本
- 使用Softmax和通道维度d
对应估计:
- 通过选择每个查询的最高得分位置获得匹配点
轨迹重建:
- 通过连接匹配点并插值回RGB空间形成时间运动轨迹

评估指标

匹配精度: 测量跨帧点对齐的精确度
置信度分数: 测量每个点在注意力图中对其匹配的关注强度
注意力分数: 测量跨帧交互在视频生成中的影响强度
综合评估: 计算归一化分数的调和平均值

引用

bibtex @misc{nam2025emergenttemporalcorrespondencesvideo, title={Emergent Temporal Correspondences from Video Diffusion Transformers}, author={Jisu Nam and Soowon Son and Dahyun Chung and Jiyoung Kim and Siyoon Jin and Junhwa Hur and Seungryong Kim}, year={2025}, eprint={2506.17220}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.17220}, }

搜集汇总

数据集介绍

构建方式

DiffTrack数据集的构建采用了前沿的视频扩散变换器（DiTs）技术，通过精心设计的提示词生成视频序列，并利用现成的跟踪方法（如CoTracker）获取伪真实运动轨迹。研究团队首先收集了300个高质量文本提示，涵盖动态物体和静态场景两类，随后通过固定种子生成配对视频以确保完美重构。为评估时间对应关系，数据集在首帧预设起始点，并通过SAM分割物体或均匀采样网格点，最终使用CoTracker生成跨帧轨迹标注。这种构建方法既保留了生成过程的真实性，又通过伪标注解决了真实轨迹缺失的难题。

特点

DiffTrack的核心特点在于其系统性分析框架与多维度评估指标。数据集包含专门设计的物体数据集（动态物体中心视频）和场景数据集（静态场景相机运动），各含50个提示-视频对，分辨率达480×720、49帧。独特之处在于提出了匹配准确率、置信度分数和注意力分数三项互补指标，通过谐波均值综合评估时间对应关系的精确性、确定性及影响力。实验表明，特定层的查询-键相似性在3D注意力块中展现出清晰的时间匹配信息，且匹配强度随去噪过程递增。这种量化分析能力使其成为首个能精确定位视频DiT内部时间匹配机制的数据集。

使用方法

DiffTrack的应用主要体现在零样本点追踪和运动增强视频生成两大场景。对于零样本追踪，用户需将实时视频通过DDIM反演至选定时间步，从最优层提取特征描述符，并关闭3D VAE的时间压缩以保持帧-潜在空间一对一映射。长视频序列需采用交错分块策略，每块插入全局首帧维持直接时间关联。在运动增强生成中，交叉注意力引导（CAG）技术通过扰动特定层的跨帧注意力图来提升时间一致性，无需额外训练。实践表明，该方法在TAP-Vid基准上超越现有视觉基础模型，并在人类评估中显著改善视频质量和运动保真度。

背景与挑战

背景概述

DiffTrack数据集由KAIST、Korea University和Google DeepMind的研究团队于2025年6月提出，旨在揭示视频扩散变换器（DiTs）在视频生成过程中如何建立时间对应关系。该数据集通过构建带有伪真实跟踪注释的提示生成视频，为分析DiTs内部的时间匹配机制提供了首个定量分析框架。DiffTrack不仅揭示了特定层中查询-键相似性在时间匹配中的关键作用，还展示了去噪过程中时间匹配的增强趋势。这一工作为理解视频DiTs的内部工作机制奠定了基础，并在零样本点跟踪和运动增强视频生成等应用中展现了卓越性能。

当前挑战

DiffTrack面临的挑战主要体现在两个方面：在领域问题层面，视频DiTs如何精确建立跨帧时间对应关系仍是一个未解之谜，尤其是在处理复杂运动和长视频序列时；在构建过程层面，数据集需要克服伪真实轨迹标注的准确性挑战，以及3D VAE时间压缩导致的运动细节丢失问题。此外，如何从全3D注意力机制中系统性地提取时间匹配信息，并设计有效的评估指标来量化匹配精度和置信度，也是构建过程中的关键挑战。

常用场景

经典使用场景

DiffTrack数据集在视频生成与分析领域具有重要应用价值，尤其在研究视频扩散变换器（DiTs）内部时间对应关系方面表现突出。通过构建包含伪真实跟踪标注的提示生成视频数据集，DiffTrack能够系统分析DiTs中3D注意力机制各组件（如表示、层和去噪时间步）对时间对应关系建立的贡献。该数据集最经典的使用场景包括零样本点跟踪和运动增强视频生成，为研究人员提供了深入理解视频DiTs内部机制的宝贵工具。

衍生相关工作

DiffTrack数据集催生了一系列相关研究工作，包括对CogVideoX、HunyuanVideo等开源视频DiT模型的深入分析。基于其发现的关键层和时间步特征，研究者开发了创新的零样本跟踪方法和运动增强生成技术。该数据集还为视频深度估计、姿态估计和3D/4D重建等下游任务提供了时序理解基础，推动了视频生成模型在更广泛视觉任务中的应用。

数据集最近研究