five

OpenAnimal

收藏
arXiv2025-09-25 更新2025-09-27 收录
下载链接:
https://yu-shaonian.github.io/UniTransfer-Web/
下载链接
链接失效反馈
官方服务:
资源简介:
OpenAnimal是一个以动物为中心的视频数据集,旨在促进和评估视频概念转移研究。该数据集收集了动物视频,用于训练和评估UniTransfer框架,该框架通过渐进式空间和时间步分解实现精确可控的视频概念转移。数据集的具体大小、数据量、Tokens数等信息在论文中未详细说明。

OpenAnimal is an animal-centric video dataset intended to facilitate and evaluate research on video concept transfer. This dataset curates animal videos for training and evaluating the UniTransfer framework, which enables precisely controllable video concept transfer through progressive spatial and temporal step decomposition. Specific details such as the dataset's size, total data volume, and number of Tokens are not elaborated in the paper.
提供机构:
浙江大学, 清华大学, 浙江工商大学, 北京航空航天大学
创建时间:
2025-09-25
原始信息汇总

UniTransfer: Video Concept Transfer via Progressive Spatial and Timestep Decomposition

基本信息

  • 标题: UniTransfer: Video Concept Transfer via Progressive Spatial and Timestep Decomposition
  • 作者: Guojun Lei, Rong Zhang, Chi Wang, Tianhang Liu, Hong Li, Zhiyuan Ma, weiwei xu
  • 相关链接:
    • arXiv
    • NeurIPS2025
    • Code
    • UniTransfer

摘要

Recent advancements in video generation models have enabled the creation of diverse and realistic videos, with promising applications in advertising and film production. However, as one of the essential tasks of video generation models, video concept transfer remains significantly challenging. Existing methods generally model video as an entirety, leading to limited flexibility and precision when solely editing specific regions or concepts. To mitigate this dilemma, we propose a novel architecture UniTransfer, which introduces both spatial and diffusion timestep decomposition in a progressive paradigm, achieving precise and controllable video concept transfer. Specifically, in terms of spatial decomposition, we decouple videos into three key components: the foreground subject, the background, and the motion flow. Building upon this decomposed formulation, we further introduce a dual-to-single-stream DiT-based architecture for supporting fine-grained control over different components in the videos. We also introduce a self-supervised pretraining strategy based on random masking to enhance the decomposed representation learning from large-scale unlabeled video data. Inspired by the Chain-of-Thought reasoning paradigm, we further revisit the denoising diffusion process and propose a Chain-of-Prompt (CoP) mechanism to achieve the timestep decomposition. We decompose the denoising process into three stages of different granularity and leverage large language models (LLMs) for stage-specific instructions to guide the generation progressively. We also curate an animal-centric video dataset called OpenAnimal to facilitate the advancement and benchmarking of research in video concept transfer. Extensive experiments demonstrate that our method achieves high-quality and controllable video concept transfer across diverse reference images and scenes, surpassing existing baselines in both visual fidelity and editability.

方法概述

  • 核心架构: UniTransfer
  • 空间分解: 将视频解耦为三个关键组成部分:前景主体、背景和运动流。
  • 架构设计: 基于DiT的双流到单流架构,支持对视频中不同组件的细粒度控制。
  • 预训练策略: 基于随机掩码的自监督预训练策略,从大规模未标记视频数据中增强分解表示学习。
  • 时间步分解: 受思维链推理范式启发,提出提示链机制,将去噪过程分解为三个不同粒度的阶段,并利用大型语言模型进行阶段特定指令逐步引导生成。
  • 配套数据集: 构建了一个以动物为中心的视频数据集OpenAnimal,以促进视频概念转移研究的进展和基准测试。

可视化结果

人类前景转移

  • 包含多组结果对比。

人类背景转移

  • 包含多组结果对比。

服装转移

  • 包含多组结果对比。

动物转移比较

  • 比较方法: MotionClone, Motion-I2V, MOFA-Video, Ours
  • 包含与参考视频及多种方法的对比结果。

人类转移比较

  • 比较方法: AnyV2V, Control-Video, AnimateAnyone, Champ, UniAnimate, Ours
  • 包含与参考视频及多种方法的对比结果。

动物转移

  • 包含多组结果展示。

OpenAnimal数据集

  • 展示了数据集的多个示例。
搜集汇总
数据集介绍
main_image_url
构建方式
在视频概念迁移研究领域,数据集的构建质量直接影响模型的泛化能力。OpenAnimal数据集聚焦于动物主题,收录了涵盖多种物种和运动模式的单动物视频序列,其构建过程遵循严格的筛选标准,确保视频内容的多样性和运动模式的丰富性。通过采集来自公开资源的动物视频,并利用预分割技术提取前景与背景信息,该数据集为模型训练提供了高质量的空间解耦标注。
特点
OpenAnimal数据集的显著特点在于其专为动物视频概念迁移任务设计,涵盖了广泛的物种类别与复杂的动态行为。该数据集不仅提供了精细的前景分割掩码和背景信息,还包含光学流数据以捕捉时间动态特征。其样本在视觉质量和时序一致性方面表现优异,能够有效支持模型学习动物外观、运动模式及场景交互的 disentangled 表示。
使用方法
该数据集主要用于训练和评估视频概念迁移模型,尤其适用于动物主题的前景替换、背景迁移和运动传递等任务。研究人员可依据数据集中提供的分割掩码、光学流和文本描述,分别对齐前景、背景与运动组件,进而实现可控的视频生成。数据集的标注结构支持端到端训练,也可用于验证空间解耦与时间一致性建模的有效性。
背景与挑战
背景概述
OpenAnimal数据集由浙江大学、清华大学等机构的研究团队于2025年创建,旨在推动视频概念迁移领域的发展。该数据集聚焦于动物主题视频序列,涵盖多样物种与运动模式,为图像引导的视频编辑任务提供了专门化的评估基准。其设计灵感源于视频生成模型中空间与时间分解的技术需求,通过提供高质量标注数据支持模型在复杂场景下的泛化能力,对计算机视觉与生成式人工智能研究具有重要推动作用。
当前挑战
视频概念迁移任务需解决目标对象身份保持、时空一致性及多组件融合等核心难题,现有方法在非人类对象编辑中存在泛化局限。构建OpenAnimal时面临动物运动模式标注复杂性、大规模视频数据语义分割精度不足等挑战,需通过自监督预训练与随机掩码策略降低对精细标注的依赖,同时确保跨物种运动的真实性与多样性表征。
常用场景
经典使用场景
在视频生成与编辑领域,OpenAnimal数据集作为动物中心化视频资源的代表,为图像引导的视频概念迁移任务提供了关键支撑。该数据集通过收录涵盖多种物种和运动模式的单动物视频序列,使研究者能够系统评估模型在动物角色替换、背景重构及运动动态迁移等核心场景下的表现。例如在UniTransfer框架中,OpenAnimal被用于验证空间分解与时间步分解策略的有效性,通过分离前景动物、背景环境与运动流组件,实现了对视频元素的精细化操控。
实际应用
依托OpenAnimal数据集的技术成果已渗透至影视制作与虚拟内容创作等实际场景。在野生动物纪录片制作中,研究者可利用该数据集训练的模型实现濒危物种行为模拟或场景迁移,避免实地拍摄对生态的干扰。游戏产业则借助其动物运动迁移能力,快速生成具有自然动态的虚拟生物角色。此外,教育领域通过背景替换技术将动物行为置于不同生态环境中,增强科普内容的沉浸感,体现了技术向产业端的高效转化。
衍生相关工作
OpenAnimal数据集催生了多维度视频编辑研究的创新浪潮。以UniTransfer为代表的框架通过空间分解机制启发了后续工作如VideoSwap对语义对应关系的探索,而时间步分解策略则促进了类似ProSpect的渐进式生成范式发展。在数据集层面,其动物中心化设计理念影响了WildTrack等跨物种基准的构建。同时,基于该数据集的自监督预训练方法为MoFa-Video等模型提供了表征学习范本,形成从方法创新到基准完善的良性循环。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作