HunyuanVideoT2V

Name: HunyuanVideoT2V
Creator: 南洋理工大学
Published: 2025-10-16 21:02:11
License: 暂无描述

arXiv2025-10-16 更新2025-10-18 收录

下载链接：

https://github.com/leoisufa/ICVE

下载链接

链接失效反馈

官方服务：

资源简介：

HunyuanVideoT2V数据集由南洋理工大学的研究团队创建，包含约100万个真实视频片段，用于学习基本的编辑概念。数据集通过将原始视频片段与伪编辑视频片段进行配对，生成编辑指令，从而教授模型基本的编辑概念。数据集的创建过程包括对原始视频片段进行场景分割、计算光流、过滤、分割和随机选择，以及生成描述原始片段到伪编辑片段转换的编辑指令。该数据集的应用领域是视频编辑，旨在解决高质量视频编辑模型训练数据稀缺的问题。

The HunyuanVideoT2V dataset was developed by a research team from Nanyang Technological University, containing approximately 1 million real-world video clips for learning foundational editing concepts. The dataset pairs original video clips with pseudo-edited video clips to generate corresponding editing instructions, thereby teaching models basic editing principles. The dataset construction process includes scene segmentation of raw video clips, optical flow calculation, filtering, segmentation and random sampling, as well as generating editing instructions that describe the transformation from original clips to pseudo-edited versions. This dataset focuses on the field of video editing, aiming to address the scarcity of high-quality training data for video editing models.

提供机构：

南洋理工大学

创建时间：

2025-10-16

原始信息汇总

ICVE 数据集概述

项目简介

ICVE（In-Context Learning with Unpaired Clips for Instruction-based Video Editing）是一个基于指令的视频编辑项目，提出了一种通过非配对视频片段进行上下文学习的低成本预训练策略。

核心特性

训练策略：通过约100万非配对视频学习编辑概念
微调数据：使用少于15万配对编辑数据进行微调
技术基础：基于HunyuanVideo构建
功能特点：支持自然语言引导的通用编辑操作

模型资源

预训练权重：基于HunyuanVideo官方预训练模型
ICVE检查点：可通过HuggingFace获取
论文资料：arXiv论文编号2510.14648

技术依赖

CUDA版本：推荐12.4或11.8
Python版本：3.10.9
PyTorch版本：2.4.0
其他依赖：需安装flash attention v2加速

项目结构

ICVE/ ├── checkpoint/ # ICVE模型检查点 ├── ckpts/ # HunyuanVideo预训练权重 ├── scripts/ # 演示脚本目录 ├── sample_video.py # 主要运行脚本 └── requirements.txt # 依赖文件

演示运行

支持通过脚本或命令行运行视频编辑演示，示例命令包含多种参数配置选项，如视频尺寸、步数、提示词等。

致谢

项目基于以下开源工作构建：

HunyuanVideo
FastVideo
VACE

引用信息

如使用本项目，请按指定BibTeX格式引用相关论文。

搜集汇总

数据集介绍

构建方式

在视频编辑领域面临高质量配对数据稀缺的背景下，HunyuanVideoT2V数据集采用创新的两阶段构建策略。预训练阶段从原始长视频中提取无过渡场景片段，通过光学流筛选保留运动幅度适中的片段，随后将其分割为固定时长的非重叠片段。从同一场景中随机选取两个片段分别作为原始视频和伪编辑视频，利用Step3模型生成描述两者差异的编辑指令，最终构建约100万视频片段对。监督微调阶段则通过VACE视频修复模型生成合成编辑数据，结合GroundedSAM2获取分割掩码，并经过多轮质量筛选保留不足15万高质量编辑样本。

特点

该数据集在指令式视频编辑领域展现出显著特征优势。其预训练数据源自真实视频片段，有效规避了合成数据常见的伪影和人工智能痕迹问题，确保视觉质量的真实性。数据构建采用场景一致性原则，同一场景内的片段共享相似的背景、角色和物体，使模型能够学习保留原始视频上下文信息的能力。通过时序采样差异引入的运动变化，数据集自然蕴含了视频到视频编辑的基本概念。监督微调阶段的数据经过严格质量筛选，仅保留指令准确性和视觉质量均获最高评分的样本，并平衡不同编辑类型的数据分布，避免模型偏向特定任务。

使用方法

该数据集支持端到端的指令式视频编辑模型训练流程。在模型架构层面，采用上下文输入机制将原始视频令牌与加噪令牌沿序列维度拼接，并通过设定原始视频令牌对应时间步为0的方式适配无噪声特性。训练过程首先在240p分辨率下进行预训练，逐步提升至多分辨率桶以增强视觉质量。预训练阶段使模型掌握从原始视频中提取场景、角色和物体信息的能力，并初步学习添加、删除和替换等基本编辑操作。监督微调阶段仅需一个训练周期，使用少量高质量编辑数据即可扩展模型支持的编辑类型范围，提升对编辑指令的响应精度，同时增强对未修改区域细节的保留能力。

背景与挑战

背景概述

随着人工智能生成内容领域的快速发展，基于指令的图像编辑技术已取得显著突破，然而视频编辑领域仍面临数据稀缺与计算复杂性的双重挑战。HunyuanVideoT2V数据集由南洋理工大学与StepFun团队于2025年提出，其核心目标在于解决大规模配对视频编辑数据构建成本高昂的难题。该数据集创新性地采用非配对视频片段进行上下文学习预训练，通过从真实视频中提取约百万个片段构建基础训练集，再结合少量高质量编辑数据进行微调，显著提升了模型在添加、替换、删除等编辑任务中的指令遵循能力与视觉保真度。

当前挑战

在领域问题层面，视频编辑需克服时序一致性保持与多帧语义连贯性的技术瓶颈，传统方法常因生成质量下降或依赖额外掩码输入而受限。构建过程中，真实编辑数据规模有限且处理复杂，合成数据易产生人工痕迹并消耗巨量计算资源。该数据集通过两阶段训练策略缓解数据依赖，但原始视频令牌的上下文整合仍导致序列长度倍增，引发注意力机制计算复杂度二次增长的新挑战。

常用场景

经典使用场景

在视频内容生成与编辑领域，HunyuanVideoT2V数据集通过构建大规模无配对视频片段与高质量编辑样本，为基于指令的视频编辑任务提供了重要支撑。该数据集最经典的使用场景体现在训练模型理解自然语言指令并执行精确的视频内容修改，包括对象添加、替换、删除等操作，同时保持原始视频的时空连贯性与视觉一致性。其独特的数据构建策略使模型能够在保留背景环境、人物身份等未编辑元素的基础上，实现指令驱动的语义级视频变换。

实际应用

在实际应用层面，该数据集支撑的模型已广泛应用于影视后期制作、社交媒体内容创作等场景。制作人员可通过自然语言指令快速实现视频中特定元素的修改，如更换场景中的物体、调整人物动作或改变视觉风格。教育领域利用该技术生成定制化教学视频，电商平台则用于产品展示视频的快速迭代。其高质量的输出结果与精准的指令响应能力，显著提升了视频内容生产的效率与创造性。

衍生相关工作

基于该数据集衍生出多个重要研究方向，包括InsV2V提出的合成数据构建流程、Señorita-2M的大规模高质量编辑数据集、以及Lucy Edit的通道拼接优化方法。这些工作进一步拓展了指令视频编辑的技术边界，在模型架构优化、数据质量提升等方面取得显著进展。同时，该数据集启发的两阶段训练策略已被多个后续研究采纳，成为解决数据稀缺问题的经典方案，推动了整个视频编辑领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集