refVFX_dataset

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/maxwelljones14/refVFX_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

RefVFX Video Edits 数据集是一个非官方实现的视频视觉特效迁移数据集，旨在实现无需调参的视频间特效转移。该数据集基于 RefVFX 项目的研究论文和 AI 编码软件生成。数据集包含三个子集：1) code_based_edits - 包含程序化时空特效的视频编辑三元组（输入视频、输出视频、遮罩）及文本提示；2) neural_v2v_data - 由扩散模型生成的神经视频到视频编辑效果；3) I2V_LoRA - 使用 LoRA 适配器在图像到视频扩散模型上生成的特效。数据集总规模为 166,717 个样本，涵盖 2,898 种特效类型。数据集采用 WebDataset 格式存储，支持高效流式加载，适用于视频编辑、视觉特效生成、视频到视频转换等任务。数据集发布遵循 CC-BY-4.0 许可协议。

创建时间：

2026-04-16

原始信息汇总

RefVFX Video Edits 数据集概述

数据集基本信息

数据集名称：RefVFX Video Edits
数据集地址：https://huggingface.co/datasets/maxwelljones14/refVFX_dataset
许可协议：CC-BY-4.0
任务类别：视频到视频、图像到视频
标签：视频、视频编辑、视觉效果、VFX、时间过渡、LoRA
数据规模：100K < n < 1M

数据集描述

此数据集是 RefVFX 项目的一个非官方重新实现，用于跨视频的无调优视觉效果迁移。数据和代码是在 arXiv 论文和 AI 编码软件的帮助下生成的。

原始论文：Tuning-free Visual Effect Transfer across Videos

数据集统计

子集	效果类型数量	总样本对数量	每种效果的平均样本对数量
Code-Based Edits	2736	136,800	50.0
Neural V2V	114	22,922	201.1
I2V LoRA	48	6,995	145.7
总计	2898	166,717	57.5

数据集子集与配置

1. `code_based_edits` - 基于代码的时间效果

描述：确定性的、基于代码的视频编辑三元组：（输入视频、输出视频、掩码）与文本提示配对。每个样本将空间视觉效果（例如，海报化、像素化、故障、浮雕）与时间过渡（例如，擦除、圆形显示、对角线淡入淡出）结合应用于输入视频，产生效果随时间渐进出现的输出视频。
效果特性：效果是基于代码且确定性的。参数在样本间随机化以提供多样性。效果与原始论文不完全相同，但取自论文并略有增强。
源视频：Senorita 基础数据集（以人物为中心的视频，带分割掩码，33帧，8fps）。
空间效果：30种类型，包括 posterize_frames, pixelate_frames, invert_frames, glow_effect, photocopy, solarize 等。
时间过渡：20多种类型，包括线性擦除、对角线擦除、圆形/矩形/菱形进入/退出显示、时钟擦除、百叶窗、棋盘格、噪波溶解、螺旋擦除、交叉进入/退出、条纹图案、Alpha交叉溶解。
effect_type：完整的文件夹名称，编码了特定的空间效果、时间过渡、掩码类型和方向组合。

2. `neural_v2v_data` - 神经视频到视频编辑

描述：由扩散模型生成的神经视频到视频编辑，使用原始论文第3.2.2节中的算法。每个样本包含一个基础视频（v1，无效果）和一个效果视频（v2，相同运动+应用的视觉效果）。这些样本经过质量过滤，大约保留50%。
effect_type：特定的效果描述，分为6个更广泛的类别：object_addition, weather_atmospheric, artistic_stylistic, particle_element, color_palette_tonal, surreal_fantasy。

3. `I2V_LoRA` - 基于LoRA的图像到视频效果

描述：使用应用于视频扩散模型的LoRA适配器生成的图像到视频效果，主要来自此处。每个样本包含一个输入图像和一个应用了LoRA效果的生成视频。这些样本通过多分数评估进行质量过滤，仅包含 "verdict" 字段为 "accepted" 的样本。
effect_type：LoRA触发短语。
掩码信息：此子集的 mask_or_output_conditioning 和 mask_type 为 None。

数据集结构

数据集以 WebDataset tar 分片格式存储（每个约22 GB）。每个分片中的样本由以下条目组成，由6位样本索引作为键：

Tar 条目	类型	描述
`{key}.input_image_or_video.mp4` (或 `.png`)	字节	输入视频（code-based, V2V）或输入图像（I2V）
`{key}.output_video.mp4`	字节	应用了效果的输出视频
`{key}.mask_or_output_conditioning.mp4`	字节	二值掩码（code-based）、条件视频（V2V）；I2V子集中不存在
`{key}.json`	JSON 字符串	文本元数据

JSON 元数字段：

prompt：编辑的文本描述。
effect_type：完整的效果文件夹名称（code-based）、特定的效果描述（V2V）或LoRA触发词（I2V）。
mask_type：full、foreground、background 或 null（I2V）。
orientation：horizontal 或 vertical。
data_subset：code_based_edits、neural_v2v_data 或 I2V_LoRA。

掩码类型（仅限基于代码的编辑，取自 Senorita 数据集掩码）

full：效果应用于整个帧。
foreground：效果仅应用于检测到的人物/物体。
background：效果应用于背景；人物/物体保持不变。

加载方式

数据集使用 WebDataset 格式（tar 分片）以便高效流式传输大型视频文件。每个子集可以独立加载。建议使用 streaming=True 模式流式加载大型数据集。

引用（原始论文）

bibtex @article{jones2026tuning, title={Tuning-free Visual Effect Transfer across Videos}, author={Jones, Maxwell and Abdal, Rameen and Patashnik, Or and Salakhutdinov, Ruslan and Tulyakov, Sergey and Zhu, Jun-Yan and Wang, Kuan-Chieh Jackson}, journal={arXiv preprint arXiv:2601.07833}, year={2026} }

搜集汇总

数据集介绍

构建方式

在视觉特效研究领域，构建高质量的视频编辑数据集对于推动免调优视觉特效迁移技术的发展至关重要。RefVFX数据集通过三种互补的构建策略实现：其一，基于代码的编辑子集采用程序化方法，对输入视频施加确定性的空间视觉特效与时间过渡效果，结合随机化参数生成多样化的视频-掩码-输出三元组；其二，神经视频到视频编辑子集利用扩散模型算法，生成带有渐进式视觉特效的视频对，并经过多维度质量评分筛选；其三，基于LoRA的图像到视频编辑子集则通过适配器技术，将特定触发词对应的风格化效果应用于静态图像以生成动态视频序列。整个数据集以WebDataset格式组织，确保了大规模视频数据的高效流式加载。

特点

该数据集在视频特效编辑领域展现出鲜明的结构化特征。其核心优势在于覆盖了从程序化生成到神经渲染的多元编辑范式，共计包含超过十六万对样本，涵盖近三千种特效类型。数据集提供了精细的文本描述、特效类型标注以及掩码信息，其中基于代码的编辑部分确保了效果的可复现性，而神经生成部分则体现了算法驱动的创造性。数据组织采用分片存储与流式读取设计，有效平衡了存储效率与访问性能。不同子集在输入模态（视频或图像）、输出形式以及条件信息上各具特色，共同构成了一个层次丰富、标注完备的视觉特效研究资源。

使用方法

为高效利用该数据集进行模型训练或评估，研究者可通过Hugging Face的datasets库按需加载特定子集。数据集支持流式读取模式，适合处理大规模视频文件，用户可迭代访问每个样本的二进制媒体数据及其关联的JSON元数据。元数据中包含了提示词、特效类型、掩码类别等关键信息，为监督学习或条件生成任务提供了结构化监督信号。具体应用中，可根据研究目标选择对应的子集：程序化编辑子集适用于可控特效迁移，神经视频到视频子集适合学习复杂视觉变换，而图像到视频子集则可用于跨模态生成任务。数据加载接口设计简洁，便于集成到现有的深度学习管道中。

背景与挑战

背景概述

RefVFX数据集源于2026年由卡内基梅隆大学等机构研究人员提出的“免调优视频间视觉特效迁移”研究课题，其核心旨在解决视频编辑领域中跨视频视觉特效自动化迁移的难题。该数据集作为原始研究的非官方复现，通过整合代码生成编辑、神经视频到视频转换以及基于LoRA的图像到视频生成三大子集，构建了涵盖近三千种特效类型、超过十六万样本的大规模视频对资源。它的出现推动了生成式视频模型在时序一致性、特效可控性等方面的探索，为视频内容创作与自动化后期处理提供了重要的基准数据支撑。

当前挑战

该数据集致力于解决视频特效迁移中时序一致性保持与内容保真度平衡的核心挑战，要求模型在未经过特定调优的情况下，将源视频中的复杂视觉特效自然迁移至目标视频，同时避免出现画面闪烁、运动失真等伪影。在构建过程中，数据生成面临多重困难：其一，程序化编辑需精确控制空间特效与时间过渡的协同参数，确保生成样本的多样性与真实性；其二，神经生成样本需经过严格的质量筛选，以剔除存在明显运动突变或视觉瑕疵的数据，保障数据集的可靠性；其三，整合多源异构生成方式时，需统一数据格式与标注规范，以维持整体数据集的结构一致性。

常用场景

经典使用场景

在视频特效生成领域，RefVFX数据集为无调优视觉特效迁移研究提供了关键支持。该数据集通过包含代码级编辑、神经视频到视频转换以及基于LoRA的图像到视频生成三大子集，构建了丰富的视觉特效迁移范例。其经典使用场景在于训练和评估生成模型，使其能够理解并执行复杂的时空特效指令，例如将输入视频中的特定对象或背景逐步转化为带有光晕、像素化或艺术风格化的效果，同时保持时间连贯性。

解决学术问题

该数据集有效解决了视频编辑中视觉特效迁移的核心学术难题，即如何在不进行模型微调的情况下，实现跨视频的复杂特效传递。它通过提供大规模、多样化的输入-输出视频对及对应文本描述，为研究时空一致性、指令跟随以及跨域泛化能力奠定了数据基础。其意义在于推动了生成式人工智能在动态视觉内容创作中的进步，使得自动化、高质量的视频特效生成成为可能，并促进了可控视频生成技术的标准化评估。

衍生相关工作

围绕RefVFX数据集，已衍生出一系列关于无调优视频编辑与特效迁移的经典研究工作。这些工作主要聚焦于改进基于扩散模型的视频生成架构，探索更高效的时空注意力机制，以及开发能够精准解析复杂文本指令的跨模态对齐方法。此外，该数据集也促进了针对视频特效可控制性、生成质量评估以及长序列视频连贯性等细分方向的研究，为构建下一代智能视频编辑工具提供了重要的算法与理论支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集