Sparkle

github2026-05-08 更新2026-05-10 收录

下载链接：

https://github.com/showlab/Sparkle

下载链接

链接失效反馈

官方服务：

资源简介：

Sparkle是一个大规模的视频背景替换数据集，包含约140K高质量的原视频-编辑视频对。数据集按照五个主题组织，分别涉及不同背景变化的轴：地点（不同的物理环境）、季节（春夏秋冬）、时间（一天中的不同时间）、风格（时代、情绪、电影等）以及OpenVE-3M子集的重现。

Sparkle is a large-scale video background replacement dataset containing approximately 140K high-quality raw and edited video pairs. The dataset is organized into five themes corresponding to distinct axes of background variation: location (different physical environments), season (spring, summer, autumn and winter), time of day (different times throughout a day), style (eras, moods, cinematic styles, etc.), and the reproduction of the OpenVE-3M subset.

创建时间：

2026-05-07

原始信息汇总

Sparkle 数据集详情总结

数据集简介

Sparkle 是一个大规模视频背景替换数据集，包含约 140,000 对高质量的源视频与编辑后视频配对。数据集完全开源，旨在实现通过指令驱动的生动视频背景替换。

数据集主题

数据集按照背景变换的不同维度，划分为 五个主题：

主题	描述
`location`	背景替换为不同的物理环境（如乡村、自然景观、地标等）
`season`	背景在不同季节间变换（春、夏、秋、冬）
`time`	背景在一天中的不同时间变换（黎明、黄昏、夜晚等）
`style`	背景风格重新设计（如时代风格、情绪风格、电影风格等）
`openve3m`	使用 Sparkle 流程对 OpenVE-3M 背景替换子集进行重新创建，便于与先前工作直接比较

数据集结构与格式

仓库结构

数据集采用分层目录结构，包含训练标注、完整语料库和在线预览数据：

prompts/：存放训练标注文件，每个主题包含一个 CSV 文件和一个 JSONL 元数据文件
- 例如：location_train.csv、location_train_metadata.jsonl
{theme}/：每个主题文件夹内包含在线预览的前 100 个样本的源视频和编辑视频
- 例如：location/source_video/、location/edited_video/
{theme}_*_partXX.tar：完整的语料库文件，每个约 5GB，按主题和内容类型分片压缩
intermediate_data/：管道中间产物，用于完全可复现和透明度支持

训练数据格式

训练标注 CSV 文件包含四列：

列名	描述
`prompt`	自然语言编辑指令
`src_video`	源视频的路径
`tgt_video`	编辑后视频的路径
`task`	唯一样本 ID，与 JSONL 元数据中的 `id` 字段关联

每个任务对应的 JSONL 元数据包含：

字段	描述
`id`	样本 ID，与 CSV 中的 `task` 列匹配
`prompt`	与 CSV 中相同的编辑指令
`metadata.edit_type`	主题类型（`location` / `season` / `time` / `style` / `openve3m`）
`metadata.chosen_keyword`	子主题场景标签（例如 `"urban: rooftop overlooking skyline"`）
`metadata.original_scene`	源视频第一帧的描述

下载与使用方法

在线预览

每个主题的前 100 个样本以未压缩的 .mp4 文件形式存储在对应文件夹中，可直接在浏览器中播放，无需下载完整语料库。

下载完整语料库

完整语料库按约 5GB 分片，存储在仓库根目录的 .tar 压缩包中。

下载所有内容（推荐用于完整复现）： bash hf download stdKonjac/Sparkle --repo-type=dataset --local-dir ./Sparkle
下载单个主题（例如 location）： bash hf download stdKonjac/Sparkle --repo-type=dataset --local-dir ./Sparkle --include "location_.tar" "prompts/location_"
下载单个主题的源视频： bash hf download stdKonjac/Sparkle --repo-type=dataset --local-dir ./Sparkle --include "location_source_video_*.tar"
解压缩：每个 .tar 文件自包含，直接在对应目录解压即可： bash cd ./Sparkle for f in *.tar; do tar -xf "$f"; done

管道中间产物

为支持完全可复现和下游研究，数据集额外发布了五阶段数据管道产生的所有中间产物，存储在 intermediate_data/ 目录下。

每个主题的中间产物包含以下子目录：

目录	描述
`source_frame0/`	源视频第 0 帧图像
`edited_frame0/`	初步背景替换后的第一帧输出
`edited_frame0_foreground_removed/`	去除前景后的干净背景图像
`edited_background_video/`	81 帧的纯背景视频（无前景）
`source_video_mask/`	BAIT 跟踪的前景掩码（位压缩存储）
`edited_video_canny/`	解耦的前景 + 背景 Canny 边缘检测结果

前 100 个样本的中间产物可直接在浏览器预览，完整中间产物同样以约 5GB 的 .tar 分片存储。

前景掩码加载方法

掩码以位压缩格式存储，可使用以下 Python 代码解压：

python import numpy as np

def load_mask(mask_path: str) -> np.ndarray: data = np.load(mask_path) packed_mask = data["mask"] shape = tuple(int(s) for s in data["shape"]) total = shape[0] * shape[1] * shape[2] video_mask = np.unpackbits(packed_mask)[:total].reshape(shape).astype(bool) return video_mask

管道元数据文件

每个主题的 intermediate_data/ 文件夹中还包含五个 JSONL 文件，记录管道各阶段产生的元数据：

edited_frame0_score.jsonl：记录 Stage 2 输出的 EditScore 评估结果，包括 prompt_following、consistency、perceptual_quality 等子分数及总体分数。质量过滤阈值为总体分数 < 8 的样本被剔除。
edited_frame0_foreground_removed_score.jsonl：记录 Stage 3 中间产物的 EditScore 评估，衡量前景去除质量。质量过滤阈值为总体分数 < 8.5 的样本被剔除。
foreground_grounding_r1.jsonl：记录第一轮 VLM 基础定位结果，包含识别出的前景对象标签和检测边界框。边界框采用 Qwen3-VL 的归一化坐标格式（范围 [0, 1000]），可转换为绝对像素坐标。

搜集汇总

数据集介绍

构建方式

Sparkle数据集是一个大规模视频背景替换数据集，包含约14万对高质量源视频与编辑后视频对。其构建遵循一条精心设计的五阶段流水线：首先利用基础模型生成编辑后的首帧图像，随后通过前景移除与背景视频生成获得纯净背景，再借助BAIT追踪算法获取前景掩码，最后将前景与背景解耦并融合Canny边缘信息以提升一致性。数据集覆盖五个主题维度（地点、季节、时间、风格及OpenVE-3M复现子集），每个样本均附有自然语言编辑指令与详细的元数据，包括编辑类型、子主题及原始场景描述。

特点

该数据集的核心特色在于其规模宏大、维度丰富且结构高度透明。约14万对视频对覆盖了背景替换中五种关键变化轴，为模型训练提供了多样化的场景基础。每个样本不仅包含成对的源与编辑视频，还公开了流水线各阶段的中间产物（如首帧图、纯净背景视频、前景掩码等），支持完整复现与质量筛选。此外，数据集采用与Kiwi-Edit兼容的格式，便于无缝接入现有下游训练流程，并提供了在线预览功能，使研究者无需下载即可快速浏览样本质量。

使用方法

使用Sparkle数据集时，研究者可通过Hugging Face仓库进行灵活下载。完整语料库被分片为约5GB的tar归档文件，支持按主题或按视频类型选择性下载。下载后直接解压即可获得与在线预览结构一致的目录布局，CSV注释文件中的相对路径立即生效。对于需要精细控制的研究，数据集还提供了流水线中间产物，包括每样本的编辑评分、前景接地标签及掩码数据，可据此构建更严格或更宽松的数据变体。掩码加载通过提供的Python函数即可轻松完成，支持布尔数组形式的视频掩码获取。

背景与挑战

背景概述

Sparkle数据集由新加坡国立大学Show Lab的Ziyun Zeng、Yiqi Lin、Guoqiang Liang与Mike Zheng Shou研究团队于2025年创建，旨在解决指令引导下视频背景替换任务中数据稀缺与质量参差的困境。该数据集包含约14万对高质量源视频与编辑后视频对，覆盖地点、季节、时间、风格及OpenVE-3M重建五大主题，首次在规模化、精细化层面为视频背景替换研究提供了系统性的监督信号。其通过五阶段管道生成、严格质量筛选与详尽元数据标注，显著推动了视频编辑领域从静态图像编辑向动态场景理解的演进，成为该方向不可或缺的基准资源。

当前挑战

Sparkle数据集的核心挑战在于：领域问题层面，视频背景替换需同时应对前景目标的身份一致性保持、背景语义的精准变换以及时序上的自然过渡，现有方法在复杂运动、遮挡与多目标场景下仍面临严重退化；构建过程中，团队需克服多阶段管道中背景与前景的精确解耦难题，确保编辑后的纯背景视频无前景伪影，同时利用视觉语言模型进行前景接地标注时需处理细粒度对象的漏检与边界框漂移，并通过编辑评分与主观筛选机制在14万样本量级上维持整体质量高于8分的严苛标准。

常用场景

经典使用场景

Sparkle数据集最为经典的使用场景在于视频背景替换任务的训练与评估。该数据集包含了约14万对高质量源视频与编辑后视频的配对样本，覆盖了地理位置、季节更替、时间变化、风格迁移及与OpenVE-3M基准对齐的五大主题。研究者可以借助这些素材，训练模型依据自然语言指令实时、生动地将视频中的背景替换为目标场景，同时确保前景主体在身份、姿态与运动上的高度一致。这一典型场景为视频编辑领域带来了一种全新的精细化控制范式，使得背景变换不再停留于粗糙的叠加，而是在保留丰富视觉细节与语义准确性的前提下实现指令驱动的动态重构。

实际应用

在实际应用层面，Sparkle数据集赋能了众多高价值的创意生产与内容制作场景。无论是在影视后期中快速更换拍摄地点的季节与气候元素，还是在虚拟主播与视频会议中动态调整背景氛围以匹配讲演主题，Sparkle所支持的技术均可实现低门槛、高保真的专业级效果。此外，在社交媒体内容创作与广告营销领域，创作者能够依据文字描述即刻将普通视频移植到异域风光或奇幻风格的背景中，极大地提升了视觉叙事的灵活性与表达弹性。这种指令引导的实时背景替换能力，也正逐步渗透至在线教育、数字人交互与个性化娱乐应用之中，让普通用户也能享受以前仅属于专业工作室的后期效果。

衍生相关工作

Sparkle数据集已衍生出多项具有开创性的后续工作。一方面，其配套发布的Kiwi-Sparkle模型在720P分辨率下实现了81帧的高质量背景替换，推动了现有视频编辑模型在处理精细前景边缘与复杂动态场景时的性能边界。另一方面，研究者在Sparkle的基础上发展了前景与背景解耦的Canny边缘控制策略，用于在生成过程中同时保持主体结构与背景过渡的自然性。此外，该数据集还常被用作大规模视频编辑模型（如基于扩散架构的时序编辑网络）的微调与评测基准，激发了关于指令可控性与视频保真度权衡的一系列深入探讨，并催生了多篇聚焦于视频背景感知与去耦生成的顶级期刊与会议论文。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集