Sparkle
收藏Sparkle 数据集详情总结
数据集简介
Sparkle 是一个大规模视频背景替换数据集,包含约 140,000 对高质量的源视频与编辑后视频配对。数据集完全开源,旨在实现通过指令驱动的生动视频背景替换。
数据集主题
数据集按照背景变换的不同维度,划分为 五个主题:
| 主题 | 描述 |
|---|---|
location |
背景替换为不同的物理环境(如乡村、自然景观、地标等) |
season |
背景在不同季节间变换(春、夏、秋、冬) |
time |
背景在一天中的不同时间变换(黎明、黄昏、夜晚等) |
style |
背景风格重新设计(如时代风格、情绪风格、电影风格等) |
openve3m |
使用 Sparkle 流程对 OpenVE-3M 背景替换子集进行重新创建,便于与先前工作直接比较 |
数据集结构与格式
仓库结构
数据集采用分层目录结构,包含训练标注、完整语料库和在线预览数据:
prompts/:存放训练标注文件,每个主题包含一个 CSV 文件和一个 JSONL 元数据文件- 例如:
location_train.csv、location_train_metadata.jsonl
- 例如:
{theme}/:每个主题文件夹内包含在线预览的前 100 个样本的源视频和编辑视频- 例如:
location/source_video/、location/edited_video/
- 例如:
{theme}_*_partXX.tar:完整的语料库文件,每个约 5GB,按主题和内容类型分片压缩intermediate_data/:管道中间产物,用于完全可复现和透明度支持
训练数据格式
训练标注 CSV 文件包含四列:
| 列名 | 描述 |
|---|---|
prompt |
自然语言编辑指令 |
src_video |
源视频的路径 |
tgt_video |
编辑后视频的路径 |
task |
唯一样本 ID,与 JSONL 元数据中的 id 字段关联 |
每个任务对应的 JSONL 元数据包含:
| 字段 | 描述 |
|---|---|
id |
样本 ID,与 CSV 中的 task 列匹配 |
prompt |
与 CSV 中相同的编辑指令 |
metadata.edit_type |
主题类型(location / season / time / style / openve3m) |
metadata.chosen_keyword |
子主题场景标签(例如 "urban: rooftop overlooking skyline") |
metadata.original_scene |
源视频第一帧的描述 |
下载与使用方法
在线预览
每个主题的前 100 个样本以未压缩的 .mp4 文件形式存储在对应文件夹中,可直接在浏览器中播放,无需下载完整语料库。
下载完整语料库
完整语料库按约 5GB 分片,存储在仓库根目录的 .tar 压缩包中。
-
下载所有内容(推荐用于完整复现): bash hf download stdKonjac/Sparkle --repo-type=dataset --local-dir ./Sparkle
-
下载单个主题(例如
location): bash hf download stdKonjac/Sparkle --repo-type=dataset --local-dir ./Sparkle --include "location_.tar" "prompts/location_" -
下载单个主题的源视频: bash hf download stdKonjac/Sparkle --repo-type=dataset --local-dir ./Sparkle --include "location_source_video_*.tar"
-
解压缩:每个
.tar文件自包含,直接在对应目录解压即可: bash cd ./Sparkle for f in *.tar; do tar -xf "$f"; done
管道中间产物
为支持完全可复现和下游研究,数据集额外发布了五阶段数据管道产生的所有中间产物,存储在 intermediate_data/ 目录下。
每个主题的中间产物包含以下子目录:
| 目录 | 描述 |
|---|---|
source_frame0/ |
源视频第 0 帧图像 |
edited_frame0/ |
初步背景替换后的第一帧输出 |
edited_frame0_foreground_removed/ |
去除前景后的干净背景图像 |
edited_background_video/ |
81 帧的纯背景视频(无前景) |
source_video_mask/ |
BAIT 跟踪的前景掩码(位压缩存储) |
edited_video_canny/ |
解耦的前景 + 背景 Canny 边缘检测结果 |
前 100 个样本的中间产物可直接在浏览器预览,完整中间产物同样以约 5GB 的 .tar 分片存储。
前景掩码加载方法
掩码以位压缩格式存储,可使用以下 Python 代码解压:
python import numpy as np
def load_mask(mask_path: str) -> np.ndarray: data = np.load(mask_path) packed_mask = data["mask"] shape = tuple(int(s) for s in data["shape"]) total = shape[0] * shape[1] * shape[2] video_mask = np.unpackbits(packed_mask)[:total].reshape(shape).astype(bool) return video_mask
管道元数据文件
每个主题的 intermediate_data/ 文件夹中还包含五个 JSONL 文件,记录管道各阶段产生的元数据:
-
edited_frame0_score.jsonl:记录 Stage 2 输出的 EditScore 评估结果,包括 prompt_following、consistency、perceptual_quality 等子分数及总体分数。质量过滤阈值为总体分数 < 8 的样本被剔除。 -
edited_frame0_foreground_removed_score.jsonl:记录 Stage 3 中间产物的 EditScore 评估,衡量前景去除质量。质量过滤阈值为总体分数 < 8.5 的样本被剔除。 -
foreground_grounding_r1.jsonl:记录第一轮 VLM 基础定位结果,包含识别出的前景对象标签和检测边界框。边界框采用 Qwen3-VL 的归一化坐标格式(范围 [0, 1000]),可转换为绝对像素坐标。




