SEED_balanced

Hugging Face2026-04-08 更新2026-04-09 收录

下载链接：

https://huggingface.co/datasets/Mengieong/SEED_balanced

下载链接

链接失效反馈

官方服务：

资源简介：

SEED_balanced 是 SEED 基准的公开平衡版本，专注于追踪基于扩散模型的多步人脸编辑轨迹。该数据集不同于传统的单步篡改或真假检测数据集，支持三项互补任务：真实性分析、编辑痕迹分析和空间证据分析。完整 SEED 基准包含 91,526 张图像，而平衡版本包含 100,000 张图像，各序列长度（L=0,1,2,3,4）比例均等。数据来源于 FFHQ 和 CelebAMask-HQ，通过扩散编辑管道生成，每张篡改图像包含 1 至 4 个顺序属性编辑，并记录编辑顺序、属性标签、提示词、掩码和编辑模型等元数据。数据集支持在 CodaBench 平台上使用固定准确率、自适应准确率和完全匹配准确率三种指标进行官方评估。

创建时间：

2026-04-01

原始信息汇总

SEED_balanced 数据集概述

数据集基本信息

数据集名称: SEED_balanced
数据集类型: 公开平衡版本
语言: 英语
许可证: 其他
任务类别: 图像分类、图像分割
标签: 深度伪造、人脸取证、扩散模型、序列编辑、来源追溯、面部操纵
规模类别: 10K < n < 100K

核心描述

SEED_balanced 是 SEED 基准的公开平衡发布版本，该基准用于序列深度伪造面部编辑中的来源追溯。与专注于单步操纵或二元真伪检测的传统深度伪造数据集不同，SEED 模拟基于扩散模型的多步面部编辑轨迹，并支持三个互补任务：真实性分析、编辑痕迹分析和空间证据分析。完整 SEED 基准包含 91,526 张图像，并带有逐步来源标注；而平衡的基准分区包含 100,000 张图像，序列长度（L=0,1,2,3,4）的比例相等。

数据详情

完整基准规模: 91,526 张图像
平衡基准规模: 100,000 张图像
领域: 面部图像
编辑类型: 基于扩散模型的序列面部编辑
源真实数据集: FFHQ, CelebAMask-HQ
逐步元数据: 编辑顺序、属性标签、提示词、掩码、编辑器身份
官方评估平台: CodaBench

支持的任务

任务	描述	输出
真实性分析	区分真实图像与序列编辑图像	二元或基于序列的决策
编辑痕迹分析	预测编辑属性及其时间顺序	有序属性序列
空间证据分析	定位被操纵区域	掩码 / 定位图

数据构建

SEED 构建自 FFHQ 和 CelebAMask-HQ，并使用基于扩散模型的流程进行编辑。每个被操纵的样本通过顺序应用一到四个属性编辑生成，每个步骤都记录了来源元数据，包括被编辑的属性、提示词、掩码和编辑模型。

构建阶段

阶段	描述
预处理	构建特定属性掩码和文本条件
序列操纵	采样序列长度 L ∈ {1,2,3,4}，选择属性，并逐步应用扩散编辑器
质量评估	使用感知和语义一致性检查过滤退化结果

使用的编辑器

UltraEdit
LEdits
SDXL
SD3-style models fine-tuned with UltraEdit

提示词模板示例

属性	指令模板	描述模板
眼睛	Make the eyes {color}.	A person with {color} eyes.
嘴唇	Change the lipstick color to {color}.	A person with {color} lipstick.
头发	Turn the hair {color}. / Make the hair {style}.	A person with {color} hair. / A person with {style} hair.
眉毛	Make the eyebrows {style}.	A person with {style} eyebrows.
眼镜	Add a pair of {glasses}.	A person wearing {glasses}.
帽子	Add a {hat}.	A person wearing a {hat}.

数据集统计

完整 SEED 统计

统计项	数值
完整 SEED 图像	91,526
序列长度 L=1	29.91%
序列长度 L=2	26.21%
序列长度 L=3	21.88%
序列长度 L=4	22.00%
UltraEdit 编辑	38.28%
LEdits 编辑	37.34%
SDXL 编辑	24.38%

属性分布

属性	比例
嘴唇	28%
眉毛	18%
眼睛	17%
帽子	14%
头发	14%
眼镜	9%

平衡分区与划分协议

长度桶	数量
L=0，真实	20,000
L=1	20,000
L=2	20,000
L=3	20,000
L=4	20,000
总计	100,000

基准评估

官方评估在 CodaBench 上进行，使用三种指标：

指标	含义
Fixed-Acc	固定序列比较协议下的令牌级准确率
Adaptive-Acc	自适应序列比较下的令牌级准确率
Full-Acc	精确序列匹配，最严格的指标

论文报告的平均结果

模型	Fixed-Acc	Adaptive-Acc	Full-Acc
Shuai et al.	71.50	54.07	48.72
FreqNet	70.08	52.59	48.27
Ba et al.	68.78	54.80	50.80
SeqFakeFormer	81.62	68.53	66.97
FAITH (DCT)	81.70	68.56	67.02
FAITH (FFT)	81.75	68.58	67.03
FAITH (DWT)	81.87	68.84	67.26

鲁棒性设置评估

论文还在以下扰动下评估了鲁棒性：

扰动	级别
JPEG 压缩	25%, 50%, 75%
高斯噪声	10%, 15%, 20%

仓库内容

此 Hugging Face 仓库仅托管公开发布内容。

文件	描述
`seqdeepfake_train_data.zip`	公共训练存档
`README.md`	数据集卡片
`sample_submission.csv`	可选的示例提交文件

此仓库不包含：

隐藏测试标签
隐藏参考标注
官方私有评估数据

这些组件通过 CodaBench 处理。

预期用途

此数据集预期用于：

深度伪造取证研究
扩散编辑来源追溯
编辑顺序预测
定位和证据分析
图像退化下的鲁棒性基准测试

数据使用政策

请仅将此数据集用于研究、基准测试和取证分析。请不要将其用于：

身份识别或监控
基于面部分析
欺骗性内容生成
对真实个人的未经授权推断

用户还应尊重原始源数据集的许可证和使用条件，以及任何特定于基准的发布条件。

引用

如果使用此数据集，请引用 SEED 论文。 bibtex @inproceedings{seed2026, title={SEED: A Large-Scale Benchmark for Provenance Tracing in Sequential Deepfake Facial Edits}, author={Anonymous ECCV 2026 Submission}, booktitle={Proceedings of the European Conference on Computer Vision}, year={2026} }

搜集汇总

数据集介绍

构建方式

在深度伪造检测领域，SEED_balanced数据集的构建遵循严谨的三阶段流程。其以FFHQ和CelebAMask-HQ作为原始真实图像来源，通过预定义的面部属性掩码和文本条件进行预处理。核心构建环节采用基于扩散模型的编辑管道，包括LEdits、SDXL及UltraEdit微调的SD3风格模型，以随机采样序列长度并顺序施加一至四次属性编辑。每个编辑步骤均完整记录编辑属性、提示词、掩码及所用编辑器身份等溯源元数据，最终经由感知与语义一致性评估筛选，确保生成样本的质量与逻辑连贯性。

特点

SEED_balanced数据集的核心特征在于其专注于序列化深度伪造的溯源分析，突破了传统单步篡改或二值真伪检测的局限。该数据集包含十万张图像，均衡覆盖了从零次（真实图像）到四次编辑的序列长度，为模型提供了均匀的难度分布。其支持真实性分析、编辑痕迹分析与空间证据分析三项互补任务，并提供了逐步骤的详尽元数据标注，包括编辑顺序、属性标签及空间掩码。这种多层次、结构化的标注体系为研究多步扩散编辑的传播路径与取证证据提供了前所未有的细粒度研究基础。

使用方法

该数据集旨在推动深度伪造溯源与取证领域的研究。使用者可从本仓库下载公开的训练数据压缩包，解压并按照指南放置于指定目录结构下。典型的研发流程包括：在本地环境配置完成后，利用所提供数据训练或微调特定模型，并基于自有协议进行初步验证。为获得官方评估结果，研究者需将最终预测提交至CodaBench平台，该平台使用固定准确率、自适应准确率及完全匹配准确率三项严格指标，在隐藏测试集上对模型性能进行标准化评测。数据集鼓励用于编辑顺序预测、篡改区域定位及在图像退化条件下的鲁棒性基准测试等研究方向。

背景与挑战

背景概述

在数字媒体取证领域，深度伪造技术的快速发展对图像真实性验证提出了严峻挑战。SEED_balanced数据集于2026年由匿名研究团队发布，旨在构建一个面向序列化深度伪造面部编辑的溯源基准。该数据集基于FFHQ和CelebAMask-HQ真实人脸图像，通过扩散模型进行多步骤属性编辑，生成了包含十万张图像的平衡子集。其核心研究问题聚焦于追溯面部图像被多次编辑的历史轨迹，突破了传统单步篡改检测的局限，为图像真实性分析、编辑痕迹追踪和空间证据定位提供了系统性的评估框架，显著推动了深度伪造溯源技术向细粒度、时序化方向演进。

当前挑战

SEED_balanced数据集致力于解决序列化深度伪造面部编辑的溯源问题，其核心挑战在于准确还原多步骤编辑的复杂历史。编辑链长度的增加导致篡改模式呈指数级组合，模型需同时识别被修改的属性及其时序顺序，对算法的时序建模与特征解耦能力提出极高要求。在构建过程中，研究团队面临生成质量控制的难题，需通过感知与语义一致性检查过滤退化结果，并设计多样化的提示模板以平衡编辑意图与语言多样性。此外，确保不同编辑步长数据的均衡分布，以及在不同图像退化条件下评估模型鲁棒性，亦是该基准构建中的关键挑战。

常用场景

经典使用场景

在数字图像取证领域，SEED_balanced数据集为研究多步扩散式面部编辑的溯源追踪提供了标准化评估框架。其经典使用场景集中于训练和验证深度学习模型，以应对复杂的序列伪造检测挑战。研究者利用该数据集构建模型，旨在解析从真实图像到经过多次属性编辑的伪造图像的完整演变轨迹，从而推动深度伪造检测技术向更精细的时序分析维度发展。

衍生相关工作

围绕SEED_balanced数据集，已衍生出一系列专注于序列深度伪造分析的经典研究工作。例如，FAITH系列模型利用频域变换（如DWT、FFT）来捕捉编辑痕迹，在编辑轨迹预测任务上取得了领先性能。其他工作如SeqFakeFormer等也基于该基准提出了新颖的架构，共同推动了编辑顺序预测、篡改区域定位等子任务的发展，形成了该领域一个活跃且持续演进的研究脉络。

数据集最近研究