StickerBench

Name: StickerBench
Creator: 中央大学; NAVER Cloud; Lunit公司
Published: 2026-04-30 00:52:41
License: 暂无描述

arXiv2026-04-30 更新2026-05-01 收录

下载链接：

https://cmlab-korea.github.io/SEAL/

下载链接

链接失效反馈

官方服务：

资源简介：

StickerBench是由中央大学、NAVER Cloud和Lunit公司联合构建的大规模贴纸图像数据集，包含结构化标签的六属性标注体系（外观、情感、动作、镜头构图、风格与背景）。该数据集通过丰富的属性注释提供了固定目标身份下多样化上下文控制的接口，支持单张贴纸个性化生成中身份解耦与上下文可控性的系统评估。数据采集过程未明确描述，但标注框架旨在解决扩散模型在单参考图像场景下的视觉纠缠和结构僵化问题，适用于贴纸生成领域的可控文本到图像合成研究。

StickerBench is a large-scale sticker image dataset jointly constructed by Chung-Ang University, NAVER Cloud and Lunit. It features a six-attribute annotation system with structured labels covering appearance, emotion, action, shot composition, style and background. This dataset provides an interface for diversified context control under a fixed target identity through rich attribute annotations, supporting systematic evaluation of identity decoupling and context controllability in personalized single-sticker generation. The data collection process is not explicitly described, but the annotation framework aims to solve the problems of visual entanglement and structural rigidity of diffusion models in single-reference image scenarios, and is suitable for controllable text-to-image synthesis research in the field of sticker generation.

提供机构：

中央大学; NAVER Cloud; Lunit公司

创建时间：

2026-04-30

原始信息汇总

数据集概述：StickerBench

StickerBench 是一个为单图像贴纸个性化任务的受控评估而构建的大规模贴纸数据集。

核心特征

规模：包含 261,000 张贴纸图像。
结构化标注：每张图像都按照 六种结构化属性 进行标注，包括：外观 (Appearance)、情感 (Emotion)、动作 (Action)、相机构图 (Camera Composition)、风格 (Style) 和背景 (Background)。
标签型提示接口：支持基于标签的提示编辑，能够在保持目标身份固定的同时，进行系统的提示修改。
设计目标：特别适合评估身份解耦和上下文可控性。

数据用途

该数据集主要用于对单图像贴纸个性化方法进行受控评估，特别是用于测试像 SEAL 这样的模型在身份解耦和上下文可控性方面的表现。

搜集汇总

数据集介绍

构建方式

StickerBench的构建起始于从Anita、Telegram sticker和Freepik等公开平台聚合的648,508张未筛选图像。为了确保语义精确与风格一致性，构建流程划分为三个关键阶段：图像过滤、标签生成以及域分类与对齐。在图像过滤阶段，利用SAM模型进行实例分割以提取独立贴花区域，并借助OCR模型和美学期望评分器剔除含大量文字或低质量的样本。随后，通过多模态大语言模型LLaVA-13B生成结构化标签，并按照外观、情感、动作、相机构图、风格和背景六属性模式进行组织，以支持可控的提示构建与分析。最终，通过域分类滤除写实照片，并应用面向动画的超分辨率模型缓解质量退化，从而得到高质量、高分辨率的StickerBench数据集。

使用方法

StickerBench专为系统评估单图像贴花个性化中的身份解耦与上下文可控性而设计。其六属性标签模式支持用户通过替换某个属性的标记同时保持其他字段不变来构建结构化提示，从而实现对特定属性的精准编辑。研究者可将StickerBench与现有测试时微调方法（如Custom Diffusion、CoRe或UnZipLoRA）结合使用，并集成SEAL模块以缓解视觉纠缠和结构刚性。在评估阶段，可采用CLIP-I、DINOv2衡量概念保真度，利用CLIP-T评估提示对齐程度。该数据集提供了一致的接口，用于在固定标识符条件下系统地变化上下文，从而深入诊断模型在不同属性编辑下的性能表现，是推动贴花个性化研究的宝贵资源。

背景与挑战

背景概述

StickerBench是由韩国中央大学、NAVER Cloud及Lunit Inc.的研究人员于2025年联合创建的大规模贴纸图像数据集，旨在解决单图像贴纸个性化生成中视觉纠缠与结构刚性的核心挑战。该数据集聚焦于扩散模型个性化文本到图像生成领域，针对用户仅提供单张参考图像时，现有测试时微调方法易过拟合的问题，构建了包含逾26万张高质量贴片图像及结构化标签的资源库。其创新性地采用六属性标注体系（外观、情感、动作、镜头构图、风格与背景），为评估身份解耦与上下文可控性提供了标准化接口。StickerBench的发布填补了贴纸领域缺乏属性级可控生成评估数据的空白，有力推动了单图像个性化技术的研究进展。

当前挑战

StickerBench应对的领域核心挑战在于单图像贴纸个性化中的双重过拟合现象：一是视觉纠缠，即模型将参考图像的背景伪影错误地融入学习的身份表征；二是结构刚性，即模型固守参考图的空间布局而丧失上下文可控性。在数据集构建过程中，面临的挑战包括从公开平台收集的64万原始图像中通过实例分割、文本检测、美学评分等多阶段过滤以剔除低质量样本，以及利用多模态大语言模型生成遵循六属性模式的统一结构化标签，确保标注语义精确且解耦充分。此外，还需执行域分类过滤非贴纸真实图像，并应用超分辨率模型提升质量一致性，最终形成兼具规模、分辨率与属性丰富度的基准数据集。

常用场景

经典使用场景

在文本到图像生成领域，个性化生成技术旨在将用户提供的特定概念融入扩散模型，而StickerBench作为大规模贴纸图像数据集，被广泛应用为单图像贴纸个性化任务的标准化评测基准。该数据集通过六属性标签体系（外观、情感、动作、镜头构成、风格与背景）解构了贴纸图像的语义因子，使得研究者能够系统性地评估模型在保持目标身份特征的同时，遵循属性级提示进行上下文灵活调整的能力。其典型用途在于验证多种测试时微调方法在应对视觉纠缠与结构刚性两大过拟合症状时的表现，从而推动更鲁棒的个性化生成算法的发展。

解决学术问题

StickerBench的核心价值在于解决了单图像贴纸个性化研究中缺乏结构化、属性解耦评估数据的关键问题。现有数据集多为检索或识别任务设计，其标注形式常存在冗余与语义混杂，难以支持对模型身份解耦与上下文可控性的精细诊断。通过引入因子化的标签体系与大规模高质量样本，StickerBench使学术研究能够系统探究背景泄漏导致的身份纠缠、布局记忆引发的结构僵化等深层机制。该数据集的诞生推动了针对单参考图像条件下概念嵌入优化的研究范式转变，为设计显式空间约束与结构感知策略提供了坚实的数据基石。

实际应用

在实际应用中，StickerBench为贴纸内容创作与个性化定制平台提供了直接的数据支撑。借助其结构化标签，用户或系统可通过修改情感、动作或风格等属性标签来灵活控制生成图像的语义变体，而无需重复提供多张参考图像。这极大降低了社交聊天应用、数字文创与广告营销等领域中用户表达的门槛，使得从单一表情符号风格的贴纸能够自动派生出诸如不同背景色、镜头角度或情绪状态的一系列变体。StickerBench因而成为赋能高效贴纸内容生产管线与智能化贴纸推荐系统的重要基础资源。

数据集最近研究