AIComposer Benchmark Dataset

Name: AIComposer Benchmark Dataset
Creator: 北京大学, 中国; 北京元力科学技术有限公司, 中国
Published: 2025-07-28 19:19:14
License: 暂无描述

arXiv2025-07-28 更新2025-07-30 收录

下载链接：

https://github.com/sherlhw/AIComposer

下载链接

链接失效反馈

官方服务：

资源简介：

AIComposer是一个跨领域图像组合框架，无需文本提示即可无缝融合前景和背景图像，支持任何内容和任何风格。该框架基于CLIP图像特征，通过简单的多层级感知器网络进行内容与风格的整合，并采用局部交叉注意力策略来操纵扩散过程。此外，论文中还创建了一个公开可用的基准数据集，具有各种内容和风格，用于跨领域图像组合的公平评估。

AIComposer is a cross-domain image composition framework that can seamlessly blend foreground and background images without text prompts, supporting arbitrary content and styles. Built on CLIP image features, this framework integrates content and style via a simple multi-layer perceptron network, and adopts a local cross-attention strategy to manipulate the diffusion process. Additionally, the accompanying paper constructs a publicly available benchmark dataset with diverse content and styles for fair evaluation of cross-domain image composition.

提供机构：

北京大学, 中国; 北京元力科学技术有限公司, 中国

创建时间：

2025-07-28

原始信息汇总

AIComposer数据集概述

数据集基本信息

数据集名称：AIComposer
数据集来源：GitHub（sherlhw/AIComposer）

数据集描述

（注：根据提供的README文件内容，该数据集未包含具体描述信息）

搜集汇总

数据集介绍

构建方式

AIComposer Benchmark Dataset的构建基于跨域图像合成的需求，通过整合前景图像的内容与背景图像的风格，实现了无需文本提示的自然风格化与无缝合成。该数据集采用单分支结构和较少扩散步骤的策略，保留了扩散先验的多样性，同时通过简单的多层感知机（MLP）网络整合CLIP图像特征，实现了内容与风格的有效分离与融合。数据集的构建过程包括前景与背景图像的像素空间合成、AdaIN操作调整潜在表示，以及通过局部注意力控制和AdaIN操作优化合成结果。

特点

AIComposer Benchmark Dataset的特点在于其支持任意内容和风格的图像合成，无需依赖详细的文本提示。数据集通过CLIP图像特征的线性可分性，实现了内容与风格的高效整合，显著提升了合成图像的感知一致性（LPIPS）和风格一致性（CSD）指标。此外，数据集采用单分支结构和较少扩散步骤，显著提高了计算效率并保持了原始图像特征的完整性。数据集的多样性和鲁棒性使其在跨域图像合成任务中表现出色，适用于难以用语言描述的复杂场景。

使用方法

AIComposer Benchmark Dataset的使用方法包括前景与背景图像的像素级合成、潜在表示的AdaIN调整，以及通过MLP网络整合CLIP特征以指导扩散过程。用户可通过局部注意力控制和AdaIN操作优化合成结果，同时支持无文本提示的场景。数据集适用于跨域图像合成的评估与研究，用户可通过定量指标（如LPIPS、CSD）和定性分析评估合成效果。此外，数据集还支持与ControlNet等工具的联合使用，进一步扩展了其应用场景。

背景与挑战

背景概述

AIComposer Benchmark Dataset由北京大学与北京元理科技有限公司的研究团队于2023年创建，旨在解决跨域图像合成的核心挑战。该数据集聚焦于扩散模型在风格迁移与内容融合中的关键问题，突破了传统方法对文本提示的依赖，通过特征空间解耦实现了任意内容与风格的组合。作为首个专注于跨域图像合成的基准数据集，其创新性地构建了包含367种风格背景与89类前景内容的测试集，为评估模型在复杂场景下的语义保持与风格协调能力提供了标准化平台，显著推动了生成式计算机视觉领域的发展。

常用场景

经典使用场景

AIComposer Benchmark Dataset在跨域图像合成领域具有重要应用价值，特别是在需要将不同风格的前景与背景无缝融合的场景中。该数据集通过提供多样化的内容和风格组合，为研究人员提供了一个标准化的测试平台，用于评估和比较不同图像合成方法的性能。例如，在艺术创作和广告设计中，设计师经常需要将真实物体（如动物或建筑）与艺术风格的背景（如油画或素描）结合，而该数据集恰好满足了这一需求。

衍生相关工作

该数据集衍生了一系列经典工作，例如TF-ICON和PrimeComposer等跨域图像合成方法。这些工作通过利用数据集中的多样化样本，进一步优化了风格迁移和内容保留的平衡。此外，数据集还推动了基于CLIP特征的线性分离研究，为后续的图像合成和风格迁移算法提供了重要参考。

数据集最近研究