IC-Custom
收藏arXiv2025-07-03 更新2025-07-04 收录
下载链接:
https://liyaowei-stu.github.io/project/IC_Custom/
下载链接
链接失效反馈官方服务:
资源简介:
IC-Custom数据集是由北京大学、腾讯PCG ARC实验室、香港中文大学和清华大学的研究人员创建的。该数据集包含12000个身份一致的双联画样本,其中8000个来自真实世界,2000个来自高质量合成数据。数据集旨在解决当前图像定制方法在处理各种定制场景时的局限性,特别是那些涉及位置感知、位置无关和多重参考图像定制的场景。IC-Custom数据集支持多种工业应用,如试穿、配件放置、家具布置和创意知识产权定制。
The IC-Custom dataset was created by researchers from Peking University, Tencent PCG ARC Lab, The Chinese University of Hong Kong, and Tsinghua University. It contains 12,000 identity-consistent diptych samples, with 8,000 sourced from real-world scenarios and 2,000 derived from high-quality synthetic data. This dataset is designed to address the limitations of existing image customization methods when handling diverse customization scenarios, particularly those involving position-aware, position-agnostic and multi-reference image customization tasks. The IC-Custom dataset supports a wide range of industrial applications, such as virtual try-on, accessory placement, furniture arrangement, and creative intellectual property customization.
提供机构:
北京大学,腾讯PCG ARC实验室,香港中文大学,清华大学
创建时间:
2025-07-03
原始信息汇总
IC-Custom: Diverse Image Customization via In-Context Learning
团队信息
- 开发团队:IC-Custom Team
核心功能
- 统一框架:整合位置感知(position-aware)和位置无关(position-free)的图像定制范式
- 支持工业应用:包括试穿、配件放置、家具布置和IP定制
技术亮点
- In-context Multi-Modal Attention (ICMA)机制:
- 使用可学习的任务导向寄存器令牌
- 边界感知位置嵌入
- 模型架构:
- 基于DiT的多模态注意力机制
- 仅需训练原始模型0.4%的参数
数据集
- 规模:12k身份一致样本
- 组成:
- 8k真实世界来源
- 4k高质量合成数据
- 特点:避免过度光泽和过饱和的合成外观
评估表现
- 评估基准:
- ProductBench(团队提出)
- DreamBench(公开可用)
- 性能优势:
- 比社区工作流、GPT-4o等闭源模型和SOTA开源方法显著优越
- 在身份一致性、和谐性和文本对齐指标上获得约73%更高的人类偏好
学术引用
bibtex @article{li2025iccustom, title={IC-Custom: Diverse Image Customization via In-Context Learning}, author={Li, Yaowei and Li, Xiaoyu and Zhang, Zhaoyang and Bian, Yuxuan and Liu, Gan and Li, Xinyuan and Xu, Jiale and Hu, Wenbo and Liu, Yating and Li, Lingen and Cai, Jing and Zou, Yuexian and He, Yancheng and Shan, Ying}, journal={arXiv preprint arXiv:2507.00000}, year={2025}}
相关资源
- 论文:arXiv
- 代码:准备中
- 演示:Gradio Demo
搜集汇总
数据集介绍

构建方式
IC-Custom数据集的构建采用了精心策划的高质量真实世界数据与合成数据相结合的策略,旨在解决现有方法依赖合成数据导致的视觉失真问题。研究团队从电子商务平台收集了8,000组身份一致的图像对,覆盖服装试穿、家具布置等多个真实应用场景,图像分辨率高达3000×3664像素。同时,通过严格筛选SynCD数据集获得了2,787组高质量合成样本,并采用DINOv2特征相似度等过滤规则确保数据质量。针对多参考场景,额外收集了2,137组真实世界多图像样本,并通过已训练模型合成了2,787组补充数据,最终形成包含12,000个样本的综合性数据集。
特点
该数据集的核心特点体现在三个方面:多模态支持性可同时处理位置感知(精确掩码和手绘掩码)与位置无关的定制任务;真实性与多样性并重,80%数据源自真实场景且分辨率普遍超过1024×1024像素,有效避免了合成数据常见的过度光滑或饱和问题;工业适用性强,涵盖服装、家具、电子产品等八大类商品,支持虚拟试穿、创意IP定制等实际应用场景。数据标注方面采用Qwen-VL2.5生成描述文本,并通过Grounded SAM获取真实掩码,为模型训练提供了全面监督信号。
使用方法
该数据集专为训练基于DiT架构的上下文学习模型设计,使用前需将参考图像与目标图像拼接成多联画形式输入。研究人员建议采用数据分桶策略处理不同分辨率输入,支持[800,800]至[1504,1504]多种尺寸。训练时需随机应用全局或局部掩码策略,使模型同步掌握位置感知和位置无关的定制能力。对于多参考场景,应按参考图像数量进行分桶处理(支持1-3张参考图)。评估阶段推荐使用配套的ProductBench和DreamBench基准,通过DINO-I、CLIP-I等指标量化身份一致性,配合人工评估光照协调性等主观指标。
背景与挑战
背景概述
IC-Custom数据集由Peking University、Tencent等机构的研究团队于2025年创建,旨在解决图像定制领域的核心问题。该数据集通过上下文学习框架统一了位置感知和位置无关的图像定制范式,包含12,000个高质量的身份一致样本,其中8,000个来自真实世界数据,4,000个为合成数据。其创新性的多模态注意力机制(ICMA)和边界感知位置嵌入技术,显著提升了在工业媒体生产中的图像定制能力,如虚拟试穿、家具布置等应用场景。该工作发表于arXiv:2507.01926v1,标志着图像生成领域向多场景统一建模的重要突破。
当前挑战
IC-Custom面临的挑战主要体现在两方面:领域问题方面,现有方法难以同时处理位置感知(需精确掩码)和位置无关(自由生成)的定制任务,且缺乏多参考图像的处理能力;数据构建方面,过度依赖合成数据导致生成结果存在人工痕迹(如过度光滑纹理),而真实世界数据的采集需解决身份一致性保持、高分辨率细节保留等难题。此外,模型需克服多图像输入时的边界混淆问题,以及在不同定制场景下自适应调整生成策略的技术挑战。
常用场景
经典使用场景
IC-Custom数据集在图像定制领域展现出卓越的通用性,其最经典的使用场景在于实现多模态图像生成的统一框架。通过将参考图像与目标图像拼接为多联画形式,该数据集支持包括位置感知定制(精确掩模与手绘掩模)、位置无关定制以及多参考定制在内的多样化场景。这种创新范式突破了传统方法将不同定制任务割裂处理的局限,使得模型能够通过上下文学习机制,在服装试穿、家具布置等复杂工业场景中保持主体身份一致性。
衍生相关工作
该数据集推动了多项经典工作的演进:在模型架构方面,启发了基于DiT的上下文学习范式在DreamO和OminiCtrl等后续研究中的应用;在数据构建领域,其真实世界样本采集方法为SynCD等合成数据集提供了质量优化标准;技术层面,ICMA机制被FLUX.1 Kontext等改进方案继承发展,形成了一系列支持多任务统一处理的变体模型。这些衍生工作共同推进了图像定制技术向更通用、更高效的方向发展。
数据集最近研究
最新研究方向
在计算机视觉领域,图像定制技术正经历着从单一范式向统一框架的演进。IC-Custom数据集通过上下文学习机制,创新性地整合了位置感知与位置无关的定制范式,为工业级媒体生产提供了前所未有的灵活性。该数据集精心构建的12k身份一致性样本,结合真实场景与高质量合成数据,有效解决了现有方法依赖合成数据导致的视觉失真问题。前沿研究聚焦于多模态注意力机制优化,通过可学习的任务导向寄存器令牌和边界感知位置嵌入,实现了对复杂定制场景的精准控制。相关技术已在虚拟试穿、家具布置等工业应用场景展现出73%的人类偏好优势,标志着生成式AI向细粒度可控图像合成迈出了关键一步。
相关研究论文
- 1IC-Custom: Diverse Image Customization via In-Context Learning北京大学,腾讯PCG ARC实验室,香港中文大学,清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



