T2I-ConBench

Name: T2I-ConBench
Creator: 上海交通大学
Published: 2025-05-23 00:31:43
License: 暂无描述

arXiv2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/google/dreambooth

下载链接

链接失效反馈

官方服务：

资源简介：

T2I-ConBench是一个用于持续微调文本到图像模型的基准数据集，由上海交通大学和华为公司的研究人员创建。该数据集包含约100,000条数据，涵盖了个性化对象生成和特定领域图像质量提升两种场景。数据集通过合成数据生成和人工筛选的方式获取，并包含对模型持续学习、遗忘和跨任务泛化能力的评估指标。该数据集旨在解决文本到图像模型在持续微调过程中可能出现的知识遗忘和跨任务泛化问题。

T2I-ConBench is a benchmark dataset for continual fine-tuning of text-to-image models, developed by researchers from Shanghai Jiao Tong University and Huawei. This dataset contains approximately 100,000 samples, covering two scenarios: personalized object generation and image quality enhancement in specific domains. It is collected through synthetic data generation and manual filtering, and includes evaluation metrics for measuring models' continual learning, catastrophic forgetting, and cross-task generalization capabilities. This dataset aims to address the issues of knowledge forgetting and cross-task generalization that may arise during the continual fine-tuning of text-to-image models.

提供机构：

上海交通大学

创建时间：

2025-05-23

原始信息汇总

DreamBooth数据集概述

数据集基本信息

名称: DreamBooth Dataset
用途: 用于主题驱动的文本到图像扩散模型的微调
来源: Google论文《DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation》的官方数据集

数据集内容

主题数量: 30个（15个不同类别）
- 活体主题: 9个（狗和猫）
- 物体主题: 21个
图像数量: 每个主题4-6张图像
图像特点: 在不同条件、环境和角度下拍摄

文件说明

prompts_and_classes.txt: 包含论文中用于活体主题和物体的所有提示词及类别名称
references_and_licenses.txt: 包含所有来自www.unsplash.com的图像的参考链接、摄影师署名和图像许可证信息

数据来源

图像由论文作者拍摄或来自www.unsplash.com

学术引用

bibtex @inproceedings{ruiz2023dreambooth, title={Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation}, author={Ruiz, Nataniel and Li, Yuanzhen and Jampani, Varun and Pritch, Yael and Rubinstein, Michael and Aberman, Kfir}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2023} }

免责声明

非Google官方支持产品

搜集汇总

数据集介绍

构建方式

T2I-ConBench数据集的构建过程体现了严谨的科学方法论与创新的数据工程策略。针对文本到图像生成模型的持续后训练需求，研究团队设计了双轨并行的数据采集框架：在物品定制任务中，采用真实网络爬取的物品图像（如V1狗、V3猫等）构建细粒度概念库，并利用大语言模型生成多样化场景描述形成测试集；在领域增强任务中，通过合成数据生成技术创建自然世界与人体姿态两大领域的增强数据集，包含2513张自然概念图像和2356张人体姿态图像，所有数据均经过严格的视觉质量筛选与语义一致性验证。特别构建的跨任务组合测试集（Item+Item、Item+Domain、Domain+Domain）采用提示词分解重组技术，通过大型语言模型生成包含跨领域概念的复合提示，为评估知识组合能力奠定基础。

特点

该数据集的核心特征体现在多维度的评估体系设计上：首先，通过FID和T2I-CompBench指标构建了生成质量与文本对齐的双重评估维度；其次，针对物品定制任务开发了基于视觉问答的Unique-Sim指标，可量化模型对特定物品的生成准确性；在领域增强方面则采用Human Preference Score评估美学表现。其创新性在于引入动态遗忘度量（Unique-Forget/Domain-Forget）和跨任务组合生成评估（Cross-task Generalization），通过自动化流水线整合视觉语言模型、人类偏好模型和问答系统，实现了对模型知识保留、更新与重组能力的全面测评。数据集的差异化任务设计（物品级细粒度vs领域级粗粒度）有效揭示了不同持续学习方法在知识粒度适应性上的差异。

使用方法

使用该数据集需遵循标准化评估协议：研究者首先加载预训练基础模型（如PixArt-α或Stable Diffusion），然后按指定任务序列（物品定制/领域增强/混合顺序）进行持续后训练。评估阶段需运行自动化测试管道：生成质量测试需在MS-COCO的30,000条提示词上计算FID；文本对齐评估采用T2I-CompBench的复合生成子集；下游任务性能测试需通过设计的VQA模板对生成图像进行语义验证。对于跨任务评估，系统会自动组合不同任务的提示词，并采用分解-重组策略生成验证问题。数据集提供完整的代码库支持包括训练脚本、评估指标计算和基线方法实现，研究者可通过替换模型架构或调整任务序列来扩展实验维度。所有评估结果需严格记录pretrain preservation、downstream performance、forgetting和cross-task generalization四项核心指标。

背景与挑战

背景概述

T2I-ConBench是由上海交通大学和华为的研究团队于2025年提出的文本到图像持续后训练基准测试框架。该数据集针对扩散模型在持续学习场景中的核心挑战，通过构建物品定制化和领域增强两大任务序列，系统评估模型在知识保留、任务适应和跨任务组合生成等方面的表现。作为首个标准化评估协议，其创新性地整合了自动化指标、人类偏好建模和视觉问答评估，填补了文本到图像生成领域在持续学习评估体系上的空白，对推动个性化生成和领域自适应研究具有重要意义。

当前挑战

该数据集主要面临三重挑战：在领域问题层面，需解决扩散模型持续后训练中的灾难性遗忘与零样本组合性退化问题，这对保持模型原始生成能力构成严峻考验；在构建过程中，需平衡合成数据质量与真实场景泛化性，特别是跨领域概念组合的评估Prompt设计需要精细的语义控制；在评估维度上，需开发兼顾生成质量、语义对齐和知识迁移的复合指标，其中基于视觉语言模型的组合推理评估面临罕见概念识别的精度挑战。

常用场景

经典使用场景

T2I-ConBench作为文本到图像持续后训练领域的标准化评估工具，其经典使用场景聚焦于两大核心任务：细粒度的物品定制化（如特定宠物或鞋款的个性化生成）与粗粒度的领域增强（如自然场景或人像摄影的质量提升）。该数据集通过设计四维度评估框架（通用性保留、目标任务表现、灾难性遗忘、跨任务泛化），系统化地衡量模型在连续学习新任务时平衡知识更新与旧知识保留的能力。例如，在物品定制化任务中，模型需基于少量样本学习生成特定品种的狗或猫，同时保持对未见过场景的零样本组合能力。

衍生相关工作

该数据集催生了多项经典工作：C-LoRA通过低秩适配器的自正则化机制改进跨任务知识保留；MoFO利用动量滤波实现稀疏微调，在物品定制任务中达到最优性能；HFT通过参数分组冻结平衡新旧任务学习。后续研究如Diffuse-uda将评估框架扩展至医学图像分割领域，而DreamBench++则借鉴其VQA评估逻辑构建个性化生成基准。这些工作共同推动了持续学习从单一任务评估向多维度、跨领域组合能力验证的范式转变。

数据集最近研究