BiComp

Name: BiComp
Creator: 复旦大学·计算机科学与技术学院; 上海智能视觉计算协同创新中心
Published: 2026-05-27 23:27:13
License: 暂无描述

arXiv2026-05-27 更新2026-05-29 收录

下载链接：

https://github.com/anzeameol/BiDPO

下载链接

链接失效反馈

官方服务：

资源简介：

BiComp是由复旦大学研究团队构建的大规模高质量文本-图像偏好数据集，专门用于增强组合式文本到图像生成模型的性能。该数据集包含57,474张原始图像和94,502张编辑后图像，总计151,976个样本，覆盖颜色、形状、纹理、空间关系、非空间关系和计数六大组合维度，数据来源于CONPAIR、T2I-CompBench等多个公开语料库。数据集通过自动化流水线构建，包括提示收集、图像生成、描述重生成、编辑和VQA过滤等严格质量控制步骤。该数据集主要应用于组合式文本到图像生成领域，旨在解决现有模型在属性绑定、对象关系和计数等复杂组合提示下生成准确图像的难题。

BiComp is a large-scale high-quality text-image preference dataset constructed by a research team from Fudan University, specifically designed to enhance the performance of compositional text-to-image generation models. This dataset contains 57,474 raw images and 94,502 edited images, totaling 151,976 samples, covering six compositional dimensions: color, shape, texture, spatial relations, non-spatial relations, and counting. The data is sourced from multiple public corpora such as CONPAIR and T2I-CompBench. The dataset is built through an automated pipeline with strict quality control steps including prompt collection, image generation, description regeneration, editing and VQA filtering. It is primarily applied in the field of compositional text-to-image generation, aiming to address the challenge that existing models face when generating accurate images under complex compositional prompts such as attribute binding, object relations and counting.

提供机构：

复旦大学·计算机科学与技术学院; 上海智能视觉计算协同创新中心

创建时间：

2026-05-27

原始信息汇总

数据集概述：BiComp

名称：BiComp
来源机构：复旦大学（上海智能信息处理重点实验室、上海智能视觉计算协同创新中心）
发布形式：通过 Hugging Face 发布，数据集地址为 https://huggingface.co/datasets/anzeameol/BiComp
发布时间：2026年3月23日

数据集用途

BiComp 是面向 组合式文本到图像生成（Compositional Text-to-Image Generation）任务的数据集，用于训练和评估 BiDPO（区域感知双模态直接偏好优化）方法，该工作已被 CVPR 2026 接收。

数据集内容

用于支持 区域感知的双模态直接偏好优化 训练过程，提升模型对文本提示中多个物体、属性及空间关系等组合语义的生成能力。
数据集包含图像-文本对，并配合 VisMin 数据集（需单独下载）共同使用。

数据集下载方式

使用 Hugging Face 命令行工具下载： bash hf download "anzeameol/BiComp" --repo-type "dataset" --local-dir "./datasets/BiComp"
或运行项目提供的下载脚本： bash bash ./scripts/download/download_BiComp.sh

相关资源与引用

项目代码仓库：https://github.com/anzeameol/BiDPO
预训练检查点（SDXL-BiDPO）：https://huggingface.co/anzeameol/sdxl-BiDPO
参考文献（BiDPO 论文，CVPR 2026）：

@inproceedings{liucompositional, title={Compositional Text-to-Image Generation Via Region-aware Bimodal Direct Preference Optimization}, author={Liu, Zhuohan and Peng, Wujian and Chen, Yitong and Wu, Zuxuan}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition}, year={2026} }

搜集汇总

数据集介绍

构建方式

BiComp数据集的构建依托于一条完全自动化的流水线，旨在生成高质量、细粒度的偏好数据。首先，从CONPAIR、ReasonGen-R1等多个来源收集与组合性相关的文本描述，并利用Flux.1-dev模型为每条描述生成2至4张图像。随后，通过集成分层解析、Grounding DINO目标检测、SAM2分割以及Qwen2.5-VL精细标注，为每张图像重新生成精确的文本描述。在此基础上，利用Qwen-Image-Edit模型根据编辑后的描述对原始图像进行修改，并对颜色、形状、纹理等维度引入属性交换与替换操作以增强数据多样性。最后，采用基于VQA的筛选机制，利用视觉语言模型验证图像与描述间的语义一致性，从而确保数据质量。该流程最终产出了涵盖六种组合性维度的57,474张原始图像与94,502张编辑图像。

特点

BiComp数据集的核心特征在于其高质量、高多样性以及偏好对间细微的视觉差异。数据集覆盖了颜色、形状、纹理、空间关系、非空间关系及计数六大组合性核心维度，为训练模型处理复杂文本指令提供了全面的素材。通过精心设计的属性交换与替换策略，数据集中包含了大量仅在特定属性或关系上存在差异的图像对，这种细微的对比为直接偏好优化（DPO）提供了理想的训练样本。此外，每对图像-描述数据均包含区域级标注信息，例如物体边界框与分割掩码，这使得模型能够在训练过程中聚焦于描述所涉及的特定区域，从而实现更精细的跨模态对齐。最终，VQA筛选环节确保了所有保留的图像-描述对均具有高度的语义一致性，大幅降低了噪声数据对训练效果的干扰。

使用方法

BiComp数据集专为基于偏好优化的文本到图像模型微调而设计，尤其适用于提升模型的组合性生成能力。使用时，研究人员可将数据集的偏好对（包含首选与非首选的图像-描述组合）直接用于扩展Diffusion DPO的训练框架，例如本文提出的BiDPO方法。在训练过程中，模型同时利用图像模态与文本模态的偏好信息，通过学习区分细微差异的样本，增强对属性绑定、物体关系等复杂指令的遵循能力。此外，数据集提供的区域级标注可用于计算带有掩码的损失函数，引导模型重点关注与描述修改相关的图像区域，从而在不影响全局视觉质量的前提下实现更精准的对齐。该数据集兼容Stable Diffusion等主流扩散模型，并支持LoRA等高效的微调策略。

背景与挑战

背景概述

文本到图像生成领域虽已取得显著突破，但现有模型在处理涉及多物体、属性绑定及复杂空间关系的组合性提示时仍面临严峻挑战。为破解这一困局，复旦大学研究团队于2025年构建了BiComp数据集，旨在通过偏好优化技术提升模型的组合生成能力。该数据集由Zhuohan Liu、Wujian Peng等研究者开发，包含57,474张原始图像与94,502张编辑图像，覆盖颜色、形状、纹理、空间关系、非空间关系及计数六大维度。BiComp的问世为组合式图像生成研究提供了大规模、高质量的偏好数据资源，有力推动了直接偏好优化（DPO）在该领域的应用，显著提升了模型对复杂文本指令的遵循能力与细粒度对齐效果。

当前挑战

BiComp所应对的核心领域挑战在于，现有文本到图像模型难以精确捕捉组合语义，尤其在多物体属性分配、空间推理及数量感知等任务中表现欠佳。传统方法或依赖额外的布局、场景图等模态输入，或借助大语言模型进行辅助，但这些途径往往引入不稳定因素与高昂计算成本。构建过程中同样面临重重困难：首要挑战是自动化生成高质量偏好数据，需确保编辑前后图像与文本之间的细微差异及语义一致性；其次，需设计精密的流水线以整合目标检测、分割、标注与图像编辑等多重模块，并应对复杂场景下检测与编辑性能不佳的问题；此外，还需通过视觉问答（VQA）机制进行严格筛选，以剔除低质量样本，保证最终数据集的可信度与有效性。

常用场景

经典使用场景

在文本到图像生成领域，BiComp数据集被广泛用于提升扩散模型对复杂组合提示的遵从能力。其经典使用场景涉及属性绑定、空间关系以及计数等多维度的组合生成任务。研究人员借助BiComp中精心设计的大规模偏好数据对，训练模型精准匹配文本描述中的细粒度语义，例如确保“红色的球与蓝色的方块”这类提示得到准确渲染。该数据集通过提供视觉差异极小的正负样本对，迫使模型关注关键组成元素，从而有效克服了传统模型在多个对象交互时出现的属性混淆与关系错乱问题。

实际应用

在实际应用中，BiComp数据集驱动的模型可深度赋能创意设计、广告生成和虚拟现实内容创作等需要精确语义控制的场景。例如，在电商物料自动生成中，设计师可输入“一只戴黑色领结的白色猫蹲在红色沙发上”这类高复杂度描述，模型能准确呈现每一细节，避免属性错配。此外，在辅助视觉叙事和智能教育工具中，该数据集帮助模型理解与生成含有明确空间逻辑与数量关系的图像，大幅提升了文本到图像技术在专业领域内的实用性与可靠性。

衍生相关工作

BiComp数据集的诞生催生了一系列具有深远影响的衍生工作，这些工作主要围绕组合式文本到图像生成中的偏好优化与细粒度对齐展开。例如，BiDPO框架将扩散模型的偏好对齐从单一图像模态拓展至图像与文本的双模态联合优化，并创新性地引入区域级引导损失以强化局部语义准确性；此外，相关研究如IterComp从模型集成角度挖掘组合反馈，而LLM-grounded Diffusion则借助大语言模型增强结构理解。BiComp为这些方法提供了高质量的训练数据与验证平台，推动了整个领域向更高组合忠实度迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集