five

MUSAR-Gen

收藏
github2025-05-06 更新2025-05-07 收录
下载链接:
https://github.com/guozinan126/MUSAR
下载链接
链接失效反馈
官方服务:
资源简介:
MUSAR-Gen是一个高质量的多主题数据集,由MUSAR模型生成。该数据集提供了FLUX可比的图像质量,且不显示属性纠缠问题。数据集包含约30,000个样本,每个样本由两个随机选择的主题图像和相应的文本描述组成。

MUSAR-Gen is a high-quality multi-theme dataset generated by the MUSAR model. The dataset offers image quality comparable to FLUX, and does not exhibit the issue of attribute entanglement. It contains approximately 30,000 samples, each consisting of two randomly selected theme images and corresponding textual descriptions.
创建时间:
2025-04-29
原始信息汇总

MUSAR-Gen 数据集概述

基本信息

数据集描述

  • 目的: 为图像定制领域提供高质量的多主题配对数据集。
  • 特点:
    • 生成的图像质量与FLUX相当。
    • 无属性纠缠问题。

数据集构建

  • 数据来源: 从subjects200k数据集中随机选择两个主题(排除训练过程中使用的111,761个主题)。
  • 提示格式: "An undivided, seamless, and harmonious picture with two objects. in the xxx scene, Subject A and Subject B are placed together."
  • 样本数量: 约30,000个样本。

数据格式

键名 类型 描述
cond_img_0 image 参考图像信息(第一张图像)。
cond_img_1 image 参考图像信息(第二张图像)。
tgt_img image 由MUSAR模型生成的多主题定制结果。
cond_prompt_0 str cond_img_0中对应主题的文本描述。
cond_prompt_1 str cond_img_1中对应主题的文本描述。
prompt str tgt_img内容的文本描述。

快速开始

python from datasets import load_dataset dataset = load_dataset(guozinan/MUSAR-Gen)

引用

bibtex @article{guo2025musar, title={MUSAR: Exploring Multi-Subject Customization from Single-Subject Dataset via Attention Routing}, author={Guo, Zinan and Zhang, Pengze and Wu, Yanze and Mou, Chong and Zhao, Songtao and He, Qian}, journal={arXiv preprint arXiv:2505.02823}, year={2025} }

搜集汇总
数据集介绍
构建方式
在图像定制化领域,高质量的多主体数据集对模型训练至关重要。MUSAR-Gen数据集的构建采用了严谨的筛选策略,从Subjects200K数据集中随机选取训练阶段未使用的样本作为条件图像,确保数据的新颖性。通过精心设计的提示模板生成多主体组合描述,并利用MUSAR模型输出约30,000个样本,每个样本包含两幅参考图像及其对应的多主体合成结果。
特点
该数据集在图像质量方面达到FLUX标准,有效避免了属性纠缠问题。样本结构设计科学,每项数据包含两幅参考图像、合成图像及对应的文本描述,形成完整的多模态数据单元。其独特价值在于突破了传统单主体数据集的局限,为多主体定制研究提供了高质量的基准数据。
使用方法
研究人员可通过Hugging Face平台便捷加载数据集,调用load_dataset('guozinan/MUSAR-Gen')即可获取结构化数据。数据集采用键值对存储,包含cond_img图像数据、tgt_img合成结果及配套文本描述,支持端到端的多主体定制模型训练与评估。该资源特别适合图像生成、注意力机制等研究方向。
背景与挑战
背景概述
MUSAR-Gen数据集由字节跳动智能创作团队于2025年发布,旨在推动多主体图像定制领域的研究进展。该数据集基于MUSAR模型的创新性输出构建,核心研究问题聚焦于如何从单主体训练数据中实现多主体图像的精准生成。研究团队通过注意力路由机制突破了传统单主体数据集的局限,为图像生成领域提供了高质量的基准数据。该数据集的发布填补了多主体定制领域高质量配对数据的空白,其FLUX可比拟的图像质量为相关算法研究提供了重要支撑。
当前挑战
多主体图像定制领域长期面临主体间属性纠缠和场景协调性的技术瓶颈。MUSAR-Gen数据集构建过程中需解决两个关键挑战:在领域问题层面,如何确保生成图像中多个主体保持各自特征的同时实现视觉和谐;在数据构建层面,需要从庞大的Subjects200K数据集中筛选未参与训练的样本,并通过精心设计的提示词模板生成具有场景一致性的多主体图像。这些挑战的解决为后续研究提供了重要的技术参考。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,MUSAR-Gen数据集为多主体图像定制研究提供了重要基准。该数据集通过融合两个独立主体的参考图像,生成无缝衔接的多主体合成图像,广泛应用于图像生成模型的训练与评估。其典型使用场景包括测试模型在复杂场景下保持主体特征一致性的能力,以及探索多主体交互时的视觉和谐性。
解决学术问题
该数据集有效解决了多主体图像生成中的属性纠缠难题,为研究者提供了高质量的训练样本。通过提供FLUX级图像质量且避免特征混淆的样本,显著推进了定制化图像生成领域的发展。其学术价值体现在建立了多主体协同生成的新范式,为注意力路由等关键技术的研究提供了可靠的数据支撑。
衍生相关工作
该数据集已催生多项重要研究工作,特别是在跨主体特征融合算法优化方面。基于MUSAR-Gen开发的注意力路由机制被证明能有效提升生成图像的语义一致性,相关成果发表在计算机视觉顶会。部分衍生工作进一步扩展了数据集应用边界,如多模态条件生成、可控图像编辑等方向的技术创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作