MakeAnything
收藏github2025-02-09 更新2025-02-10 收录
下载链接:
https://github.com/showlab/MakeAnything
下载链接
链接失效反馈官方服务:
资源简介:
MakeAnything是一个包含文本描述和图像的配对数据集,用于训练生成多领域过程序列的模型。
MakeAnything is a paired dataset consisting of text descriptions and images, tailored for training models to generate multi-domain procedural sequences.
创建时间:
2025-02-02
原始信息汇总
MakeAnything 数据集概述
数据集简介
MakeAnything是一个利用扩散变换器进行多领域程序序列生成的数据集。该数据集由新加坡国立大学的Show Lab团队开发。
数据集构成
- 数据集类型:文本和图像配对
- 领域覆盖:包含LEGO、Cook、Painting等共21个领域的程序序列。
- 序列帧数:包含4帧和9帧两种序列。
- 数据量:每个领域50个序列,分辨率分别为1024x1024(4帧)和1056x1056(9帧)。
数据集格式
- 文本文件(.caption)和图像文件(.png)具有相同的文件名。
- 文本文件中包含用于生成对应图像的提示文本,格式为
--lora_up <index>,其中<index>指定了Asymmetric LoRA中B矩阵的索引。
数据集获取
数据集可通过Hugging Face获取,地址为:MakeAnything Dataset
数据集使用
- 训练:数据集用于训练Asymmetric LoRA和Recraft模型。
- 训练配置:需要设置TOML格式的数据集配置文件,指定图像目录、分辨率、批处理大小等参数。
- 推理:提供shell脚本模板,用于启动训练和推理过程。
模型权重
- 可以下载预训练的Asymmetric LoRA和Recraft模型权重,用于推理。
结果展示
数据集用于文本到序列生成(LoRA & Asymmetric LoRA)和图像到序列生成(Recraft Model),并在未见领域上展示了泛化能力。
引用
@inproceedings{Song2025MakeAnythingHD, title={MakeAnything: Harnessing Diffusion Transformers for Multi-Domain Procedural Sequence Generation}, author={Yiren Song and Cheng Liu and Mike Zheng Shou}, year={2025}, url={https://api.semanticscholar.org/CorpusID:276107845} }
搜集汇总
数据集介绍

构建方式
MakeAnything数据集的构建基于多个领域的步骤序列图像,涵盖从LEGO建造到绘画、雕塑等多种艺术创作过程。该数据集通过收集各领域的文本描述和对应的步骤图像,形成配对的训练样本,采用Asymmetric LoRA和Recraft模型进行训练,生成多样化的步骤序列。
特点
MakeAnything数据集的特点在于其跨领域的多样性,包含21个不同领域的步骤序列,每个领域有50个序列。数据集支持4帧和9帧两种分辨率,其中9帧序列采用S形排列,4帧序列采用ɔ形排列。数据集的构建旨在促进多域 procedural sequence generation 的研究。
使用方法
使用MakeAnything数据集时,用户需先设置适当的环境和依赖,然后根据数据集的结构组织配置文件。对于训练,用户需要准备包含文本描述和图像文件的配对数据,并根据Asymmetric LoRA和Recraft模型的训练脚本调整参数。训练完成后,用户可以使用推理脚本来生成新的步骤序列图像。
背景与挑战
背景概述
MakeAnything数据集是由新加坡国立大学Show Lab的研究团队于2025年创建的,主要研究人员包括Yiren Song、Cheng Liu和Mike Zheng Shou。该数据集的核心研究问题是利用扩散变换器进行多领域程序序列生成,旨在通过文生图和图生文的生成模型,实现从文本描述到连续图像序列的转换。MakeAnything数据集涵盖了21个领域的程序序列,包括LEGO、绘画、图标、风景插画、肖像画等,为相关领域的研究提供了丰富的资源,具有重要的影响力。
当前挑战
MakeAnything数据集在构建过程中遇到的挑战主要包括:1) 多领域数据的收集和标注,需要保证数据的质量和一致性;2) 模型训练中的数据配对问题,需要确保文本描述与图像序列的准确对应;3) 模型泛化能力的提升,以便在未见领域上也能取得良好的生成效果。在所解决的领域问题上,MakeAnything数据集面临的挑战包括如何生成连贯且符合文本描述的图像序列,以及如何提高模型对不同艺术风格和领域的适应性。
常用场景
经典使用场景
MakeAnything数据集是专为多领域程序序列生成任务而设计的,其经典使用场景在于借助扩散变换器,生成从文本到图像序列的逐步指导。用户可通过提供文本提示,模型将据此生成对应的图像序列,适用于如绘画、雕塑等多种创作过程的可视化。
实际应用
在实际应用中,MakeAnything数据集可用于艺术创作辅助、教育演示、游戏内容生成等多个领域,通过模型生成的序列图像,可以辅助艺术家创作新的作品,或为学生提供直观的制作过程演示。
衍生相关工作
基于MakeAnything数据集,衍生出了许多相关工作,如针对特定领域的序列生成模型、图像到图像的编辑模型等,这些工作进一步扩展了数据集的应用范围,推动了图像生成技术的多样化发展。
以上内容由遇见数据集搜集并总结生成



