LAION-SG

github2024-12-12 更新2024-12-13 收录

下载链接：

https://github.com/mengcye/LAION-SG

下载链接

链接失效反馈

官方服务：

资源简介：

LAION-SG是一个增强型大规模数据集，用于训练复杂的图像-文本模型，具有高质量的结构化场景图注释，能够精确描述多个对象的属性和关系，有效表示复杂场景中的语义结构。

LAION-SG is an enhanced large-scale dataset tailored for training complex image-text models. It features high-quality structured scene graph annotations that accurately describe the attributes and inter-object relationships, effectively capturing the semantic structures inherent in complex scenes.

创建时间：

2024-12-05

原始信息汇总

LAION-SG: 带有结构化注释的大规模数据集，用于训练复杂的图像-文本模型

摘要

最近的文本到图像（T2I）生成技术在从文本生成高质量图像方面取得了显著成功。然而，现有的T2I模型在涉及多个对象和复杂关系的组合图像生成中表现不佳。我们将其归因于现有图像-文本数据集的局限性，这些数据集缺乏精确的对象间关系注释。为了解决这个问题，我们构建了LAION-SG，这是一个带有高质量场景图（SG）结构化注释的大规模数据集，能够精确描述多个对象的属性和关系，有效表示复杂场景中的语义结构。基于LAION-SG，我们训练了一个新的基础模型SDXL-SG，将结构化注释信息融入生成过程。大量实验表明，基于我们的LAION-SG训练的高级模型在复杂场景生成方面显著优于现有数据集上的模型。我们还引入了CompSG-Bench，一个评估组合图像生成的基准，为该领域建立了新的标准。

数据集

该数据集已发布在Hugging Face上。访问LAION-SG数据集。

环境设置

以下命令在Python 3.10和CUDA 11.8环境下测试通过。

安装所需包： bash pip3 install -r requirements.txt

训练

我们提供了一个使用LAION_SG数据集训练sdxl-sg的脚本。使用以下命令启动trainer_laion.py： bash CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch --multi_gpu --num_processes 8 trainer_laion.py

推理

我们提供了一个简单的推理脚本，允许从LAION-SG数据集中生成图像。

下载预训练权重
点击这里下载预训练权重并将其放置在项目的根目录中。
创建输出目录
在项目的根目录中，创建一个名为output的文件夹以存储生成的图像： bash mkdir output

完成步骤2后，项目目录应如下所示：

LAION-SG/ ├── configs/ ├── output/ ├── pics/ ├── pretrained/ ├── sgEncoderTraining/ ├── baseline3_100.pt ├── LICENSE ├── README.md ├── requirements.txt ├── test_laion.py ├── trainer_laion.py
运行推理脚本
使用以下命令执行推理： bash python test_laion.py

生成的图像将保存在output/文件夹中，文件名为{img_id}.jpg，其中{img_id}对应于LAION-SG数据集中的图像ID。

引用

@misc{li2024laionsgenhancedlargescaledataset, title={LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations}, author={Zejian Li and Chenye Meng and Yize Li and Ling Yang and Shengyuan Zhang and Jiarui Ma and Jiayi Li and Guang Yang and Changyuan Yang and Zhiyuan Yang and Jinxiong Chang and Lingyun Sun}, year={2024}, eprint={2412.08580}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.08580}, }

搜集汇总

数据集介绍

构建方式

在图像生成领域，现有的文本到图像（T2I）模型在处理复杂场景时表现欠佳，主要归因于数据集中缺乏精确的物体间关系标注。为此，研究团队构建了LAION-SG数据集，该数据集通过引入高质量的场景图（SG）结构化标注，精确描述了多物体间的属性和关系，从而有效捕捉复杂场景的语义结构。这一构建方式不仅提升了数据集的复杂性，还为模型训练提供了更为丰富的语义信息。

使用方法

使用LAION-SG数据集进行模型训练和推理时，用户需先配置环境并安装相关依赖包。训练过程中，可通过提供的脚本启动训练程序，利用多GPU并行处理以加速训练。推理阶段，用户需下载预训练权重并设置输出目录，随后运行推理脚本即可生成图像。生成的图像将按数据集中的图像ID命名并保存，便于后续分析和应用。

背景与挑战

背景概述

近年来，文本到图像（T2I）生成技术取得了显著进展，能够从文本描述中生成高质量的图像。然而，现有的T2I模型在处理涉及多个对象和复杂关系的组合图像生成任务时，性能显著下降。这一问题主要归因于现有图像-文本数据集缺乏精确的物体间关系标注。为解决这一问题，LAION-SG数据集应运而生，由浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究人员共同构建。该数据集通过引入高质量的场景图（SG）结构化标注，精确描述了多个对象的属性和关系，有效表达了复杂场景的语义结构。基于此，研究人员训练了新的基础模型SDXL-SG，并在复杂场景生成任务中取得了显著的性能提升。

当前挑战

LAION-SG数据集的构建面临多重挑战。首先，如何在大规模数据集中精确标注物体间的复杂关系，确保标注的准确性和一致性，是一个技术难题。其次，场景图的结构化标注需要大量的计算资源和人工校验，增加了数据集构建的成本和复杂度。此外，如何将这些结构化标注有效融入到模型训练中，以提升模型的生成能力，也是一项重要的研究挑战。最后，构建一个能够评估组合图像生成性能的基准测试（CompSG-Bench），为该领域设立新的标准，同样需要克服诸多技术难题。

常用场景

经典使用场景

在图像与文本生成领域，LAION-SG数据集的经典应用场景主要体现在复杂场景的图像生成任务中。该数据集通过引入高质量的场景图结构注释，能够精确描述多个对象之间的属性和关系，从而为模型提供了丰富的语义信息。基于此，研究者可以训练出能够生成复杂场景图像的模型，如SDXL-SG，其在多对象和复杂关系的图像生成任务中表现尤为突出。

解决学术问题

LAION-SG数据集有效解决了现有图像-文本数据集在复杂场景生成中的局限性问题。传统数据集缺乏对对象间关系的精确注释，导致模型在处理多对象和复杂关系时性能下降。通过引入场景图结构注释，LAION-SG为模型提供了更丰富的语义信息，显著提升了复杂场景生成的质量和准确性，为该领域的研究提供了新的基准。

实际应用

在实际应用中，LAION-SG数据集可广泛应用于图像生成、虚拟场景构建、游戏设计以及广告创意等领域。例如，在虚拟场景构建中，该数据集可以帮助生成包含多个对象和复杂关系的场景，提升虚拟环境的逼真度和交互性。此外，在广告创意中，利用该数据集生成的复杂图像可以更好地传达广告信息，增强视觉效果。

数据集最近研究