LAION-SG

Name: LAION-SG
Creator: 浙江大学, 江南大学, 北京大学, 阿里巴巴集团, 蚂蚁集团
Published: 2024-12-12 01:57:10
License: 暂无描述

arXiv2024-12-12 更新2024-12-13 收录

下载链接：

https://github.com/mengcye/LAION-SG

下载链接

链接失效反馈

官方服务：

资源简介：

LAION-SG是一个大规模的图像-文本数据集，基于LAION-Aesthetics V2 (6.5+)构建，包含540,005条高质量的图像-文本对，并带有结构化的场景图注释。该数据集通过GPT-4o进行自动化注释，详细描述了图像中多个对象的属性及其关系，旨在提升复杂场景图像生成的准确性和语义一致性。LAION-SG的创建过程包括对象识别、属性识别和关系识别，确保注释的全面性和精确性。该数据集主要应用于复杂场景的图像生成和语义理解，旨在解决现有数据集在复杂场景生成中的不足。

LAION-SG is a large-scale image-text dataset built upon LAION-Aesthetics V2 (6.5+), which contains 540,005 high-quality image-text pairs with structured scene graph annotations. Annotated automatically via GPT-4o, this dataset elaborately describes the attributes and relationships of multiple objects in images, aiming to improve the accuracy and semantic consistency of complex scene image generation. The development pipeline of LAION-SG encompasses object recognition, attribute recognition and relationship recognition, ensuring the comprehensiveness and precision of the annotations. This dataset is primarily applied to complex scene image generation and semantic understanding, aiming to address the shortcomings of existing datasets in complex scene generation.

提供机构：

浙江大学, 江南大学, 北京大学, 阿里巴巴集团, 蚂蚁集团

创建时间：

2024-12-12

原始信息汇总

LAION-SG: 一个增强的大规模数据集，用于训练具有结构化注释的复杂图像-文本模型

数据集概述

LAION-SG 是一个大规模的图像-文本数据集，具有高质量的场景图（SG）结构化注释，能够精确描述多个对象的属性和关系，有效表示复杂场景中的语义结构。该数据集旨在解决现有图像-文本数据集在多对象和复杂关系生成方面的性能下降问题。

数据集发布

LAION-SG 数据集已发布在 Hugging Face 上，可通过以下链接访问：LAION-SG 数据集。

环境设置

数据集的训练和推理环境设置如下：

使用 Python 3.10 和 CUDA 11.8 进行测试。
安装所需的包： bash pip3 install -r requirements.txt

训练

提供了一个用于训练 sdxl-sg 模型的脚本 trainer_laion.py，使用以下命令启动训练： bash CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 accelerate launch --multi_gpu --num_processes 8 trainer_laion.py

推理

提供了一个简单的推理脚本 test_laion.py，用于从 LAION-SG 数据集中生成图像。

下载预训练权重
点击这里下载预训练权重并将其放置在项目的根目录中。
创建输出目录
在项目的根目录中创建一个名为 output 的文件夹，用于存储生成的图像： bash mkdir output
运行推理脚本
使用以下命令执行推理： bash python test_laion.py

生成的图像将保存在 output/ 文件夹中，文件名为 {img_id}.jpg，其中 {img_id} 对应于 LAION-SG 数据集中的图像 ID。

引用

@misc{li2024laionsgenhancedlargescaledataset, title={LAION-SG: An Enhanced Large-Scale Dataset for Training Complex Image-Text Models with Structural Annotations}, author={Zejian Li and Chenye Meng and Yize Li and Ling Yang and Shengyuan Zhang and Jiarui Ma and Jiayi Li and Guang Yang and Changyuan Yang and Zhiyuan Yang and Jinxiong Chang and Lingyun Sun}, year={2024}, eprint={2412.08580}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2412.08580}, }

搜集汇总

数据集介绍

构建方式

LAION-SG数据集的构建基于LAION-Aesthetics V2 (6.5+)，该数据集包含625,000个图像-文本对，具有预测的美学评分超过6.5。通过使用GPT-4o进行自动化标注，LAION-SG数据集为每个图像添加了高质量的场景图（Scene Graph）注释，精确描述了多个对象及其属性与关系。构建过程中，每个对象被赋予唯一ID，确保场景结构的准确表示。属性部分要求每个对象至少有一个抽象形容词属性，避免使用具体对象作为属性，以增强注释的可解释性和泛化能力。关系部分则使用具体的动词描述对象间的关系，避免简单的空间关系描述，从而捕捉场景中的动态交互。

使用方法

LAION-SG数据集主要用于训练复杂的图像-文本生成模型，特别是那些需要处理多个对象及其复杂关系的模型。通过将场景图信息整合到生成过程中，模型能够更准确地生成复杂场景。使用方法包括基于场景图的图像生成（SG2IM），其中场景图通过图神经网络（GNN）提取结构信息，并将其嵌入到生成模型中。此外，LAION-SG还支持复杂场景生成的基准测试（CompSGen Bench），通过多个评估指标（如FID、CLIP Score、SG-IoU等）来评估模型在复杂场景生成中的表现。

背景与挑战

背景概述

近年来，文本到图像（Text-to-Image, T2I）生成技术取得了显著进展，能够从文本描述中生成高质量的图像。然而，现有的T2I模型在处理包含多个对象和复杂关系的组合图像生成任务时表现不佳。为了解决这一问题，浙江大学、江南大学、北京大学、阿里巴巴集团和蚂蚁集团的研究团队于2024年构建了LAION-SG数据集。该数据集基于LAION-Aesthetics V2（6.5+），通过结构化注释（Scene Graphs, SG）精确描述了多个对象及其属性与关系，有效捕捉了复杂场景的语义结构。LAION-SG的构建旨在提升复杂场景生成的质量，并为相关领域的研究提供了新的基准。

当前挑战

LAION-SG数据集的构建面临多个挑战。首先，现有的文本到图像数据集缺乏精确的跨对象关系注释，导致模型在处理复杂场景时表现不佳。其次，构建过程中需要自动化生成高质量的场景图注释，确保对象、属性和关系的准确性。此外，数据集的规模和多样性也是一个挑战，需要覆盖广泛的场景和对象类型，以支持复杂场景生成的训练需求。最后，如何有效地将结构化注释信息整合到图像生成模型中，以提升模型的生成能力和语义一致性，也是该数据集面临的重要挑战。

常用场景

经典使用场景

LAION-SG数据集的经典使用场景主要集中在复杂场景的图像生成任务中。通过引入结构化的场景图（Scene Graph）注释，该数据集能够精确描述图像中多个对象及其相互关系，从而显著提升文本到图像生成模型（T2I）在处理复杂场景时的表现。例如，在生成包含多个对象和复杂关系的图像时，LAION-SG能够帮助模型更准确地捕捉对象之间的交互关系，如‘人拿着剑’或‘鸟在云上飞’，从而生成更具语义一致性的图像。

解决学术问题

LAION-SG数据集解决了现有文本到图像生成模型在处理复杂场景时表现不佳的问题。传统T2I模型在生成涉及多个对象和复杂关系的图像时，往往难以准确捕捉对象之间的交互关系，导致生成图像的语义一致性较差。通过引入结构化的场景图注释，LAION-SG数据集为模型提供了更精确的对象属性、关系描述，从而显著提升了模型在复杂场景生成中的表现，推动了图像生成领域的研究进展。

实际应用

LAION-SG数据集在实际应用中具有广泛的应用前景。例如，在虚拟现实（VR）和增强现实（AR）领域，该数据集可以帮助生成更逼真的虚拟场景，提升用户体验。此外，在内容创作和设计领域，LAION-SG可以用于生成复杂的场景图像，帮助设计师快速生成符合需求的视觉内容。在教育领域，该数据集还可以用于生成教学素材，帮助学生更好地理解复杂的场景和对象关系。

数据集最近研究