five

LAION-SG

收藏
Hugging Face2024-12-05 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/mengcy/LAION-SG
下载链接
链接失效反馈
官方服务:
资源简介:
LAION-SG是一个大规模的数据集,具有高质量的场景图(SG)结构注释,精确描述了多个对象的属性和关系,有效地表示复杂场景中的语义结构。数据集包含540,005个带有对象、属性和关系注释的SG-图像对,分为训练集、验证集和测试集。数据集的注释长度和准确性均高于原始的LAION-Aesthetics数据集。数据集的图像来自LAION-Aesthetics V2 (6.5+)数据集,注释过程使用了GPT-4o进行自动化注释。

LAION-SG is a large-scale dataset featuring high-quality scene graph (SG) structural annotations. These annotations accurately depict the attributes and relational information of multiple objects, effectively capturing the semantic structure of complex scenes. The dataset comprises 540,005 SG-image pairs annotated with objects, attributes and relationships, and is split into training, validation and test subsets. Both the annotation length and annotation accuracy of LAION-SG exceed those of the original LAION-Aesthetics dataset. The images within this dataset are sourced from the LAION-Aesthetics V2 (6.5+) dataset, and automated annotation was conducted using GPT-4o during the annotation process.
创建时间:
2024-12-03
原始信息汇总

LAION-SG 数据集概述

数据集描述

LAION-SG 是一个大规模的数据集,具有高质量的场景图(Scene Graph)结构化注释,精确描述了多个对象的属性和关系,有效表示复杂场景中的语义结构。

数据集详情

  • 语言:所有注释使用英语。
  • 许可证:MIT 许可证。
  • 对象信息:每个样本平均包含 6.39 个对象,不包括抽象专有名词,专注于反映真实语义关系的具体名词。LAION-SG 包含比原始 LAION-Aesthetics 数据集多 20% 的对象信息,在排除专有名词后,这一优势增加到 216%。
  • 注释长度:场景图和原始描述的平均注释长度分别为 32.2 和 19.0,反映出场景图以更紧凑的形式包含更丰富的信息。
  • 注释准确性:场景图的注释准确性高于原始描述。

数据分割

  • 总样本数:540,005 个场景图-图像对,包含对象、属性和关系。
  • 训练集:480,005 个样本。
  • 验证集:10,000 个样本。
  • 测试集:50,000 个样本。

数据集结构

数据实例

示例数据实例包含以下字段:

  • img_id:图像的唯一数字 ID。
  • name:源图像的名称。
  • caption_ori:LAION-Aesthetics 中的原始图像描述。
  • score:图像的美学评分。
  • url:源图像的 URL。
  • items:图像中识别的对象列表。
    • item_id:当前图像中对象的唯一数字 ID。
    • label:对象的标签。
    • attributes:对象的属性列表。
    • global_item_id:LAION-SG 中所有图像中对象的唯一数字 ID。
  • relations:图像中识别的关系列表。
    • triple_id:当前图像中关系的唯一数字 ID。
    • item1:场景图三元组 <subject, relation, object> 中的主体的 item_id。
    • relation:场景图三元组 <subject, relation, object> 中主体和对象之间的关系。
    • item2:场景图三元组 <subject, relation, object> 中的对象的 item_id。
    • global_relation_id:LAION-SG 中所有图像中关系的唯一数字 ID。

数据集创建

源数据

所有图像来自 LAION-Aestheics V2 (6.5+) 数据集。

数据收集和处理

数据集构建在高质量的 LAION-Aesthetic V2 (6.5+) 图像上,使用 GPT-4o 进行自动化注释。通过提示工程设计了一系列特定要求,以确保场景图注释的全面性、系统结构和精确性。

引用

BibTeX: [更多信息待补充]

搜集汇总
数据集介绍
main_image_url
构建方式
LAION-SG数据集构建于LAION-Aesthetics V2 (6.5+)的高质量图像之上,通过GPT-4o进行自动化标注。该数据集专注于场景图(Scene Graph)的结构化注释,旨在精确描述复杂场景中的对象、属性和关系。构建过程中,通过提示工程设计了一系列特定要求,确保注释的全面性、系统性和精确性。每个对象被赋予唯一ID,属性部分要求每个对象至少有一个抽象形容词属性,关系部分则使用具体动词描述对象间的互动,从而捕捉场景中的动态交互。
特点
LAION-SG数据集的显著特点在于其丰富的结构化信息和高质量的注释。每样本平均包含6.39个对象,且在排除抽象专有名词后,对象信息比原始LAION-Aesthetics数据集多出20%,若进一步排除专有名词,这一优势提升至216%。场景图的平均注释长度为32.2,显著高于原始描述的19.0,反映出场景图在更紧凑的形式中包含了更丰富的信息。此外,场景图的注释准确性也高于原始描述,为后续的图像生成任务提供了强有力的数据支持。
使用方法
使用LAION-SG数据集时,首先需下载注释文件和处理代码,并根据提供的URL下载图像数据。数据集包含540,005个场景图-图像对,分为训练集、验证集和测试集,分别包含480,005、10,000和50,000个样本。用户可通过提供的代码库中的`LAIONSceneGraphDataset`和`build_laion_loaders`函数加载数据集,并根据项目需求调整配置文件。数据集的结构化注释为图像与文本的联合任务提供了丰富的语义信息,适用于图像生成、图像理解等多种应用场景。
背景与挑战
背景概述
LAION-SG数据集是由高质量的场景图结构注释构建的大规模数据集,专注于复杂场景中的对象、属性和关系的精确描述。该数据集基于LAION-Aesthetics V2 (6.5+)数据集,通过GPT-4o模型进行自动化注释,旨在为图像生成任务提供丰富的语义结构支持。LAION-SG的创建时间为2024年,主要研究人员包括Zejian Li等,其核心研究问题是如何在复杂场景中有效表示对象及其关系,从而提升图像生成模型的表现。该数据集的发布对图像生成和语义理解领域具有重要影响,尤其在场景图生成和复杂场景建模方面提供了新的研究方向。
当前挑战
LAION-SG数据集在构建过程中面临多项挑战。首先,场景图的自动化注释需要高度精确,以确保对象、属性和关系的准确性,这要求复杂的提示工程和多模态语言模型的支持。其次,数据集的版权问题限制了部分图像的可用性,导致最终数据集规模较原始数据集有所减少。此外,场景图的注释长度和复杂性显著高于原始描述,这对模型的处理能力和计算资源提出了更高要求。最后,如何在保持注释精确性的同时,确保数据集的多样性和广泛适用性,也是该数据集面临的重要挑战。
常用场景
经典使用场景
LAION-SG数据集以其高质量的场景图结构注释而闻名,广泛应用于图像与文本的跨模态理解任务中。其经典使用场景包括图像描述生成、视觉问答(VQA)以及图像检索等。通过精确描述图像中多个对象的属性与关系,LAION-SG为模型提供了丰富的语义信息,使得模型能够更准确地理解复杂场景中的对象交互与空间布局。
解决学术问题
LAION-SG数据集通过提供详细的场景图注释,解决了传统图像描述数据集中语义信息不足的问题。其高精度的注释不仅提升了图像与文本对齐的准确性,还为复杂场景的理解与生成提供了强有力的支持。这一数据集的推出,推动了图像与文本跨模态研究的发展,尤其是在场景图生成与图像合成领域,具有重要的学术意义。
衍生相关工作
基于LAION-SG数据集,许多相关工作得以展开,尤其是在场景图生成与图像合成领域。例如,研究者们利用该数据集训练了高效的图像描述生成模型,进一步推动了视觉语言模型的研究。此外,LAION-SG还启发了许多关于复杂场景理解的深度学习方法,尤其是在多对象交互与属性推理方面,衍生了一系列创新性的研究工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作