five

SpaceSGG

收藏
arXiv2024-12-09 更新2024-12-11 收录
下载链接:
https://github.com/Endlinc/LLaVA-SpaceSGG
下载链接
链接失效反馈
官方服务:
资源简介:
SpaceSGG数据集是由香港中文大学、香港城市大学、香港大学和东莞理工学院的研究团队创建的,旨在增强场景图生成(SGG)任务中的空间关系建模。该数据集通过结合公开可用数据集和使用开源模型合成的数据构建,包含对象位置、对象关系和深度信息,形成了三种数据格式:空间SGG描述、问答和对话。数据集的创建过程包括从2D图像中提取场景图描述和空间布局,并通过深度估计算法生成3D场景,最终提取3D SGG。SpaceSGG数据集主要应用于开放词汇场景图生成任务,旨在提升模型对复杂视觉场景中空间关系的理解和建模能力。

The SpaceSGG dataset was developed by research teams from The Chinese University of Hong Kong, City University of Hong Kong, The University of Hong Kong, and Dongguan University of Technology, with the goal of enhancing spatial relation modeling in the Scene Graph Generation (SGG) task. Constructed by integrating publicly available datasets and synthetic data generated via open-source models, this dataset encompasses object positions, object relationships and depth information, and covers three data formats: spatial SGG descriptions, question-answering pairs and dialogues. The dataset creation workflow includes extracting scene graph descriptions and spatial layouts from 2D images, generating 3D scenes using depth estimation algorithms, and finally extracting 3D SGG. The SpaceSGG dataset is primarily utilized for open-vocabulary scene graph generation tasks, aiming to improve models' capabilities of understanding and modeling spatial relations in complex visual scenes.
提供机构:
香港中文大学, 香港城市大学, 香港大学, 东莞理工学院
创建时间:
2024-12-09
原始信息汇总

LLaVA-SpaceSGG 数据集概述

概述

LLaVA-SpaceSGG 是一个多模态大语言模型(MLLM),旨在通过改进空间关系建模和实现开放词汇泛化来解决场景图生成(SGG)的挑战。SGG 将视觉场景转换为结构化的图表示,为复杂的视觉任务提供更深入的场景理解。

关键特性

  • 增强的空间关系建模:结合对象位置、关系和深度信息,以更好地进行空间推理。
  • 开放词汇泛化:擅长在开放词汇环境中生成结构化的场景图。
  • 自定义数据集:SpaceSGG:一个新颖的指令调优数据集,包含空间描述、问答(QA)和对话。
  • 两阶段训练范式:通过利用 MLLM 的固有能力,提高模型在 SGG 任务中的可迁移性。

成就

  • 性能:LLaVA-SpaceSGG 在召回率上比现有方法高出 4.5%,在平均召回率上提高了 1.4%。
  • 数据集:SpaceSGG 是通过一个集成对象位置、空间关系和深度信息的管道构建的,使用了公共数据集和开源模型。

数据准备

阶段 1:生成点云和分层对象

  1. 从 RGB 和深度图像生成点云: bash python d2p.py --dataset-path dataset/coco --scale-factor 5000 --world-coordinates

  2. 按深度聚类对象为分层: bash python layers_aggregation.py --input-file asv2_level.json --depth-dir ./depth-output --mask-dir ./mask-output --output-file processed_annotations.json --dataset-base /home/ming/Datasets/all-seeing-v2/materials/ --data-prefix ../data/

  3. 生成多视角分层对象: bash python multiview_layers.py --input-file asv2_level.json --point-cloud-dir ./point_clouds --mask-dir ./mask-output --output-file processed_annotations.json --dataset-base /home/ming/Datasets/all-seeing-v2/materials/ --data-prefix ../data/

阶段 2:生成训练数据格式

  1. 生成分层描述: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_layer_prompt --output-file layer_description.json

  2. 生成问答(QA)数据: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_between_prompt --output-file between_qa.json

  3. 生成对话数据: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_rotation_prompt --output-file rotation_prompts.json

引用

如果您在研究中使用了 LLaVA-SpaceSGG 或 SpaceSGG 数据集,请引用我们的工作: bibtex @inproceedings{llava_spacesgg2025, title={LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations}, author={Your Name and Co-authors}, booktitle={Proceedings of WACV 2025}, year={2025} }

许可证

该项目基于 Apache License 许可。

联系方式

如有问题或反馈,请联系 parasolohalo@gmail.com

搜集汇总
数据集介绍
main_image_url
构建方式
SpaceSGG数据集通过结合公开可用数据集和使用开源模型生成的合成数据构建而成。该数据集的构建流程包括从2D图像中提取场景图描述和空间布局信息,随后通过深度估计算法生成深度图,并将其转换为3D点云,从而构建3D场景。最终,数据集整合了对象位置、对象关系和深度信息,形成了三种数据格式:空间场景图描述(SpaceSGGDesc)、单轮问答(SpaceSGG-QA)和多轮对话(SpaceSGG-Conv)。
特点
SpaceSGG数据集的显著特点在于其对空间关系的增强建模,不仅包含传统的对象关系,还引入了3D空间关系,如前后关系和深度比较。此外,数据集提供了三种不同的数据格式,分别侧重于空间描述、问答和多轮对话,增强了模型在空间推理和场景理解方面的能力。
使用方法
SpaceSGG数据集可用于训练和评估多模态大语言模型(MLLM)在开放词汇场景图生成(SGG)任务中的表现。通过结合空间描述、问答和多轮对话数据,研究人员可以采用两阶段训练策略,首先进行预训练以增强模型的开放词汇理解能力,随后通过指令微调进一步优化模型对空间关系的理解。
背景与挑战
背景概述
场景图生成(SGG)是计算机视觉领域中的一项基础任务,旨在通过检测图像中的实体及其关系来构建场景图,从而为复杂视觉任务提供更深层次的场景理解。SpaceSGG数据集由香港中文大学、香港城市大学、香港大学和东莞理工学院的研究团队于2024年创建,旨在解决现有SGG模型在开放词汇和空间关系建模方面的不足。该数据集通过结合公开可用数据集和开源模型生成的合成数据构建,涵盖了对象位置、对象关系和深度信息,形成了三种数据格式:空间SGG描述、问答和对话。SpaceSGG的提出不仅填补了现有数据集在空间关系信息上的空白,还为多模态大语言模型(MLLM)在SGG任务中的应用提供了新的训练范式,显著提升了模型在开放词汇场景图生成任务中的表现。
当前挑战
SpaceSGG数据集的构建面临两大主要挑战:一是开放词汇场景图生成(Open-vocabulary SGG),现有方法通常依赖于固定的标签集进行直接监督,导致其在开放词汇图像上的泛化能力不足;二是空间关系的缺失,现有SGG数据集主要基于2D图像进行标注,忽略了对象间的3D空间关系。此外,数据集的构建过程中,如何有效融合2D和3D场景信息,生成高质量的空间关系描述和问答数据,也是一项技术难题。这些挑战不仅限制了现有SGG模型的性能,也凸显了SpaceSGG在提升模型空间理解能力方面的重要性。
常用场景
经典使用场景
SpaceSGG数据集的经典使用场景主要集中在开放词汇场景图生成(Open-vocabulary Scene Graph Generation, SGG)任务中。该数据集通过结合物体位置、物体关系以及深度信息,提供了三种数据格式:空间SGG描述、问答和对话。这些数据格式不仅帮助模型理解物体之间的空间关系,还能增强模型在复杂视觉任务中的推理能力,如视觉问答、图像描述生成和图像检索等。
实际应用
SpaceSGG数据集在实际应用中具有广泛的前景,特别是在需要深度理解和推理的视觉任务中。例如,在自动驾驶领域,该数据集可以帮助车辆更好地理解道路上的物体及其空间关系,从而提升导航和避障能力。此外,在智能家居系统中,该数据集可以用于识别房间内的物体及其位置关系,增强系统的交互性和智能化水平。
衍生相关工作
SpaceSGG数据集的提出催生了一系列相关工作,特别是在多模态大语言模型(MLLM)和场景图生成领域。基于该数据集,研究者们开发了LLaVA-SpaceSGG模型,该模型在开放词汇SGG任务中表现出色,超越了现有的基准模型。此外,该数据集还激发了对空间关系建模的进一步研究,推动了深度估计和3D重建技术在视觉任务中的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作