five

SpaceSGG|场景图生成数据集|空间关系建模数据集

收藏
arXiv2024-12-09 更新2024-12-11 收录
场景图生成
空间关系建模
下载链接:
https://github.com/Endlinc/LLaVA-SpaceSGG
下载链接
链接失效反馈
资源简介:
SpaceSGG数据集是由香港中文大学、香港城市大学、香港大学和东莞理工学院的研究团队创建的,旨在增强场景图生成(SGG)任务中的空间关系建模。该数据集通过结合公开可用数据集和使用开源模型合成的数据构建,包含对象位置、对象关系和深度信息,形成了三种数据格式:空间SGG描述、问答和对话。数据集的创建过程包括从2D图像中提取场景图描述和空间布局,并通过深度估计算法生成3D场景,最终提取3D SGG。SpaceSGG数据集主要应用于开放词汇场景图生成任务,旨在提升模型对复杂视觉场景中空间关系的理解和建模能力。
提供机构:
香港中文大学, 香港城市大学, 香港大学, 东莞理工学院
创建时间:
2024-12-09
原始信息汇总

LLaVA-SpaceSGG 数据集概述

概述

LLaVA-SpaceSGG 是一个多模态大语言模型(MLLM),旨在通过改进空间关系建模和实现开放词汇泛化来解决场景图生成(SGG)的挑战。SGG 将视觉场景转换为结构化的图表示,为复杂的视觉任务提供更深入的场景理解。

关键特性

  • 增强的空间关系建模:结合对象位置、关系和深度信息,以更好地进行空间推理。
  • 开放词汇泛化:擅长在开放词汇环境中生成结构化的场景图。
  • 自定义数据集:SpaceSGG:一个新颖的指令调优数据集,包含空间描述、问答(QA)和对话。
  • 两阶段训练范式:通过利用 MLLM 的固有能力,提高模型在 SGG 任务中的可迁移性。

成就

  • 性能:LLaVA-SpaceSGG 在召回率上比现有方法高出 4.5%,在平均召回率上提高了 1.4%。
  • 数据集:SpaceSGG 是通过一个集成对象位置、空间关系和深度信息的管道构建的,使用了公共数据集和开源模型。

数据准备

阶段 1:生成点云和分层对象

  1. 从 RGB 和深度图像生成点云: bash python d2p.py --dataset-path dataset/coco --scale-factor 5000 --world-coordinates

  2. 按深度聚类对象为分层: bash python layers_aggregation.py --input-file asv2_level.json --depth-dir ./depth-output --mask-dir ./mask-output --output-file processed_annotations.json --dataset-base /home/ming/Datasets/all-seeing-v2/materials/ --data-prefix ../data/

  3. 生成多视角分层对象: bash python multiview_layers.py --input-file asv2_level.json --point-cloud-dir ./point_clouds --mask-dir ./mask-output --output-file processed_annotations.json --dataset-base /home/ming/Datasets/all-seeing-v2/materials/ --data-prefix ../data/

阶段 2:生成训练数据格式

  1. 生成分层描述: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_layer_prompt --output-file layer_description.json

  2. 生成问答(QA)数据: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_between_prompt --output-file between_qa.json

  3. 生成对话数据: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_rotation_prompt --output-file rotation_prompts.json

引用

如果您在研究中使用了 LLaVA-SpaceSGG 或 SpaceSGG 数据集,请引用我们的工作: bibtex @inproceedings{llava_spacesgg2025, title={LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations}, author={Your Name and Co-authors}, booktitle={Proceedings of WACV 2025}, year={2025} }

许可证

该项目基于 Apache License 许可。

联系方式

如有问题或反馈,请联系 parasolohalo@gmail.com

AI搜集汇总
数据集介绍
main_image_url
构建方式
SpaceSGG数据集通过结合公开可用数据集和使用开源模型生成的合成数据构建而成。该数据集的构建流程包括从2D图像中提取场景图描述和空间布局信息,随后通过深度估计算法生成深度图,并将其转换为3D点云,从而构建3D场景。最终,数据集整合了对象位置、对象关系和深度信息,形成了三种数据格式:空间场景图描述(SpaceSGGDesc)、单轮问答(SpaceSGG-QA)和多轮对话(SpaceSGG-Conv)。
特点
SpaceSGG数据集的显著特点在于其对空间关系的增强建模,不仅包含传统的对象关系,还引入了3D空间关系,如前后关系和深度比较。此外,数据集提供了三种不同的数据格式,分别侧重于空间描述、问答和多轮对话,增强了模型在空间推理和场景理解方面的能力。
使用方法
SpaceSGG数据集可用于训练和评估多模态大语言模型(MLLM)在开放词汇场景图生成(SGG)任务中的表现。通过结合空间描述、问答和多轮对话数据,研究人员可以采用两阶段训练策略,首先进行预训练以增强模型的开放词汇理解能力,随后通过指令微调进一步优化模型对空间关系的理解。
背景与挑战
背景概述
场景图生成(SGG)是计算机视觉领域中的一项基础任务,旨在通过检测图像中的实体及其关系来构建场景图,从而为复杂视觉任务提供更深层次的场景理解。SpaceSGG数据集由香港中文大学、香港城市大学、香港大学和东莞理工学院的研究团队于2024年创建,旨在解决现有SGG模型在开放词汇和空间关系建模方面的不足。该数据集通过结合公开可用数据集和开源模型生成的合成数据构建,涵盖了对象位置、对象关系和深度信息,形成了三种数据格式:空间SGG描述、问答和对话。SpaceSGG的提出不仅填补了现有数据集在空间关系信息上的空白,还为多模态大语言模型(MLLM)在SGG任务中的应用提供了新的训练范式,显著提升了模型在开放词汇场景图生成任务中的表现。
当前挑战
SpaceSGG数据集的构建面临两大主要挑战:一是开放词汇场景图生成(Open-vocabulary SGG),现有方法通常依赖于固定的标签集进行直接监督,导致其在开放词汇图像上的泛化能力不足;二是空间关系的缺失,现有SGG数据集主要基于2D图像进行标注,忽略了对象间的3D空间关系。此外,数据集的构建过程中,如何有效融合2D和3D场景信息,生成高质量的空间关系描述和问答数据,也是一项技术难题。这些挑战不仅限制了现有SGG模型的性能,也凸显了SpaceSGG在提升模型空间理解能力方面的重要性。
常用场景
经典使用场景
SpaceSGG数据集的经典使用场景主要集中在开放词汇场景图生成(Open-vocabulary Scene Graph Generation, SGG)任务中。该数据集通过结合物体位置、物体关系以及深度信息,提供了三种数据格式:空间SGG描述、问答和对话。这些数据格式不仅帮助模型理解物体之间的空间关系,还能增强模型在复杂视觉任务中的推理能力,如视觉问答、图像描述生成和图像检索等。
实际应用
SpaceSGG数据集在实际应用中具有广泛的前景,特别是在需要深度理解和推理的视觉任务中。例如,在自动驾驶领域,该数据集可以帮助车辆更好地理解道路上的物体及其空间关系,从而提升导航和避障能力。此外,在智能家居系统中,该数据集可以用于识别房间内的物体及其位置关系,增强系统的交互性和智能化水平。
衍生相关工作
SpaceSGG数据集的提出催生了一系列相关工作,特别是在多模态大语言模型(MLLM)和场景图生成领域。基于该数据集,研究者们开发了LLaVA-SpaceSGG模型,该模型在开放词汇SGG任务中表现出色,超越了现有的基准模型。此外,该数据集还激发了对空间关系建模的进一步研究,推动了深度估计和3D重建技术在视觉任务中的应用。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录