SpaceSGG
收藏LLaVA-SpaceSGG 数据集概述
概述
LLaVA-SpaceSGG 是一个多模态大语言模型(MLLM),旨在通过改进空间关系建模和实现开放词汇泛化来解决场景图生成(SGG)的挑战。SGG 将视觉场景转换为结构化的图表示,为复杂的视觉任务提供更深入的场景理解。
关键特性
- 增强的空间关系建模:结合对象位置、关系和深度信息,以更好地进行空间推理。
- 开放词汇泛化:擅长在开放词汇环境中生成结构化的场景图。
- 自定义数据集:SpaceSGG:一个新颖的指令调优数据集,包含空间描述、问答(QA)和对话。
- 两阶段训练范式:通过利用 MLLM 的固有能力,提高模型在 SGG 任务中的可迁移性。
成就
- 性能:LLaVA-SpaceSGG 在召回率上比现有方法高出 4.5%,在平均召回率上提高了 1.4%。
- 数据集:SpaceSGG 是通过一个集成对象位置、空间关系和深度信息的管道构建的,使用了公共数据集和开源模型。
数据准备
阶段 1:生成点云和分层对象
-
从 RGB 和深度图像生成点云: bash python d2p.py --dataset-path dataset/coco --scale-factor 5000 --world-coordinates
-
按深度聚类对象为分层: bash python layers_aggregation.py --input-file asv2_level.json --depth-dir ./depth-output --mask-dir ./mask-output --output-file processed_annotations.json --dataset-base /home/ming/Datasets/all-seeing-v2/materials/ --data-prefix ../data/
-
生成多视角分层对象: bash python multiview_layers.py --input-file asv2_level.json --point-cloud-dir ./point_clouds --mask-dir ./mask-output --output-file processed_annotations.json --dataset-base /home/ming/Datasets/all-seeing-v2/materials/ --data-prefix ../data/
阶段 2:生成训练数据格式
-
生成分层描述: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_layer_prompt --output-file layer_description.json
-
生成问答(QA)数据: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_between_prompt --output-file between_qa.json
-
生成对话数据: bash python llm_based_query.py --anno-file annotations.json --prompt-function create_rotation_prompt --output-file rotation_prompts.json
引用
如果您在研究中使用了 LLaVA-SpaceSGG 或 SpaceSGG 数据集,请引用我们的工作: bibtex @inproceedings{llava_spacesgg2025, title={LLaVA-SpaceSGG: Visual Instruct Tuning for Open-vocabulary Scene Graph Generation with Enhanced Spatial Relations}, author={Your Name and Co-authors}, booktitle={Proceedings of WACV 2025}, year={2025} }
许可证
该项目基于 Apache License 许可。
联系方式
如有问题或反馈,请联系 parasolohalo@gmail.com。




