GenSpace

Name: GenSpace
Creator: 浙江大学; 海星人工智能实验室; 香港大学
Published: 2025-05-31 01:59:26
License: 暂无描述

arXiv2025-05-31 更新2025-06-03 收录

下载链接：

https://github.com/SpatialVision/GenSpace

下载链接

链接失效反馈

官方服务：

资源简介：

GenSpace是一个用于评估图像生成模型空间感知能力的新型基准和评估流程。该数据集包含1800个文本提示用于文本到图像生成任务，以及1800对源图像和编辑指令用于基于指令的图像编辑任务。数据集涵盖了三个层次的空间感知维度：空间姿态、空间关系和空间测量，旨在评估模型在理解文本或图像提示中的空间信息方面的能力。GenSpace通过结合多个视觉基础模型，如物体检测、物体分割、深度估计、方向估计和相机内部校准，来重建图像中的3D场景几何，从而提供更准确和与人类空间感知更一致的空间保真度度量。该数据集的创建旨在解决当前图像生成模型在空间感知方面的局限性，并为改进图像生成中的空间智能提供方向。

GenSpace is a novel benchmark and evaluation pipeline for assessing the spatial perception capabilities of image generation models. This dataset contains 1800 text prompts for text-to-image generation tasks, and 1800 pairs of source images and editing instructions for instruction-based image editing tasks. The dataset covers three hierarchical spatial perception dimensions: spatial pose, spatial relations, and spatial measurement, aiming to evaluate models' ability to understand spatial information in text or image prompts. GenSpace reconstructs the 3D scene geometry within images by integrating multiple visual foundation models, including object detection, object segmentation, depth estimation, orientation estimation, and camera intrinsic calibration, thereby providing spatial fidelity metrics that are more accurate and more aligned with human spatial perception. This dataset was developed to address the current limitations of image generation models in spatial perception, and to provide guidance for improving spatial intelligence in image generation.

提供机构：

浙江大学; 海星人工智能实验室; 香港大学

创建时间：

2025-05-31

原始信息汇总

GenSpace数据集概述

环境安装

基于Python 3.10创建conda环境
核心依赖：
- PyTorch 2.2.2系列
- OpenMIM（用于MMEngine）
- Wis3D（可视化工具，可选）
- Detectron2（SOM可视化）
- 其他库：iopath/pyequilib/albumentations/einops/open3d/imageio
- MMCV 2.0.0（需指定CUDA 11.6和Torch 1.13版本）

关键组件安装

Orient-Anything
- 从GitHub克隆并重命名
- 安装requirements.txt依赖
- 需移动Rotation.py到该目录
Grounded-SAM套件
- 包含三个子组件：
  - Segment Anything（通过-e安装）
  - Grounding DINO（无构建隔离安装）
  - RAM（Recognize Anything模型）
Perspective Fields
- 直接从GitHub克隆到external目录

数据准备

目录结构要求：

data ├── t2i/ # 文本到图像生成任务 │ ├── 0/ # 子任务类型 │ │ ├── 0.png │ │ └── 0.txt # 格式：<cat> <dog> ├── imageedit_unedit/ # 图像编辑前内容 └── imageedit/ # 图像编辑后内容
文本文件规范：所有对象类型必须用<>包裹且空格分隔

推理示例

文本到图像(T2I) bash python run_t2i.py --config configs/v2.py --input example/t2i
图像编辑任务
- 预处理： bash python run_imageedit_preprocess.py --config configs/v2.py --input example/imageedit_unedit
- 主执行： bash python run_imageedit.py --config configs/v2.py --input example/imageedit
复杂关系子域(CR)
- 特殊预处理： bash python run_imageedit_CR_preprocess.py --config configs/v2.py --input example/imageedit_CR_unedit
- 独立执行： bash python run_imageedit_CR.py --config configs/v2.py --input example/imageedit_CR

搜集汇总

数据集介绍

构建方式

GenSpace数据集的构建基于对图像生成模型空间感知能力的系统性评估需求。研究团队首先定义了空间感知的三个核心维度：空间姿态、空间关系和空间测量，并针对每个维度设计了九个子领域。通过精心设计的文本提示模板和编辑指令，团队收集了1800个文本到图像生成的提示和1800个图像编辑指令对。为确保数据的多样性和自然性，所有提示均经过大型语言模型的重写，并由人工审核以确保清晰度和相关性。

特点

GenSpace数据集的特点在于其全面性和专业性。它不仅涵盖了文本到图像生成和基于指令的图像编辑两大任务，还通过三个层次的空间感知维度（基础姿态、定性关系和定量测量）深入评估模型的空间理解能力。数据集中的每个子领域包含200个样本，确保了评估的广泛性和深度。此外，数据集还引入了专门的评估流程和指标，通过多视觉基础模型联合分析生成图像的空间正确性，显著提升了评估的准确性和与人类感知的一致性。

使用方法

GenSpace数据集的使用方法主要包括三个步骤：首先，用户可以通过文本到图像生成或图像编辑任务测试模型的空间感知能力；其次，利用数据集提供的评估流程，结合对象检测、深度估计和方向估计等视觉基础模型，提取生成图像的3D信息；最后，通过比较生成图像与目标空间状态的差异，计算空间正确性得分。这一流程不仅适用于学术研究，还可用于工业界对图像生成模型的优化和基准测试。

背景与挑战

背景概述

GenSpace是由浙江大学、Sea AI Lab和香港大学的研究团队于2025年提出的一个创新性基准数据集，旨在全面评估当前图像生成模型的空间感知能力。该数据集基于真实世界摄影构图过程，系统地将空间感知能力分为三个难度递增的维度：空间姿态、空间关系和空间测量。GenSpace不仅涵盖了文本到图像生成任务，还包括基于指令的图像编辑任务，共包含3600个样本。这一数据集的提出填补了现有图像生成基准在空间布局规划评估方面的空白，为可控生成、艺术创作和AR/VR应用等领域的研究提供了重要工具。

当前挑战

GenSpace面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，当前先进的图像生成模型在理解特定3D细节（如物体放置、空间关系和测量）方面表现不佳，存在三个核心局限性：物体视角理解不足、自我中心与异中心视角转换困难以及度量测量依从性差。在构建过程中，如何准确评估生成图像的空间忠实度是一个关键挑战。传统的视觉语言模型在空间推理和精确测量方面存在局限，为此研究团队开发了专门的评估流程和指标，通过结合多个视觉基础模型来重建3D场景几何，从而提供更准确、更符合人类感知的空间忠实度度量。

常用场景

经典使用场景

GenSpace数据集在计算机视觉领域被广泛应用于评估图像生成模型的空间感知能力。通过提供包含空间关系的文本提示和编辑指令，该数据集能够系统地测试模型在生成或编辑图像时对物体位置、相机视角和空间测量的理解。其经典使用场景包括文本到图像生成和基于指令的图像编辑任务，涵盖了从简单物体姿态到复杂空间关系的多层次评估。

衍生相关工作

GenSpace数据集衍生了一系列关于空间感知评估的创新研究。基于其提出的评估框架，后续工作开发了更专业的视觉语言模型如SpatialVLM和SpatialRGPT。该数据集还启发了3DSR-Bench等空间推理基准的构建，推动了Thinking in Space等关于视频空间记忆的研究。这些衍生工作共同促进了多模态模型中空间智能的发展。

数据集最近研究