SpatialEdit-500k

Name: SpatialEdit-500k
Creator: 香港大学; JD Explore Academy; 清华大学; 香港科技大学; 香港中文大学
Published: 2026-04-07 01:54:42
License: 暂无描述

arXiv2026-04-07 更新2026-04-07 收录

下载链接：

https://github.com/EasonXiao-888/SpatialEdit

下载链接

链接失效反馈

官方服务：

资源简介：

SpatialEdit-500k是由香港大学、JD Explore Academy等机构联合构建的大规模合成数据集，专为细粒度图像空间编辑任务设计。该数据集通过可控的Blender管线生成，包含多样化的背景和系统化相机轨迹渲染的物体图像，提供物体旋转、平移、缩放及相机视角变换的精确标注数据。数据生成过程融合了GLB资产渲染、VLM验证、SAM3分割及背景生成技术，覆盖室内外场景和八种标准物体视角。其核心应用是解决生成模型在几何驱动编辑（如相机控制、物体位姿调整）中的精度不足问题，为3D感知的图像编辑提供训练与评估基础。

SpatialEdit-500k is a large-scale synthetic dataset jointly constructed by The University of Hong Kong, JD Explore Academy and other institutions, specifically designed for fine-grained image spatial editing tasks. Generated via a controllable Blender pipeline, this dataset contains diverse backgrounds and object images rendered with systematic camera trajectories, and provides precisely annotated data for object rotation, translation, scaling and camera viewpoint transformation. The data generation process integrates GLB asset rendering, VLM validation, SAM3 segmentation and background generation technologies, covering indoor and outdoor scenes as well as eight standard object viewpoints. Its core application is to address the insufficient accuracy of generative models in geometry-driven editing such as camera control and object pose adjustment, providing a training and evaluation foundation for 3D-aware image editing.

提供机构：

香港大学; JD Explore Academy; 清华大学; 香港科技大学; 香港中文大学

创建时间：

2026-04-07

原始信息汇总

SpatialEdit 数据集概述

数据集基本信息

数据集名称: SpatialEdit
核心任务: 专注于细粒度图像空间编辑的基准测试与数据构建，旨在实现对物体运动、旋转、3D视角、构图和相机移动的精确控制。
主要贡献: 包含一个完整的评估基准（SpatialEdit-Bench）、一个用于可扩展训练的大规模合成数据集（SpatialEdit-500K）以及一个基线模型（SpatialEdit-16B）。

数据集构成与资源

SpatialEdit-500K
- 性质: 合成训练数据集。
- 目的: 为可扩展的细粒度空间编辑提供训练数据。
- 生成方式: 通过可控的Blender渲染管线生成，在多样化背景和系统化相机轨迹下渲染物体，为以物体和相机为中心的操作提供精确的真实变换数据。
- 获取地址: https://huggingface.co/datasets/EasonXiao-888/SpatialEdit-500K
SpatialEdit-Bench
- 性质: 基准测试数据集（包含图像与评估资源）。
- 目的: 评估空间编辑效果，通过视角重建和构图分析联合测量感知合理性与几何保真度。
- 评估维度: 涵盖以物体为中心和以相机为中心的编辑任务。
- 获取地址: https://huggingface.co/datasets/EasonXiao-888/SpatialEdit-Bench
SpatialEdit-16B
- 性质: 图像空间编辑的基线模型权重。
- 获取地址: https://huggingface.co/EasonXiao-888/SpatialEdit-16B

应用场景与任务

3D点云控制: 从稀疏的输入视角合成更丰富的空间观测。
基于条件帧的视频生成: 在给定首帧后，通过空间编辑生成视频的最终帧，再由视频生成模型合成连贯的过渡序列。
相机轨迹变换: 控制相机运动。
物体移动: 控制物体在场景中的位置变化。
物体旋转: 控制物体的旋转。

技术实现与评估

数据引擎: SpatialEdit-500K 采用系统化改变物体姿态、位置和相机轨迹的合成渲染管线构建。
基准测试: SpatialEdit-Bench 旨在评估编辑后的图像在视觉上是否合理，同时是否满足请求的空间变换。
评估流程:
- 相机层面评估: 测量视角重建和构图保真度。
- 物体层面评估: 对编辑的忠实度和基准统计数据评分。

使用说明与依赖

外部依赖: 运行基准评估需要下载外部检查点，包括 VGGT、YOLO26x、Qwen3-VL-8B-Instruct 和 Wan2.1-T2V-1.3B 模型权重。
配置注意: 配置文件包含内部绝对路径，运行前需替换为本地模型路径。
快速演示: 仓库提供了本地推理入口点 (spatialedit_demo.py)，运行前需更新其中的检查点路径。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，图像空间编辑旨在实现几何驱动的精确变换，然而高质量训练数据的匮乏长期制约着该方向的发展。SpatialEdit-500k的构建采用了一套高度可控的Blender合成管线，系统性地解决了数据瓶颈。其构建过程分为物体中心与相机中心两条并行的数据生成路径：对于物体级编辑，研究团队从TexVerse等来源筛选GLB格式的3D资产，在Blender中渲染八个预设标准视角的图像，并利用先进视觉语言模型验证视角有效性，随后通过Segment Anything Model获取物体掩码，再结合高质量文生图模型生成语义兼容的背景进行图像合成，最终通过投影3D边界框获得精确的2D标注；对于相机级编辑，则构建了包含丰富室内外场景的3D场景池，以视觉显著物体为焦点，系统性地采样偏航、俯仰和变焦等相机参数，生成多样化的视点图像对，并经过基于检测器和VLM的双分支质量过滤，确保数据的几何精确性与视觉合理性。

特点

该数据集的核心特征体现在其规模性、精确性与任务覆盖的全面性。SpatialEdit-500k包含了五十万对高质量的图像编辑样本，其数据分布经过精心设计，在物体移动、旋转以及相机操作等七个子任务间达到了良好平衡。数据集提供了精确的地面真值几何变换参数，包括物体在图像平面内的平移、缩放、旋转角度，以及相机在三维空间中的位姿变化，这为模型学习提供了明确的监督信号。此外，数据集涵盖了广泛的物体类别与多样的场景背景，室内外环境兼备，确保了模型训练所需的泛化能力。其合成流程不仅保证了物体身份在编辑前后的一致性，还通过背景生成与修复技术，实现了逼真的场景融合，使得数据兼具几何精确性与视觉真实性。

使用方法

该数据集主要服务于图像空间编辑模型的训练与评估，为相关研究提供了宝贵的监督资源。研究人员可利用SpatialEdit-500k对预训练的扩散模型或多模态Transformer模型进行参数高效的微调，例如采用LoRA技术，以专门化模型在精细几何变换上的能力。在具体应用中，模型接收包含自然语言指令和参考图像的多模态输入，通过编码器提取语义与视觉特征，在解码阶段结合地面真值变换信息进行去噪，最终输出符合几何意图的编辑结果。数据集配套的SpatialEdit-Bench提供了包含视点误差和构图误差在内的几何感知评估指标，使得研究者能够定量衡量模型在物体平移、缩放、旋转及相机视点控制等任务上的性能，从而推动图像编辑从语义对齐向几何保真方向的演进。

背景与挑战

背景概述

在计算机视觉与生成式人工智能领域，图像编辑技术正从语义层面的内容修改向几何驱动的空间操控演进。SpatialEdit-500k数据集于2026年由香港大学、清华大学、香港科技大学、香港中文大学及京东探索研究院等机构的研究团队联合创建，旨在解决细粒度图像空间编辑这一核心研究问题。该数据集聚焦于对图像中对象布局与摄像机视点的精确几何控制，涵盖对象旋转、平移、缩放及摄像机偏航、俯仰、变焦等操作，为构建能够理解并执行三维空间意图的编辑模型提供了关键的数据基础。其出现标志着图像编辑研究从外观一致性向几何保真度的重要范式转移，对推动具身感知、世界建模及交互式内容生成等领域的发展具有深远影响。

当前挑战

SpatialEdit-500k数据集致力于攻克细粒度图像空间编辑的评估与数据瓶颈双重挑战。在领域问题层面，核心挑战在于弥合‘语义对齐’与‘几何遵从’之间的鸿沟：现有指令编辑模型虽擅长外观修改，却难以精确理解并执行如‘将摄像机向左旋转90度’或‘将物体旋转至前右侧视图’等蕴含明确度量与视角意图的指令，导致输出结果视觉合理但空间错误。在数据集构建过程中，挑战主要源于大规模高质量配对数据的稀缺性。获取此类数据需满足多重严苛条件：图像对需附带已知的精确几何变换真值；编辑前后需保持对象身份的一致性；指令需清晰无歧义；同时还需覆盖广泛的场景、对象类别与摄像机配置。传统方法难以同时满足规模、多样性与几何精度要求，构成了模型迭代与性能评估的主要障碍。

常用场景

经典使用场景

在计算机视觉与图像生成领域，SpatialEdit-500k数据集主要服务于细粒度图像空间编辑模型的训练与评估。该数据集通过可控的Blender合成流程，生成了涵盖多样化背景与系统化相机轨迹的50万对图像，为物体级旋转、平移、缩放以及相机级偏航、俯仰、变焦等操作提供了精确的地面真值变换。这使得研究人员能够在一个统一且规模化的基准上，系统性地探索如何将自然语言指令转化为精确的几何变换，从而推动图像编辑从语义对齐迈向几何合规的新阶段。

衍生相关工作

围绕SpatialEdit-500k数据集及其配套基准SpatialEdit-Bench，衍生出了一系列专注于空间感知视觉操纵的经典工作。例如，基于该数据训练的基线模型SpatialEdit-16B，在保持通用编辑能力的同时，显著提升了在空间任务上的性能。该工作范式也激励了后续研究，如探索更高效的相机参数化方法、设计更鲁棒的几何感知评估指标，以及将空间编辑能力集成到更庞大的多模态生成框架中，共同推动了图像生成可控性向三维几何维度深化。

数据集最近研究