IGF-Bench

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/igfbench-neurips2026/IGF-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

IGF-Bench是首个用于评估条件生成室内场景图像结构级几何保真度的基准数据集。该数据集包含3,600个校准的合成地面真实视图、21,600个由六种最先进的ControlNet模型生成的图像，以及25,200个单目深度估计。所有数据均通过四种互补的几何指标进行评估：平面性（`L_plane`）、正交性（`L_ortho`）、边缘对齐（`L_edge`）和消失点一致性（`L_vp`）。数据集还提供了预计算的评估JSON文件，便于验证和复现论文中的实验结果。数据集总大小约为219 GB，采用CC BY-NC-SA 4.0许可。

IGF-Bench is the first benchmark dataset for evaluating the structural-level geometric fidelity of conditionally generated indoor scene images. The dataset includes 3,600 calibrated synthetic ground-truth views, 21,600 images generated by six state-of-the-art ControlNet models, and 25,200 monocular depth estimations. All data are evaluated using four complementary geometric metrics: planarity (`L_plane`), orthogonality (`L_ortho`), edge alignment (`L_edge`), and vanishing point consistency (`L_vp`). The dataset also provides pre-computed evaluation JSON files for easy verification and reproduction of experimental results in the paper. The total size of the dataset is approximately 219 GB, and it is licensed under CC BY-NC-SA 4.0.

创建时间：

2026-05-03

原始信息汇总

IGF-Bench: Indoor Geometric Fidelity Benchmark

数据集概览

IGF-Bench 是首个用于评估条件生成室内场景图像中结构级几何保真度的基准，超越了 FID 和 LPIPS 等感知指标。它包含 3,600 张校准的合成真值视图、来自六个最先进 ControlNet 模型的 21,600 张生成图像，以及 25,200 个单目深度估计，并使用四个互补的几何指标进行评估：平面度（L_plane）、正交性（L_ortho）、边缘对齐度（L_edge） 和消失点一致性（L_vp）。

快速统计

项目	数值
校准真值视图	3,600（300 个房间 × 3 个复杂度等级 × 4 个视角）
配对生成图像	21,600（6 个 ControlNet 模型，均基于相同 Canny 图条件）
配对深度估计	25,200（所有真值与生成图像上的 DepthPro；DAv2 / ZoeDepth 子集）
相机视场角	90°
渲染分辨率	1024×1024
总大小	≈ 219 GB
许可证	CC BY-NC-SA 4.0（数据）+ Apache 2.0（代码）
代码仓库	https://anonymous.4open.science/r/IGF-Bench-Code
论文	NeurIPS 2026 E&D Track（评审中）

主要发现

感知质量 ≠ 几何保真度：具有可比 FID 的模型（例如，SDXL FID = 64.2 vs. Flux.1 FID = 56.3）在 ΔL_ortho 上仍可能相差约 2 倍（Flux.1 0.032 vs. SDXL 0.061）。感知指标会遗漏结构故障。
条件架构至关重要：Flux.1 的通道拼接条件机制实现了最低的 ΔL_ortho（0.032），显著优于其他五个模型使用的残差注入 ControlNet 变体。
边缘对齐是通用瓶颈：所有六个模型相对于真值均表现出 68%–89% 的相对 L_edge 退化——即使是最佳模型在精细几何结构上也会失败。
合成真值的清洁性：IGF-Bench 真值上的 DepthPro AbsRel 为 0.056，而 NYU-v2（真实 Kinect）上为 0.084——更低的 MDE 噪声基底使得 IGF-Bench 的相对退化（ΔL_*）设计对生成引起的伪影更加敏感。
L_ortho 可作为无标签质量信号：通过最小 L_ortho 从 5 个随机 Flux.1 种子中选择每视角最佳结果，相对于最佳固定种子，L_ortho 降低了 35.1%。
合成监督可迁移（领域内）：使用 1.75% 参数的 LoRA 适配器微调 DepthAnything V2-Small，在 3D-FRONT 留出测试集上，领域内 AbsRel 从 1.044 降至 0.081（−92%）。

仓库内容

此 HuggingFace 数据集仓库包含评估或扩展 IGF-Bench 所需的全部内容：

✅ 3D-FRONT 真值渲染：包含校准相机（RGB + EXR 深度 + 7 类语义掩码 + Canny 边缘图），以及 3 个复杂度等级（L0_empty / L1_basic / L2_full）。
✅ 配对生成图像：来自六个 ControlNet 管线（SD 1.5, SDXL 1.0, SD 3.5 Large, Flux.1 Dev, Hunyuan-DiT, Kolors），采用统一协议（Canny 条件，seed=42，无负面提示，cn_scale=1.0）。
✅ 每视角深度估计：所有 25,200 张图像上的 DepthPro 估计，以及 200 视角消融子集上的 DAv2 和 ZoeDepth 估计。
✅ 预计算评估 JSON：已填充论文中所有表格和图表的数据。
✅ 训练好的 LoRA 适配器：展示 IGF-Bench 可作为预训练 MDE 微调的监督信号。
✅ 200 视角 MDE 一致性子集：包含预计算的 DAv2 + ZoeDepth 深度。
✅ 正式的数据集数据表（DATASHEET.md）和 Croissant 1.0 元数据（croissant.json）。

目录结构

igfbench-neurips2026/IGF-Bench/ ├── README.md ├── DATASHEET.md ├── croissant.json ├── dataset_card.md ├── LICENSE ├── selected_rooms.json ├── room_statistics.json │ ├── renders_textured/ ≈ 36 GB — 真值渲染视图 │ └── {scene_id}{room_type}-{room_id}/ │ └── {L0_empty,L1_basic,L2_full}/ │ └── view{0,1,2,3}/ │ ├── rgb_textured.png │ ├── depth.exr │ ├── depth.png │ ├── depth_gt.npy │ ├── canny.png │ ├── semantic_id.png │ ├── semantic_mask.png │ ├── wireframe_3d.png │ └── camera.json │ ├── generated/ ≈ 36 GB — 每模型生成图像 │ ├── sd15_canny/ │ ├── sdxl_canny/ │ ├── sd35_canny/ │ ├── flux1_canny/ │ ├── hunyuan_canny/ │ ├── kolors_canny/ │ ├── sd15_canny_with_neg/sd15_canny/ │ ├── sdxl_canny_with_neg/sdxl_canny/ │ ├── sd15_upsampled/sd15_canny/ │ └── ablation/ │ ├── flux1_seed123/ │ ├── flux1_seed456/ │ ├── flux1_seed789/ │ ├── flux1_seed1024/ │ ├── sdxl_w050/ │ ├── sdxl_w075/ │ ├── sdxl_w125/ │ └── sdxl_w150/ │ ├── depth_results/ ≈ 150 GB — 每 MDE 深度估计（NPY） │ ├── gt/ │ │ ├── depthpro/ │ │ ├── dav2/ │ │ └── zoedepth/ │ └── gen/ │ ├── sd15/depthpro/ │ ├── sdxl/depthpro/ │ ├── sd35/depthpro/ │ ├── flux1/depthpro/ │ ├── hunyuan/depthpro/ │ ├── kolors/depthpro/ │ ├── sd15_neg/depthpro/ │ ├── sdxl_neg/depthpro/ │ ├── sd15_upsampled/depthpro/ │ ├── flux1_seed123/depthpro/ │ ├── flux1_seed456/depthpro/ │ ├── flux1_seed789/depthpro/ │ ├── flux1_seed1024/depthpro/ │ ├── sdxl_w050/depthpro/ │ ├── sdxl_w075/depthpro/ │ ├── sdxl_w125/depthpro/ │ └── sdxl_w150/depthpro/ │ ├── evaluation/ ≈ 41 MB — 预计算指标输出 │ ├── igf_summary.json │ ├── igf_results.json │ ├── error_decomposition.json │ ├── mde_ablation_*.json │ ├── neg_prompt_ablation.json │ ├── n1_resolution_ablation.json │ ├── n3_lvp_improved.json │ ├── seed_ablation.json │ ├── wilcoxon.json │ ├── anova.json │ └── fid_lpips.json │ └── experiments/finetune/ └── dav2_lora_adapter/ ★ 1.8 MB — 训练好的 LoRA ├── adapter_config.json ├── adapter_model.safetensors └── README.md

快速开始

选项 A — 无需下载批量数据即可验证论文

预计算评估仅 < 50 MB，可通过直接读取 JSON 验证论文中的每个数字：

python import json from huggingface_hub import hf_hub_download

fp = hf_hub_download( repo_id="igfbench-neurips2026/IGF-Bench", filename="evaluation/igf_summary.json", repo_type="dataset", ) data = json.load(open(fp)) gt = next(d for d in data if d["model"] == "GT_baseline") print(round(gt["l_plane_residual_mean"], 3)) # → 0.056

选项 B — 下载全部并重新运行

bash pip install huggingface_hub huggingface-cli download igfbench-neurips2026/IGF-Bench --repo-type dataset --local-dir ./igf-bench-data export IGF_BENCH_ROOT=$(pwd)/igf-bench-data

然后克隆代码并运行：

bash python scripts/evaluate_igf.py --renders_root $IGF_BENCH_ROOT/renders_textured --generated_root $IGF_BENCH_ROOT/generated --depth_root $IGF_BENCH_ROOT/depth_results --output_summary igf_summary.json

选项 C — 仅下载主表一行所需数据

例如，仅重新计算 Flux.1 行（≈ 70 GB）：

bash huggingface-cli download igfbench-neurips2026/IGF-Bench --repo-type dataset --local-dir ./igf-bench-data --include "renders_textured/" "generated/flux1_canny/" "depth_results/gt/depthpro/" "depth_results/gen/flux1/depthpro/"

预计算结果 JSON

论文项	HF 上的 JSON 路径	键
表 3（主表）	`evaluation/igf_summary.json`	每模型聚合均值
误差分解表	`evaluation/error_decomposition.json`	每模型 AbsRel 分解
MDE 消融表	`evaluation/mde_ablation_summary.json`	SDXL/Flux × 3 MDE 主干
负面提示表	`evaluation/neg_prompt_ablation.json`	每模型有/无对比
分辨率消融表	`evaluation/n1_resolution_ablation.json`	SD 1.5 原生 vs 上采样
L_vp 2D 表	`evaluation/n3_lvp_improved.json`	每模型 2D L_vp
种子消融表	`evaluation/seed_ablation.json`	Flux.1 3 个种子
Wilcoxon p 值	`evaluation/wilcoxon.json`	每对比 Bonferroni 校正
FID + LPIPS	`evaluation/fid_lpips.json`	每模型感知基线

许可证链

IGF-Bench 数据集：CC BY-NC-SA 4.0（继承上游 3D-FRONT 的非商业条款，要求署名、相同方式共享、仅限非商业用途）
代码（独立仓库）：Apache 2.0
各资产上游模型许可证（对下游再分发具有约束力）：SD 1.5（CreativeML Open RAIL-M）、SDXL 1.0（CreativeML Open RAIL++-M）、SD 3.5 Large（Stability AI Community License）、Flux.1 Dev（FLUX.1 [dev] Non-Commercial License）、Hunyuan-DiT（Tencent Hunyuan Community License）、Kolors（Apache 2.0 + Kwai 商业注册要求）、DepthPro（Apple Sample Code License）、Depth-Anything V2-Small（Apache 2.0）、ZoeDepth（MIT）
评估专用数据集（未重新分发，需从官方来源获取）：NYU-v2、iBims-1

维护

作者承诺在论文发表后至少维护 5 年，包括：

在 HuggingFace 上托管并发布版本化版本
通过 GitHub Issues 进行错误修复
添加新的生成模型
在主要 MDE 主干发布时定期重新评估
旧版本在 HuggingFace 上仍可访问

搜集汇总

数据集介绍

构建方式

IGF-Bench 数据集旨在填补现有图像生成评估领域中几何保真度度量缺失的空白。其构建依托于 3D-FRONT 室内场景数据集，精心筛选出 300 个房间，并为每个房间设定了空、基础、完整三种复杂度等级，每个等级下又采集了四个校准视角，由此生成了共计 3,600 幅高保真的合成真值图像。随后，研究者采用统一协议，以 Canny 边缘图为条件，利用六种当前先进的 ControlNet 模型（包括 SD 1.5、SDXL 1.0、SD 3.5 Large、Flux.1 Dev、Hunyuan-DiT 和 Kolors）对每一幅真值图像进行条件生成，获得了 21,600 幅配对的生成图像。为了支撑几何度量计算，数据集进一步利用 DepthPro 等单目深度估计模型，为所有真值与生成图像生成了超过 25,000 个深度估计图，构成了一个结构完整、规模庞大的评估基准。

特点

IGF-Bench 的核心特色在于其从结构层面出发，提供了一套超越传统感知度量（如 FID 和 LPIPS）的几何保真度评价体系。该数据集独创性地整合了四项互补的几何度量指标：平面性、正交性、边缘对齐度以及消失点一致性，能够从不同维度量化生成图像中场景结构的畸变程度。实验揭示了一个重要发现，即感知质量高的模型在几何保真度上可能表现迥异，这凸显了专用几何度量的必要性。此外，数据集的合成真值图像具有比真实传感器数据更低的噪声基底，使得相对退化度量对生成过程引入的伪影更为敏感，从而为模型优劣提供了更精确的区分能力。

使用方法

研究人员验证论文中的核心结论时，可直接利用本数据集提供的轻量级预计算评估文件，通过简单的代码读取即可复现所有数值表格，无需下载庞大原始数据。若要系统性地对模型进行完整评估，则需使用 HuggingFace Hub 命令行工具下载整个数据集，并配合配套的代码仓库执行评估脚本。该流程会读取所有真值渲染图、生成图像及深度估计结果，并自动计算四项几何度量，约六小时可完成六种模型共计 21,600 张图像的评估。对于针对特定模型的探索性分析，用户可选择性地下载该模型对应的生成子集和深度数据，在保证评估功能完整的同时大幅降低存储与计算开销。

背景与挑战

背景概述

在室内场景理解与条件图像生成领域，现有评价指标如FID和LPIPS主要聚焦于感知质量，而对生成图像的几何保真度缺乏系统性评估。为此，IGF-Bench基准数据集于2026年由匿名研究团队在NeurIPS 2026评估与数据集赛道提出，依托3D-FRONT合成场景，构建了包含3600个校准真实视角和21600张条件生成图像的评估框架，引入平面度、正交性、边缘对齐与消失点一致性四项几何度量。该数据集首次揭示了感知质量与几何保真度之间的显著脱节，为结构级几何评估开辟了新范式，对扩散模型在室内场景生成中的结构可靠性研究具有里程碑意义。

当前挑战

IGF-Bench旨在解决的核心挑战是：现有感知指标无法捕捉条件生成图像中的结构失真，如墙壁非正交、边缘错位等，导致模型优劣误判。数据集构建中面临多重难题：需在统一条件下控制六种ControlNet模型的生成协议，确保公平比较；合成数据的几何洁净度远超真实数据，需设计相对退化指标以避免噪声干扰；边缘对齐作为普遍瓶颈，所有模型在该指标上相对于真实视图退化程度高达68%至89%。此外，大规模深度估计的计算开销和不同方法间的域差异也对评估一致性构成严峻挑战。

常用场景

经典使用场景

IGF-Bench作为首个专为评估条件生成室内场景图像结构级几何保真度而设计的基准数据集，其经典使用场景聚焦于对文本引导或边缘条件控制的扩散模型（如ControlNet系列）进行系统性的几何保真度量化测评。该数据集通过提供3,600个经过精确标定的合成真实视角图像、对应的Canny边缘条件输入，以及21,600张由六种主流控制模型生成的图像，并配套四种互补的几何度量指标——平面性、正交性、边缘对齐度与消失点一致性，使得研究者能够在排除感知质量干扰的条件下，客观衡量不同生成模型在室内结构化场景中的几何还原能力。这一设计有效弥补了传统FID和LPIPS等感知指标无法捕捉结构失真的固有缺陷，为生成模型的几何质量评估提供了标准化、可复现的基准平台。

实际应用

在实际应用层面，IGF-Bench为室内设计与建筑可视化、虚拟现实内容生成、以及增强现实场景构建等需要精确几何结构的领域提供了关键质量保障工具。室内设计师借助基于该基准评估的生成模型，能够可靠地生成符合透视规律与空间结构约束的效果图，避免出现墙体倾斜、地板平面扭曲等破坏视觉真实性的几何缺陷。在自动驾驶模拟场景的室内扩展、机器人环境感知与导航系统的视觉训练数据生成中，IGF-Bench所倡导的几何保真度评估体系使得合成数据能够更忠实地反映真实世界的空间结构。此外，该基准中的正交性度量已被证实可作为无标签的质量筛选信号，在实际生产管线中自动选取几何质量更高的生成结果，从而提升下游三维重建任务的输入质量。

衍生相关工作

IGF-Bench的建立催生了若干具有代表性的衍生研究工作。在其框架下，研究者利用正交性度量的无监督特性开发了基于最小正交性偏差的种子选择策略，可在不依赖人工标注的情况下显著提升生成图像的结构质量。更深层次地，该基准推动了对条件生成机制架构的对比分析工作——对比实验表明采用通道拼接条件注入方式的模型在大尺度结构保真上显著优于传统残差注入式ControlNet变体。在单目深度估计领域，研究者利用IGF-Bench提供的合成室内场景数据和精确深度标签，训练了仅含1.75%可训练参数的LoRA微调适配器，将深度估计模型在室内场景的绝对相对误差从1.044骤降至0.081，充分验证了该数据集作为深度估计模型域内适应训练监督源的可行性。这些工作共同构筑了以几何保真为核心的评价与优化研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集