BlenderGym

Name: BlenderGym
Creator: 斯坦福大学
Published: 2025-04-02 22:51:45
License: 暂无描述

arXiv2025-04-02 更新2025-04-08 收录

下载链接：

http://arxiv.org/abs/2504.01786v1

下载链接

链接失效反馈

官方服务：

资源简介：

BlenderGym是由斯坦福大学创建的3D图形编辑任务数据集，包含245个手制的起始-目标场景对，涵盖五个关键图形编辑任务：对象放置、灯光调整、程序化材质编辑、混合形状操作和程序化几何编辑。数据集为VLM系统提供了定量的评估，通过Python程序编辑任务，要求VLM系统从起始场景重建目标场景。

提供机构：

斯坦福大学

创建时间：

2025-04-02

搜集汇总

数据集介绍

构建方式

BlenderGym数据集的构建基于245个手工制作的Blender场景，涵盖五大核心图形编辑任务：物体放置、光照调整、程序化材质编辑、混合形状操作和程序化几何编辑。每个任务实例包含起始场景和目标场景的配对，通过Python脚本生成，并附带渲染图像和场景差异的语言描述。数据集整合了来自BlenderAlchemy、Infinigen和Blenderkit的多样化场景实例，确保了任务的广泛性和复杂性。

特点

BlenderGym数据集的特点在于其全面覆盖了3D图形编辑的关键任务，提供了固定的起始-目标场景对，支持定量评估，无需依赖人工或AI评判。数据集通过多视角渲染和人类对齐的评估指标（如光度损失、CLIP分数和Chamfer距离）确保了评估的准确性和可靠性。此外，数据集还提供了人类基线数据，用于对比VLM系统的性能。

使用方法

使用BlenderGym时，首先运行并渲染起始和目标场景的Python脚本，生成输入数据。VLM系统通过比较起始和目标渲染图像，分析视觉差异，并修改起始场景的Python脚本以重建目标场景。最后，使用人类对齐的距离指标计算目标场景与VLM系统输出之间的距离，评估编辑效果。数据集支持自定义VLM系统的即插即用，并可调整输入信息（如提示和相机视角）以适应不同需求。

背景与挑战

背景概述

BlenderGym是由斯坦福大学的研究团队于2025年提出的一个开创性3D图形编辑基准数据集，旨在评估视觉语言模型（VLMs）在3D场景重建任务中的表现。该数据集由Yunqi Gu、Ian Huang、Jihyeon Je、Guandao Yang和Leonidas Guibas等学者共同开发，包含245个手工制作的起始-目标场景对，覆盖了物体放置、灯光调整、程序化材质编辑、混合形状操作和程序化几何编辑等五个核心图形编辑任务。BlenderGym的提出填补了3D图形编辑领域缺乏全面评估基准的空白，为VLMs在电影制作、游戏设计等实际应用中的性能评估提供了标准化平台。

当前挑战

BlenderGym面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，3D图形编辑任务需要模型具备复杂的视觉理解和空间推理能力，当前最先进的VLM系统在编辑精度和任务完成度上仍显著低于人类专家水平，尤其在处理程序化材质和几何编辑等需要精确代码修改的任务时表现欠佳。在构建过程中，研究者需要克服场景对的多样性设计、评估指标的可靠性验证以及人类基准数据的获取等难题。具体包括：确保场景对的真实性和复杂性、开发与人类感知一致的量化评估指标，以及协调多位人类专家完成基准测试以建立可靠的性能对比标准。

常用场景

经典使用场景

BlenderGym数据集在计算机图形学和视觉语言模型（VLM）研究领域中，主要用于评估和基准测试VLM系统在3D图形编辑任务中的表现。该数据集通过提供245个手工制作的起始-目标场景对，覆盖了物体放置、灯光调整、程序化材质编辑、混合形状操作和程序化几何编辑等五个关键任务。研究人员可以利用这些场景对来测试VLM系统在代码编辑和视觉理解方面的能力，从而推动自动化3D图形编辑技术的发展。

解决学术问题

BlenderGym解决了3D图形编辑领域中的多个关键学术问题。首先，它填补了缺乏全面基准测试的空白，使得不同VLM系统可以在统一的任务和评估标准下进行比较。其次，数据集通过定量评估指标（如光度量损失和CLIP分数）替代了传统的人工或AI评判，提高了评估的可靠性和效率。此外，BlenderGym还支持推理时间扩展研究，探索了生成与验证之间的计算资源分配策略，为优化VLM系统的性能提供了新的研究方向。

衍生相关工作

BlenderGym的推出激发了多项相关研究和工作。例如，BlenderAlchemy利用VLM进行材质编辑，展示了在BlenderGym任务上的初步成果。3D-GPT和SceneCraft等研究则进一步探索了语言驱动和空间推理在3D图形编辑中的应用。此外，BlenderGym的基准测试结果揭示了当前VLM系统在图形编辑任务中的局限性，推动了更多关于生成与验证优化的研究，如推理时间扩展和计算资源分配策略的改进。这些工作共同推动了3D图形编辑自动化的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集