3DGen-Bench

Name: 3DGen-Bench
Creator: 复旦大学, 浙江大学, 上海人工智能实验室, 斯坦福大学, 香港中文大学, 新加坡科技研究实验室
Published: 2025-03-28 01:53:00
License: 暂无描述

arXiv2025-03-28 更新2025-04-01 收录

下载链接：

http://arxiv.org/abs/2503.21745v1

下载链接

链接失效反馈

官方服务：

资源简介：

3DGen-Bench是一个全面的3D模型生成人类偏好数据集，由上海人工智能实验室、浙江大学等机构共同构建。该数据集通过3DGen-Arena平台以对战方式高效收集人类偏好数据，包含500多个文本提示和500多个图像提示，覆盖270多个独特类别，涉及6个基本主题。数据集基于标注数据训练了两个评分模型，用于自动评估与人类判断相一致的质量评分。

3DGen-Bench is a comprehensive human preference dataset for 3D model generation, jointly constructed by institutions including Shanghai AI Laboratory and Zhejiang University. The dataset efficiently collects human preference data via the 3DGen-Arena platform in a battle-style competitive manner, containing over 500 text prompts and over 500 image prompts, covering more than 270 unique categories and involving 6 basic themes. Two scoring models were trained based on the annotated data from this dataset, which are used to automatically produce quality scores consistent with human judgments.

提供机构：

复旦大学, 浙江大学, 上海人工智能实验室, 斯坦福大学, 香港中文大学, 新加坡科技研究实验室

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

3DGen-Bench数据集的构建采用了多维度、多阶段的系统化方法。研究团队首先通过3DGen-Arena平台集成22种前沿3D生成模型，基于1,020个精心设计的文本和图像提示（涵盖270+类别和4种难度场景）生成了11,220个3D资产。数据采集采用双轨制：通过匿名对战平台收集68,400份公众偏好投票，同时组织47名专业标注员完成56,100份多维度绝对评分。为确保数据质量，设计了五维评估标准（几何合理性、细节丰富度等），并创新性地采用三重视觉呈现（RGB、法线贴图、几何线框）辅助标注决策。

特点

该数据集的核心价值体现在三个维度：规模上，其13.8万条标注数据远超同类基准；维度上，首创同时支持文本/图像双模态提示的评估体系；质量上，通过专家校验和交叉验证机制确保标注可靠性。特别地，数据集包含58,000+对战组合和11.2万生成资产，覆盖9类文本生成3D模型和13类图像生成3D模型，并首次引入绝对评分体系。其多视角渲染数据和细粒度质量维度（如几何-纹理一致性）为3D生成研究提供了前所未有的分析粒度。

使用方法

数据集支持三种典型应用范式：首先，可通过Elo评分系统构建模型排行榜，基于五维指标进行横向比较；其次，作为训练自动评估模型的基础，如研究团队开发的CLIP-based 3DGen-Score和MLLM-based 3DGen-Eval；第三，支持生成模型优化，通过将评分作为强化学习的奖励信号。使用时应分层采样训练/验证/测试集（9:1:2比例），注意不同模态数据需分别处理。对于科研用途，建议优先采用平台提供的标准渲染视角以确保评估一致性。

背景与挑战

背景概述

3DGen-Bench是由上海人工智能实验室、复旦大学、浙江大学等机构的研究团队于2025年提出的首个面向3D生成模型的大规模人类偏好数据集。该数据集针对3D内容生成领域长期存在的评估标准滞后问题，通过构建包含11,220个3D资产的综合模型库，收集了68,400组对比投票和56,100项绝对评分。数据集创新性地采用竞技场式评估平台3DGen-Arena，涵盖文本到3D和图像到3D两种生成模式，涉及几何合理性、纹理质量等五个维度的细粒度评估标准，为3D生成模型的性能评估提供了重要基准。

当前挑战

该数据集主要面临三方面挑战：在领域问题层面，3D生成评估长期依赖CLIP等图像领域指标，难以捕捉多视角一致性和几何-纹理协调性等三维特性；在构建过程中，需要解决大规模3D资产渲染的算力消耗问题，以及人类标注者对于复杂3D质量评判的主观差异性；在算法层面，现有基于CLIP的评估方法对几何特征表征不足，而基于GPT-4V的评估存在黑箱偏差，亟需开发兼顾准确性与可解释性的新型评估框架。

常用场景

经典使用场景

3DGen-Bench数据集在3D生成模型的评估与优化中扮演着核心角色，尤其在文本到3D和图像到3D生成任务中。通过其大规模的多维度人类偏好数据，研究者能够系统地比较不同生成模型在几何合理性、纹理质量、几何细节、几何-纹理一致性以及提示-资产对齐等五个关键维度的表现。该数据集通过3DGen-Arena平台收集的匿名对战数据和专家标注的绝对评分，为模型评估提供了丰富且可靠的基准。

解决学术问题

3DGen-Bench解决了3D生成领域长期存在的自动评估与人类感知对齐不足的问题。传统评估方法如CLIP相似性在多视图一致性和3D特定先验知识上表现不佳，而该数据集通过引入人类偏好数据，填补了这一空白。其提出的3DGen-Score和3DGen-Eval评估模型，不仅统一了文本到3D和图像到3D的评估标准，还显著提升了与人类判断的相关性，为3D生成模型的公平比较和优化提供了科学依据。

衍生相关工作

3DGen-Bench的发布催生了一系列相关研究，例如基于其人类偏好数据训练的3DGen-Score模型已被应用于模型优化框架DreamReward中。同时，该数据集启发了对多模态大语言模型（如GPT-4V）在3D评估中潜在偏差的深入分析，并推动了如MV-LLaVA等开源评估工具的发展。其构建方法也为其他模态（如视频生成）的偏好数据集建立提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集