five

3DGen-Bench

收藏
arXiv2025-03-28 更新2025-04-01 收录
下载链接:
http://arxiv.org/abs/2503.21745v1
下载链接
链接失效反馈
官方服务:
资源简介:
3DGen-Bench是一个全面的3D模型生成人类偏好数据集,由上海人工智能实验室、浙江大学等机构共同构建。该数据集通过3DGen-Arena平台以对战方式高效收集人类偏好数据,包含500多个文本提示和500多个图像提示,覆盖270多个独特类别,涉及6个基本主题。数据集基于标注数据训练了两个评分模型,用于自动评估与人类判断相一致的质量评分。

3DGen-Bench is a comprehensive human preference dataset for 3D model generation, jointly constructed by institutions including Shanghai AI Laboratory and Zhejiang University. The dataset efficiently collects human preference data via the 3DGen-Arena platform in a battle-style competitive manner, containing over 500 text prompts and over 500 image prompts, covering more than 270 unique categories and involving 6 basic themes. Two scoring models were trained based on the annotated data from this dataset, which are used to automatically produce quality scores consistent with human judgments.
提供机构:
复旦大学, 浙江大学, 上海人工智能实验室, 斯坦福大学, 香港中文大学, 新加坡科技研究实验室
创建时间:
2025-03-28
搜集汇总
数据集介绍
main_image_url
构建方式
3DGen-Bench数据集的构建采用了多维度、多阶段的系统化方法。研究团队首先通过3DGen-Arena平台集成22种前沿3D生成模型,基于1,020个精心设计的文本和图像提示(涵盖270+类别和4种难度场景)生成了11,220个3D资产。数据采集采用双轨制:通过匿名对战平台收集68,400份公众偏好投票,同时组织47名专业标注员完成56,100份多维度绝对评分。为确保数据质量,设计了五维评估标准(几何合理性、细节丰富度等),并创新性地采用三重视觉呈现(RGB、法线贴图、几何线框)辅助标注决策。
特点
该数据集的核心价值体现在三个维度:规模上,其13.8万条标注数据远超同类基准;维度上,首创同时支持文本/图像双模态提示的评估体系;质量上,通过专家校验和交叉验证机制确保标注可靠性。特别地,数据集包含58,000+对战组合和11.2万生成资产,覆盖9类文本生成3D模型和13类图像生成3D模型,并首次引入绝对评分体系。其多视角渲染数据和细粒度质量维度(如几何-纹理一致性)为3D生成研究提供了前所未有的分析粒度。
使用方法
数据集支持三种典型应用范式:首先,可通过Elo评分系统构建模型排行榜,基于五维指标进行横向比较;其次,作为训练自动评估模型的基础,如研究团队开发的CLIP-based 3DGen-Score和MLLM-based 3DGen-Eval;第三,支持生成模型优化,通过将评分作为强化学习的奖励信号。使用时应分层采样训练/验证/测试集(9:1:2比例),注意不同模态数据需分别处理。对于科研用途,建议优先采用平台提供的标准渲染视角以确保评估一致性。
背景与挑战
背景概述
3DGen-Bench是由上海人工智能实验室、复旦大学、浙江大学等机构的研究团队于2025年提出的首个面向3D生成模型的大规模人类偏好数据集。该数据集针对3D内容生成领域长期存在的评估标准滞后问题,通过构建包含11,220个3D资产的综合模型库,收集了68,400组对比投票和56,100项绝对评分。数据集创新性地采用竞技场式评估平台3DGen-Arena,涵盖文本到3D和图像到3D两种生成模式,涉及几何合理性、纹理质量等五个维度的细粒度评估标准,为3D生成模型的性能评估提供了重要基准。
当前挑战
该数据集主要面临三方面挑战:在领域问题层面,3D生成评估长期依赖CLIP等图像领域指标,难以捕捉多视角一致性和几何-纹理协调性等三维特性;在构建过程中,需要解决大规模3D资产渲染的算力消耗问题,以及人类标注者对于复杂3D质量评判的主观差异性;在算法层面,现有基于CLIP的评估方法对几何特征表征不足,而基于GPT-4V的评估存在黑箱偏差,亟需开发兼顾准确性与可解释性的新型评估框架。
常用场景
经典使用场景
3DGen-Bench数据集在3D生成模型的评估与优化中扮演着核心角色,尤其在文本到3D和图像到3D生成任务中。通过其大规模的多维度人类偏好数据,研究者能够系统地比较不同生成模型在几何合理性、纹理质量、几何细节、几何-纹理一致性以及提示-资产对齐等五个关键维度的表现。该数据集通过3DGen-Arena平台收集的匿名对战数据和专家标注的绝对评分,为模型评估提供了丰富且可靠的基准。
解决学术问题
3DGen-Bench解决了3D生成领域长期存在的自动评估与人类感知对齐不足的问题。传统评估方法如CLIP相似性在多视图一致性和3D特定先验知识上表现不佳,而该数据集通过引入人类偏好数据,填补了这一空白。其提出的3DGen-Score和3DGen-Eval评估模型,不仅统一了文本到3D和图像到3D的评估标准,还显著提升了与人类判断的相关性,为3D生成模型的公平比较和优化提供了科学依据。
衍生相关工作
3DGen-Bench的发布催生了一系列相关研究,例如基于其人类偏好数据训练的3DGen-Score模型已被应用于模型优化框架DreamReward中。同时,该数据集启发了对多模态大语言模型(如GPT-4V)在3D评估中潜在偏差的深入分析,并推动了如MV-LLaVA等开源评估工具的发展。其构建方法也为其他模态(如视频生成)的偏好数据集建立提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作