G-Objaverse
收藏github2025-02-19 更新2025-02-20 收录
下载链接:
https://github.com/chenguolin/DiffSplat
下载链接
链接失效反馈官方服务:
资源简介:
G-Objaverse数据集包含大约265K个3D对象和1060万张渲染图像(每个对象40个视角,包括RGB、法线和深度图)。
The G-Objaverse dataset encompasses approximately 265K 3D objects and 10.6 million rendered images (each object with 40 viewpoints, including RGB, normal, and depth maps).
创建时间:
2025-01-28
原始信息汇总
DiffSplat 数据集概述
数据集简介
DiffSplat 是一个生成性框架,能够从文本提示和单视角图像中在 1~2 秒内合成 3D 高斯散点。它直接从预训练的文本到图像扩散模型进行微调。
数据集组成
- 使用了 G-Objaverse 数据集,包含约 265K 个 3D 物体和 10.6M 张渲染图像(265K x 40 视角,包括 RGB、法线和深度图)用于训练 GSRecon 和 GSVAE。
- 使用了 Objaverse Filter 数据集的子集,包含约 83K 个 3D 物体,用于 DiffSplat 的训练。这些物体的文本描述由最新版本的 Cap3D 提供。
数据集用途
- 用于训练和测试 DiffSplat 模型,该模型能够根据文本提示和单视角图像生成 3D 高斯散点。
数据集获取
- 数据集存储在内部 HDFS 集群中,训练代码不能直接在本地机器上运行。需要根据提供的数据和加载器代码实现自己的数据加载逻辑。
数据集链接
搜集汇总
数据集介绍

构建方式
G-Objaverse数据集用于GSRecon和GSVAE训练,包含了约265K个3D对象和1060万个渲染图像(每个对象40个视角,包括RGB、法线和深度图)。DiffSplat训练则使用了LGM提供的约83K个3D对象的子集。数据集的文本描述由Cap3D的最新版本提供,并经过DiffuRank refined处理。
特点
该数据集的特点在于其大规模的3D对象和渲染图像数量,为训练生成模型提供了丰富的学习素材。同时,数据集中的对象覆盖了多种类别和形状,使得模型能够学习到更加广泛和复杂的三维结构。此外,DiffSplat在训练时使用了过滤机制,以确保生成质量,而更大的数据集则有助于提升GSRecon和GSVAE的性能。
使用方法
使用该数据集时,用户需要根据自己的需求下载相应的预训练模型。对于不同的应用场景,如文本条件生成、图像条件生成和控制网生成,用户需要根据文档提供的说明调整相应的参数。数据集的使用包括模型的下载、推理以及可视化等步骤,具体操作需参照官方文档和代码库。
背景与挑战
背景概述
G-Objaverse数据集是一个包含约265K个3D对象和1060万个渲染图像的集合,这些图像是从各个对象的40个视图中生成的,包括RGB、法线和深度图。该数据集由Chenguo Lin、Panwang Pan、Bangbang Yang、Zeming Li和Yadong Mu等研究人员创建,并用于训练GSRecon和GSVAE模型。这些模型旨在从文本提示和单视角图像中合成3D高斯散点,其研究背景主要涉及计算机视觉和图形学领域,特别是在3D对象生成方面的应用。该数据集及其相关模型对相关领域产生了重要影响,为3D对象重建和生成提供了新的方法和视角。
当前挑战
在构建G-Objaverse数据集的过程中,研究人员面临了多个挑战。首先,数据集的过滤对于生成质量至关重要,其次,更大的数据集对于提升GSRecon和GSVAE的性能有益。此外,数据集的存储和加载逻辑需要特别设计,以适应内部HDFS集群的架构,这为训练过程带来了额外的复杂性。在研究领域问题方面,该数据集解决了如何从单视角图像和文本提示中生成3D对象的问题,这涉及到图像理解、3D重建和生成模型等多个技术挑战。
常用场景
经典使用场景
G-Objaverse数据集被广泛应用于3D对象的生成与渲染任务中,经典的使用场景包括根据文本描述或单张图像快速生成3D模型,并在短时间内完成渲染,以满足实时交互或快速原型设计的需要。
衍生相关工作
基于G-Objaverse数据集,衍生出了一系列相关工作,包括但不限于3D模型的自动生成、风格化渲染、交互式编辑等,这些工作进一步扩展了数据集的应用范围,并推动了相关领域的研究进展。
数据集最近研究
最新研究方向
该研究利用图像扩散模型DiffSplat,从文本提示和单视角图像中快速合成三维高斯散斑。研究重点在于将预训练的文本到图像扩散模型微调,以实现从文本提示和单视角图像生成三维高斯散斑。
以上内容由遇见数据集搜集并总结生成



