3dcodeverse

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/ilabai/3dcodeverse

下载链接

链接失效反馈

官方服务：

资源简介：

3DCodeVerse是一个旨在通过代码构建3D宇宙的数据集，目标是汇集所有创建、渲染或控制3D内容的代码，形成一个统一语料库。每个条目都是一个独立、可运行的完整项目，包含生成3D资产的代码、渲染输出、元数据卡片和文本描述。数据集覆盖物体建模、场景与世界建模、渲染、材质与着色器、物理与模拟、动画与关节等领域。当前数据来源于3DCodeBench，包含486个样本，分为factories_geo（几何体渲染）和factories_tex（带纹理渲染）两个子类，派生自Infinigen程序化生成器，使用Blender Python编写，许可证为BSD-3-Clause。数据以高度结构化格式组织，每个样本文件夹包含代码文件、元数据文件、标注文件和存放多视角渲染图像及3D网格文件的文件夹。适用于文本到3D、图像到3D等生成任务，以及3D程序化生成和代码理解的基准。数据集规模目前小于1K，计划扩展纳入更多来源如Shadertoy、DeepCAD和Articraft。

3DCodeVerse is a dataset aimed at building a 3D universe through code, with the goal of aggregating all code that creates, renders, or controls 3D content into a unified corpus covering various dialects. The core design is that each entry is an independent, runnable complete project, including code for generating 3D assets, its rendered output, a metadata card, and textual descriptions. The dataset covers domains such as object modeling, scene and world modeling, rendering, materials and shaders, physics and simulation, animation and articulation. Currently available data is primarily sourced from 3DCodeBench, containing 486 samples divided into two subcategories: factories_geo (243, geometry rendering) and factories_tex (243, textured rendering). These are derived from the Infinigen procedural generator, written in Blender Python, with a BSD-3-Clause license. The data is organized in a highly structured format. Each sample (e.g., `<Factory>_geo/`) is an independent folder containing core files: an executable code file (`code.py`), a metadata file (`meta.json`) with ID, name, type, language, source, license, etc., an annotation file (`captions.json`) with detailed descriptions, instructions, and factory categories, and a `renders/` folder storing multi-view rendered images (`view_00..03.png`) and a 3D mesh file (`object.glb`). The dataset is suitable for generative tasks like text-to-3D and image-to-3D, as well as benchmarks for 3D procedural generation and code understanding. The current scale is under 1K, but there is a clear expansion roadmap to include larger-scale data from sources like Shadertoy (shaders), DeepCAD (CAD objects), and Articraft (articulated objects).

创建时间：

2026-06-28

原始信息汇总

数据集名称

3DCodeVerse

数据集描述

3DCodeVerse 旨在收集所有能够创建、渲染或控制 3D 内容的代码，涵盖不同编程方言，构建统一的语料库。每个数据条目都是一个独立的、可直接运行的项目，包含代码、渲染输出、元数据卡片和文本描述。

任务类别

文本转 3D
图像转 3D

语言

英语

许可证

CC BY-NC-SA 4.0

数据集规模

n < 1K（小于 1000 个样本）

当前可用数据

来源	子文件夹	数量	属性	语言	许可证
3dcodebench	`factories_geo` (243) · `factories_tex` (243)	486	3D 物体	Blender Python	BSD-3-Clause

数据源自 Infinigen 程序化生成器，通过 3DCodeBench 处理。
*_tex 表示带纹理的渲染；*_geo 表示仅几何体（Blender Cycles 粘土渲染）。

数据格式

3dcodebench/ factories_geo/ <Factory>_geo/ code.py # 可直接运行的代码（Blender 5.0） meta.json # 身份卡（包含 ID、名称、类型、语言、入口、环境、渲染列表、来源、许可证、策展人、状态） captions.json # 文本描述，按键值对组织（detailed, instruction, factory） renders/ view_00..03.png # 多视角渲染图像 object.glb # 3D 网格 factories_tex/ # 结构相同（带纹理）

数据查看器

展示每个样本的一行数据，包含子文件夹、名称、参考渲染图、描述和代码。
每个样本的完整资产（所有四个视角图、object.glb、meta.json）存储在 3dcodebench/ 目录下。

领域范围

物体建模
场景与世界建模
渲染
材质与着色器
物理与仿真
动画与关节运动

未来规划（数据来源）

来源	状态	属性	语言	预估数量	许可证
shadertoy	标注中	着色器	OpenGL	120k	CC BY-NC-SA
deepcad	标注中	CAD 物体	CadQuery	174k	MIT
articraft	标注中	关节物体	URDF / CadQuery	10k	CC BY 4.0

相关链接

项目页面：https://3dcodebench.com/3dcodeverse
工具包：https://github.com/gaoypeng/3dcode_toolkit

搜集汇总

数据集介绍

构建方式

3DCodeVerse数据集旨在通过代码构建三维宇宙的宏大愿景，其构建方式独具匠心。该数据集收录了能够创建、渲染或操控三维世界的各类代码片段，涵盖物体建模、场景与世界观构建、渲染技术、材质与着色器、物理与模拟、动画与关节运动等多个领域。目前首版发布源自3DCodeBench，通过对Infinigen程序化生成器进行衍生，以Blender Python脚本形式提供486个自包含、可运行的三维对象生成项目，其中包含几何结构（243个）与纹理渲染（243个）两大类别。每个条目均包含完整代码、多视角渲染输出、元数据卡片以及文本描述，确保每个样本的完整性和可复现性。

特点

3DCodeVerse数据集的核心特征在于其自包含与可执行性。每一数据条目都是一个独立的可运行项目，包含代码、渲染输出、元数据卡片及文本描述，用户无需额外配置即可直接运行。数据集以分层结构组织，按来源、子文件夹和样本层级划分，每个样本均提供Blender 5.0兼容的Python代码、四视图渲染图像、GLB格式的三维网格文件、详细的meta.json身份卡片以及多类型文本描述（详细描述、指令描述和工厂描述）。此外，该数据集具备开源许可多样性（CC BY-NC-SA、BSD-3-Clause等）以及跨语言支持（当前为Python，后续将拓展OpenGL、CadQuery等），为三维内容生成领域提供了高质量、多样化的基准。

使用方法

3DCodeVerse数据集的使用极为便捷。用户可通过HuggingFace平台直接访问数据集的Parquet格式查看器，每一行代表一个样本，包含子文件夹名称、样本名、参考渲染图、文本描述以及完整代码。完整的样本资源（四个视角的渲染图像、object.glb三维模型和meta.json元数据）均存储在3dcodebench目录下。值得注意的是，数据集所有代码均可在Blender 5.0环境中直接运行，用户无需额外依赖即可复现三维资产的生成过程。同时，项目配套的3dcode_toolkit工具包（托管于GitHub）提供了便捷的数据加载与处理接口，支持text-to-3d和image-to-3d任务的研究与评估，为三维内容生成领域的研究者提供了即开即用的实验平台。

背景与挑战

背景概述

3DCodeVerse是一个旨在聚合所有能够创建、渲染或控制三维世界的代码语料库，由研究团队于2024年发布，依托于3DCodeBench项目，主要研究人员来自Princeton Vision Lab等机构。该数据集的核心研究问题在于弥合文本、图像或视频与三维资产之间的鸿沟，通过程序化生成的代码实现三维内容的自动化构建与描述。当前版本包含486个源自Infinigen程序化生成器的Blender Python代码样本，覆盖物体建模、场景构建、材质着色、物理仿真与动画绑定等核心领域，为文本到三维与图像到三维任务提供了标准化的基准测试平台。3DCodeVerse的发布极大推动了程序化三维生成领域的发展，为研究人员提供了可复现、可扩展的基础设施，并对计算机视觉、图形学与自然语言处理的交叉研究产生了深远影响。

当前挑战

3DCodeVerse所解决的领域挑战在于现有三维数据集多依赖人工建模或扫描，难以覆盖复杂场景与多样化生成范式，而该数据集通过代码驱动的程序化方法实现了三维内容的自动生成与描述，为图像到三维和文本到三维任务提供了可扩展的解决方案。在构建过程中，团队面临的关键挑战包括：从Infinigen等异构来源中提取并标准化程序化代码，确保每个样本在Blender环境中可独立运行且输出一致；设计统一的元数据与标注格式以兼容不同语言与许可证的三维代码；处理超过120k个Shader条目等大规模数据源的描述生成与质量审核。此外，跨文件关联的样本级结构（包含代码、渲染图、GLB网格与多类型描述）增加了数据组织与版本控制的复杂度。

常用场景

经典使用场景

3DCodeVerse数据集的核心应用场景在于构建文本或图像到三维代码的生成任务。该数据集精心收集了自包含、可运行的3D生成代码片段及其对应的渲染输出、元数据和文本描述，覆盖对象建模、场景构建、材质着色、物理仿真与动画绑定等多个领域。研究者可以利用该数据集训练模型，实现从自然语言描述或二维图像直接生成可执行的Blender Python代码，从而推动程序化3D内容生成的自动化进程。其独特的代码-资产-文本三元组结构，为多模态生成任务提供了标准化的基准测试平台。

解决学术问题

该数据集系统性地解决了程序化3D生成领域长期存在的数据稀缺与标准化评估难题。此前，学术界在从文本/图像到三维代码的跨模态映射研究中，缺乏统一的大规模、多领域数据集合。3DCodeVerse通过汇集来自Infinigen等权威源头的程序化生成器，并标注丰富的文本描述，使得研究者能够深入探索代码级3D表示的可泛化性、零样本迁移以及结构化知识蒸馏等关键学术问题。其意义在于构建了一个可复现、可扩展的基准，加速了程序化三维生成从规则驱动向数据驱动范式的转型，促进了三维视觉与计算机图形学的交叉融合。

衍生相关工作

基于3DCodeVerse数据集已衍生出一系列具有影响力的研究工作。其中最具代表性的是3DCodeBench基准测试平台，该工作首次全面评估了从文本到程序化三维代码的不同技术路线，并提供了标准化的评估指标。后续研究者在此基础上提出了代码感知的三维生成模型，通过引入结构化注意力机制和代码语法约束，显著提升了生成代码的可执行性和语义一致性。此外，该数据集还催生了跨语言三维代码转换、带物理约束的程序化场景生成以及基于代码修复的三维资产优化等方向，形成了从数据、基准到新算法迭代的良性科研生态。

以上内容由遇见数据集搜集并总结生成