GenerativeWorld Renderer Dataset

Name: GenerativeWorld Renderer Dataset
Creator: Alaya Studio; 盛大AI研究院东京分部; 国立台湾大学; 东京大学; 国立阳明交通大学
Published: 2026-04-03 01:59:53
License: 暂无描述

arXiv2026-04-03 更新2026-04-04 收录

下载链接：

https://alaya-studio.github.io/renderer/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Alaya Studio等机构联合创建，是一个基于AAA游戏引擎构建的大规模动态渲染数据集，包含400万帧720p/30fps的连续视频序列，同步提供RGB图像和五种G-buffer通道（深度、法线、反照率、金属度和粗糙度）。数据通过创新的双屏拼接捕获技术获取，涵盖多样化的场景、天气条件和运动模糊变体，具有丰富的时空连贯性。该数据集专为双向渲染任务设计，既支持复杂场景下的几何与材质分解研究，也能促进基于G-buffer引导的高保真视频生成。其应用领域包括计算机视觉中的逆向渲染、可控视频合成以及游戏内容生成等前沿方向。

This dataset was jointly created by Alaya Studio and other affiliated institutions. It is a large-scale dynamic rendering dataset built using AAA game engines, containing 4 million frames of continuous video sequences at 720p/30fps, with synchronized RGB images and five types of G-buffer channels: depth, normal, albedo, metallic, and roughness. The dataset was collected through an innovative dual-screen stitching capture technique, covering diverse scenes, weather conditions, and motion blur variants, and exhibits rich spatiotemporal coherence. Specifically designed for bidirectional rendering tasks, this dataset supports research on geometry and material decomposition in complex scenes, while also facilitating G-buffer-guided high-fidelity video generation. Its application domains cover cutting-edge research directions including inverse rendering in computer vision, controllable video synthesis, and game content generation.

提供机构：

Alaya Studio; 盛大AI研究院东京分部; 国立台湾大学; 东京大学; 国立阳明交通大学

创建时间：

2026-04-03

搜集汇总

数据集介绍

构建方式

在计算机视觉与图形学领域，高质量数据是推动生成式世界渲染技术发展的关键。GenerativeWorld Renderer Dataset通过创新的数据采集流程构建，其核心在于从《赛博朋克2077》和《黑神话：悟空》两款AAA游戏中，利用ReShade工具在图形API层面拦截渲染管线，实时捕获同步的RGB帧与五通道G-buffer（深度、法线、反照率、金属度、粗糙度）。为解决存储与同步难题，研究团队设计了双屏拼接录制策略，将多通道缓冲区渲染到统一画布上，通过硬件加速捕获实现720p/30fps的高分辨率连续视频流，累计帧数超过400万。这一非侵入式管道避免了游戏引擎修改或资产提取，确保了数据的时空一致性与视觉保真度。

特点

该数据集在生成式渲染领域展现出显著优势，其首要特点是规模宏大且内容多样，涵盖城市与自然场景的连续动态序列，并包含多种天气条件（如晴、雨、雾、雪）及运动模糊变体，极大丰富了视觉复杂性。数据提供了精确对齐的RGB与G-buffer通道，为双向渲染任务提供了密集监督信号；长时程的时序连贯性（平均片段8分钟，最长53分钟）有效支持了动态建模与长期依赖学习。此外，数据集通过自动化元数据标注（场景、运动、纹理、天气）实现了结构化组织，便于针对性训练与评估。这些特性共同缩小了合成数据与真实世界之间的域差距，为复杂环境下的几何与材质分解奠定了坚实基础。

使用方法

GenerativeWorld Renderer Dataset主要应用于生成式逆向渲染与正向合成的研究。在逆向渲染方面，数据集提供的大规模G-buffer真值可用于训练扩散模型等架构，实现从单目视频中稳健分解几何、材质与光照成分；用户可基于预训练模型（如DiffusionRenderer）在数据集上进行微调，以提升在真实场景中的泛化能力。对于正向渲染，G-buffer通道可作为条件输入，引导生成模型合成高保真且可控的视频内容，例如通过文本提示编辑游戏风格、光照或天气效果。数据集中包含的运动模糊变体有助于模型适应实际成像退化。此外，团队提出的基于VLM的评估协议可用于无真值场景下的性能评测，通过语义、空间与时间一致性指标量化模型输出质量，为算法迭代提供可靠依据。

背景与挑战

背景概述

生成式世界渲染数据集（GenerativeWorld Renderer Dataset）由Alaya Studio、盛大AI研究院东京及国立台湾大学等机构的研究团队于2026年4月联合发布，旨在解决双向渲染领域长期存在的数据瓶颈问题。该数据集从《赛博朋克2077》和《黑神话：悟空》两款AAA游戏中，通过创新的双屏拼接捕获技术，采集了超过400万帧连续视频序列，同步提供720p分辨率RGB图像及深度、法线、反照率、金属度、粗糙度五种G-buffer通道。其核心研究聚焦于弥合正向渲染与逆向渲染之间的鸿沟，通过提供大规模、高保真且具有时间连贯性的多模态监督数据，推动可控生成式视频合成与复杂场景几何材质分解技术的发展，为构建通用生成式世界渲染器奠定关键基础。

当前挑战

该数据集致力于攻克生成式双向渲染在真实场景中应用的核心挑战：其一，在领域问题层面，现有模型因缺乏大规模、高动态且具有时间连贯性的G-buffer-RGB配对数据，难以处理真实世界视频的长尾复杂性，如复杂反射、动态运动、恶劣天气下的材质分解歧义，以及长期时间依赖关系的建模。其二，在构建过程中，研究团队面临多重技术难题：需通过图形API拦截非侵入式捕获游戏运行时G-buffer，但不同游戏引擎的缓冲区编码方式各异，需设计自动化过滤规则进行语义辨识；为保障多通道严格同步并克服存储带宽限制，开发了基于硬件加速的马赛克合成录制策略；同时，为贴近真实成像条件，需合成运动模糊变体以缩小仿真与现实的域差异。

常用场景

经典使用场景

在计算机视觉与图形学领域，生成式世界渲染数据集的核心应用场景在于为双向渲染任务提供大规模、高保真的监督数据。该数据集通过从AAA级游戏引擎中捕获超过400万帧连续视频序列，同步提供RGB图像与五种G缓冲区通道（深度、法线、反照率、金属度、粗糙度），覆盖了多样化的城市场景、自然环境以及复杂天气条件。这种密集的几何与材质标注使得生成式模型能够学习从G缓冲区到逼真图像的映射关系，同时为逆向渲染提供精确的分解目标，从而在可控视频合成与场景属性解耦之间建立起统一的桥梁。

衍生相关工作

该数据集的发布催生了一系列围绕生成式渲染与场景理解的经典研究工作。以DiffusionRenderer为代表的视频扩散模型在该数据集上微调后，在时序一致性逆向渲染与可控视频合成方面取得了显著突破。后续研究如RGB↔X通过材质感知扩散模型实现了图像分解与合成的统一框架，而Uni-Renderer则进一步将正向与逆向渲染整合到双流扩散架构中。在评估方法上，基于视觉语言模型的排序协议为无地面真值的材质预测评估设立了新范式，相关研究已扩展至视频质量理解与生成模型开放评估平台，持续推动着双向渲染技术向真实世界复杂场景的实用化迈进。

数据集最近研究