D3Sim

Name: D3Sim
Creator: 加利福尼亚大学洛杉矶分校
Published: 2025-06-10 01:59:52
License: 暂无描述

arXiv2025-06-10 更新2025-06-11 收录

下载链接：

https://metadriverse.github.io/dreamland/

下载链接

链接失效反馈

官方服务：

资源简介：

D3Sim数据集是一个大规模的驾驶场景数据集，包含现实世界和模拟中的多样化驾驶场景。该数据集提供了真实视角视图和高品质的条件数据，以促进Sim2Real转换。数据集由大约1800个场景和大约60,000个样本组成，采样率为2 Hz。数据集被分为三个世界层，根据语义构建LWA，从而为Dreamland流水线提供高质量的数字孪生训练数据。

The D3Sim dataset is a large-scale driving scenario dataset encompassing diverse driving scenarios in both real-world and simulated environments. It provides real-world perspective views and high-quality conditional data to facilitate Sim2Real transfer. The dataset consists of approximately 1,800 scenarios and around 60,000 samples, with a sampling rate of 2 Hz. It is divided into three world layers, and LWA is constructed based on semantics, thereby providing high-quality digital twin training data for the Dreamland pipeline.

提供机构：

加利福尼亚大学洛杉矶分校

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

D3Sim数据集的构建采用了数字孪生技术，通过将真实世界的驾驶场景在MetaDrive模拟器中重构，实现了模拟条件与真实条件的像素级对齐。具体步骤包括：基于nuPlan数据集获取真实驾驶场景，利用ScenarioNet在模拟器中构建对应的数字孪生场景，并通过预训练的基础模型（如DepthAnything2、SegFormer等）标注真实条件。该数据集包含约1,800个场景的60,000个样本，采样频率为2Hz，确保了数据的多样性和高质量。

特点

D3Sim数据集的特点在于其分层世界抽象（Layered World Abstraction, LWA）设计，将场景分为交通参与者层、地图布局层和背景层，实现了像素级和对象级的语义与几何控制。数据集提供了丰富的真实与模拟条件配对，包括深度图、语义分割图和实例图等，支持高质量的Sim2Real迁移。此外，数据集还包含多样化的验证集，用于评估生成管道的视觉质量和可控性，确保了其在复杂驾驶场景中的适用性。

使用方法

D3Sim数据集的使用方法主要包括三个阶段：首先，通过模拟器生成场景记录并捕获模拟条件（Sim-LWA）；其次，利用指令编辑模型将Sim-LWA转换为真实世界分布（Real-LWA）；最后，使用预训练的条件生成模型根据Real-LWA生成逼真的视觉场景。数据集支持多种下游任务，如自动驾驶代理训练、场景编辑和安全关键场景生成。用户可以通过文本指令动态控制场景的保留和编辑区域，实现细粒度的场景配置。

背景与挑战

背景概述

D3Sim数据集由加州大学洛杉矶分校的研究团队于2025年提出，旨在解决自动驾驶领域中可控世界创建的挑战。该数据集作为Dreamland框架的核心组成部分，通过结合基于物理的模拟器和大规模预训练生成模型，实现了对驾驶场景的高精度控制与真实感渲染。研究团队创新性地提出了分层世界抽象（LWA）作为中间表示，有效弥合了模拟器与生成模型之间的语义鸿沟。D3Sim的构建基于nuPlan数据集，包含1,800个数字孪生驾驶场景，共计60,000个样本，为自动驾驶仿真、智能体训练等研究提供了重要基准。

当前挑战

D3Sim数据集面临的核心挑战体现在两个方面：在领域问题层面，当前生成模型难以实现元素级精确控制，这限制了其在场景编辑和具身智能体训练中的应用；在构建过程层面，高保真模拟器与真实世界数据间的视觉域差距导致数据对齐困难，需要开发创新的中间表示方法。具体挑战包括：1) 保持生成场景的物理合理性与视觉真实性的平衡；2) 处理复杂场景中物体遮挡与交互的精确建模；3) 降低高质量模拟数据与真实世界数据配对标注的成本；4) 确保生成模型在保留世界知识的同时适应模拟器控制信号。

常用场景

经典使用场景

D3Sim数据集在自动驾驶和计算机视觉领域具有广泛的应用价值，尤其在可控世界生成和场景编辑任务中表现突出。该数据集通过结合物理模拟器和生成模型，为研究者提供了丰富的仿真和真实世界驾驶场景数据。其经典使用场景包括自动驾驶算法的训练与评估、场景生成的可控性研究以及视觉问答任务的增强。通过分层世界抽象（LWA）技术，D3Sim能够精确控制场景中的对象布局和动态交互，为复杂驾驶场景的生成提供了可靠的数据支持。

衍生相关工作

D3Sim数据集的推出催生了一系列相关研究工作。例如，基于D3Sim的Dreamland框架在场景生成任务中取得了显著进展，其图像质量和可控性分别提升了52.8%和17.9%。此外，该数据集还启发了多模态生成模型的研究，如结合文本和图像条件的场景生成方法。在自动驾驶领域，D3Sim为MagicDrive和Panacea等生成模型提供了基准数据，推动了高保真驾驶场景生成技术的发展。这些衍生工作不仅验证了D3Sim的科学价值，也为未来研究提供了新的方向和工具。

数据集最近研究