D3Sim
收藏arXiv2025-06-10 更新2025-06-11 收录
下载链接:
https://metadriverse.github.io/dreamland/
下载链接
链接失效反馈官方服务:
资源简介:
D3Sim数据集是一个大规模的驾驶场景数据集,包含现实世界和模拟中的多样化驾驶场景。该数据集提供了真实视角视图和高品质的条件数据,以促进Sim2Real转换。数据集由大约1800个场景和大约60,000个样本组成,采样率为2 Hz。数据集被分为三个世界层,根据语义构建LWA,从而为Dreamland流水线提供高质量的数字孪生训练数据。
The D3Sim dataset is a large-scale driving scenario dataset encompassing diverse driving scenarios in both real-world and simulated environments. It provides real-world perspective views and high-quality conditional data to facilitate Sim2Real transfer. The dataset consists of approximately 1,800 scenarios and around 60,000 samples, with a sampling rate of 2 Hz. It is divided into three world layers, and LWA is constructed based on semantics, thereby providing high-quality digital twin training data for the Dreamland pipeline.
提供机构:
加利福尼亚大学洛杉矶分校
创建时间:
2025-06-10
搜集汇总
数据集介绍

构建方式
D3Sim数据集的构建采用了数字孪生技术,通过将真实世界的驾驶场景在MetaDrive模拟器中重构,实现了模拟条件与真实条件的像素级对齐。具体步骤包括:基于nuPlan数据集获取真实驾驶场景,利用ScenarioNet在模拟器中构建对应的数字孪生场景,并通过预训练的基础模型(如DepthAnything2、SegFormer等)标注真实条件。该数据集包含约1,800个场景的60,000个样本,采样频率为2Hz,确保了数据的多样性和高质量。
特点
D3Sim数据集的特点在于其分层世界抽象(Layered World Abstraction, LWA)设计,将场景分为交通参与者层、地图布局层和背景层,实现了像素级和对象级的语义与几何控制。数据集提供了丰富的真实与模拟条件配对,包括深度图、语义分割图和实例图等,支持高质量的Sim2Real迁移。此外,数据集还包含多样化的验证集,用于评估生成管道的视觉质量和可控性,确保了其在复杂驾驶场景中的适用性。
使用方法
D3Sim数据集的使用方法主要包括三个阶段:首先,通过模拟器生成场景记录并捕获模拟条件(Sim-LWA);其次,利用指令编辑模型将Sim-LWA转换为真实世界分布(Real-LWA);最后,使用预训练的条件生成模型根据Real-LWA生成逼真的视觉场景。数据集支持多种下游任务,如自动驾驶代理训练、场景编辑和安全关键场景生成。用户可以通过文本指令动态控制场景的保留和编辑区域,实现细粒度的场景配置。
背景与挑战
背景概述
D3Sim数据集由加州大学洛杉矶分校的研究团队于2025年提出,旨在解决自动驾驶领域中可控世界创建的挑战。该数据集作为Dreamland框架的核心组成部分,通过结合基于物理的模拟器和大规模预训练生成模型,实现了对驾驶场景的高精度控制与真实感渲染。研究团队创新性地提出了分层世界抽象(LWA)作为中间表示,有效弥合了模拟器与生成模型之间的语义鸿沟。D3Sim的构建基于nuPlan数据集,包含1,800个数字孪生驾驶场景,共计60,000个样本,为自动驾驶仿真、智能体训练等研究提供了重要基准。
当前挑战
D3Sim数据集面临的核心挑战体现在两个方面:在领域问题层面,当前生成模型难以实现元素级精确控制,这限制了其在场景编辑和具身智能体训练中的应用;在构建过程层面,高保真模拟器与真实世界数据间的视觉域差距导致数据对齐困难,需要开发创新的中间表示方法。具体挑战包括:1) 保持生成场景的物理合理性与视觉真实性的平衡;2) 处理复杂场景中物体遮挡与交互的精确建模;3) 降低高质量模拟数据与真实世界数据配对标注的成本;4) 确保生成模型在保留世界知识的同时适应模拟器控制信号。
常用场景
经典使用场景
D3Sim数据集在自动驾驶和计算机视觉领域具有广泛的应用价值,尤其在可控世界生成和场景编辑任务中表现突出。该数据集通过结合物理模拟器和生成模型,为研究者提供了丰富的仿真和真实世界驾驶场景数据。其经典使用场景包括自动驾驶算法的训练与评估、场景生成的可控性研究以及视觉问答任务的增强。通过分层世界抽象(LWA)技术,D3Sim能够精确控制场景中的对象布局和动态交互,为复杂驾驶场景的生成提供了可靠的数据支持。
衍生相关工作
D3Sim数据集的推出催生了一系列相关研究工作。例如,基于D3Sim的Dreamland框架在场景生成任务中取得了显著进展,其图像质量和可控性分别提升了52.8%和17.9%。此外,该数据集还启发了多模态生成模型的研究,如结合文本和图像条件的场景生成方法。在自动驾驶领域,D3Sim为MagicDrive和Panacea等生成模型提供了基准数据,推动了高保真驾驶场景生成技术的发展。这些衍生工作不仅验证了D3Sim的科学价值,也为未来研究提供了新的方向和工具。
数据集最近研究
最新研究方向
在计算机视觉与生成模型的交叉领域,D3Sim数据集作为Dreamland框架的核心组成部分,正推动着可控世界创建技术的前沿发展。该数据集通过分层世界抽象(LWA)技术,巧妙融合了物理模拟器的几何控制能力与生成模型的视觉表现力,为自动驾驶场景合成提供了兼具物理精确性与视觉真实性的解决方案。最新研究聚焦于三个方向:一是探索多模态条件生成模型与仿真器的深度耦合机制,通过LWA实现像素级语义与对象级动态的联合控制;二是构建大规模数字孪生场景库,利用nuPlan等真实驾驶数据与MetaDrive仿真环境的对齐,突破传统生成模型在复杂交通场景中的可控性瓶颈;三是开发面向具身智能训练的跨域适应方法,研究表明采用Dreamland合成数据训练的视觉语言模型在真实世界VQA任务中准确率提升3.9%,验证了仿真-现实域转换的有效性。这些突破性进展不仅解决了自动驾驶仿真中视觉保真度与物理一致性难以兼得的难题,更为构建可扩展的虚拟训练环境提供了新范式。
相关研究论文
- 1Dreamland: Controllable World Creation with Simulator and Generative Models加利福尼亚大学洛杉矶分校 · 2025年
以上内容由遇见数据集搜集并总结生成



