Cosmos-Drive-Dreams

arXiv2025-06-11 更新2025-06-12 收录

下载链接：

https://research.nvidia.com/labs/toronto-ai/cosmos_drive_dreams

下载链接

链接失效反馈

官方服务：

资源简介：

Cosmos-Drive-Dreams 是一个可扩展的合成数据生成管道，旨在生成具有挑战性的场景，以促进自动驾驶车辆的感知和驾驶策略训练等下游任务。该管道由 Cosmos-Drive 模型系列提供支持，这些模型专门用于驾驶领域，并能够生成可控的、高保真的、多视角的以及时空一致的视频。该数据集通过模拟或筛选真实世界数据来增强训练数据集，评估数据差距，训练自动驾驶任务中至关重要的下游模型，包括场景理解和运动规划。

Cosmos-Drive-Dreams is a scalable synthetic data generation pipeline developed to generate challenging scenarios to facilitate downstream tasks including autonomous vehicle perception and driving policy training. Powered by the Cosmos-Drive model series specialized in the driving domain, this pipeline can generate controllable, high-fidelity, multi-view, and spatio-temporally consistent videos. This dataset augments training datasets by simulating or curating real-world data, evaluates data gaps, and trains critical downstream models for autonomous driving tasks such as scene understanding and motion planning.

提供机构：

英伟达

创建时间：

2025-06-11

原始信息汇总

Cosmos-Drive-Dreams 数据集概述

数据集简介

名称: Cosmos-Drive-Dreams
类型: 合成数据生成 (SDG) 管道
目的: 生成具有挑战性的驾驶场景，以增强自动驾驶车辆的下游任务（如感知和驾驶策略训练）

核心特点

基于Cosmos-Drive模型: 专为驾驶领域设计的可控、高保真、多视角且时空一致的驾驶视频生成模型
多样化生成: 支持从简单车道边界到复杂HDMap的多种条件输入
多视角扩展: 可将单视角视频扩展为多视角
自动标注: 可从野外驾驶视频中自动预测HDMap和深度信息
LiDAR生成: 支持从HDMap或RGB输入生成LiDAR点云

应用场景

3D车道检测: 在Waymo开放数据集和内部RDS-HQ数据集上显著提升检测效果
3D物体检测: 在各种天气条件下提高检测性能
驾驶策略学习: 改善轨迹预测准确性，减少对真实数据的需求

数据集内容

多样化场景: 包括极端天气（大雪、雨天、雾天）、夜间驾驶等
风格变化: 支持赛博朋克、丛林、纽约、樱花等多种风格
多视角视频: 提供单视角和多视角驾驶视频

性能提升

3D车道检测: F1分数提升2.3%-4.8%，类别准确率提升0.8%-3.6%
3D物体检测: 在RDS-HQ数据集上mAP提升3.8%-4.4%
LiDAR检测: 在不同车辆类别和数据集规模上均有所改善

工具包

渲染脚本: 生成HDMap可视化和LiDAR点云渲染
样本工具: 提供提示修改、轨迹生成和环境转换工具
3D轨迹编辑工具: 基于Web的交互式界面

贡献者

核心贡献者: Xuanchi Ren, Yifan Lu, Tianshi Cao等
机构: NVIDIA
通讯作者: Sanja Fidler, Huan Ling

相关资源

论文: 可通过页面链接获取
模型与代码: 通过NVIDIA Cosmos平台开源
工具包: 可在GitHub上查看

搜集汇总

数据集介绍

构建方式

Cosmos-Drive-Dreams数据集的构建采用了基于世界基础模型（World Foundation Models, WFM）的合成数据生成（SDG）流程。该流程首先通过结构化标签（如高清地图HDMap和3D立方体）或真实驾驶视频生成像素对齐的高清地图条件视频。随后，利用提示重写器（Prompt Rewriter）生成多样化的文本描述，结合Cosmos-Transfer1-7B-Sample-AV模型生成高质量的单视角驾驶视频。接着，通过多视角扩展模型（Cosmos-7B-Single2Multiview-Sample-AV）将单视角视频扩展为多视角视频。最后，通过视觉语言模型（VLM）过滤器进行拒绝采样，自动剔除低质量样本，从而生成高质量、多样化的合成数据集。

特点

Cosmos-Drive-Dreams数据集的特点在于其高保真度、多样性和可控性。该数据集能够生成具有精确场景布局和运动控制的驾驶视频，支持多视角和LiDAR模态。通过文本提示和结构化输入（如HDMap和LiDAR深度视频），数据集能够模拟各种驾驶场景，包括极端天气和罕见边缘情况。此外，数据集还支持从真实驾驶视频中自动标注高清地图和LiDAR深度信息，进一步扩展了数据的多样性和实用性。

使用方法

Cosmos-Drive-Dreams数据集可用于多种自动驾驶下游任务，包括3D车道检测、3D目标检测和驾驶策略学习。用户可以通过NVIDIA的Cosmos平台获取开源工具包、模型权重和数据集。具体使用方法包括：1）利用结构化标签或真实视频生成合成数据；2）通过提示重写器增强数据多样性；3）使用多视角扩展模型生成一致的多视角视频；4）通过VLM过滤器进行质量控制。实验表明，该数据集能够有效缓解长尾分布问题，并提升下游任务的泛化能力。

背景与挑战

背景概述

Cosmos-Drive-Dreams是由NVIDIA于2025年推出的一个面向自动驾驶领域的合成数据生成（SDG）管道，旨在解决自动驾驶系统在训练和测试中遇到的罕见边缘案例数据稀缺问题。该数据集基于NVIDIA Cosmos世界基础模型（WFM）进行领域适配，能够生成高质量、多视角、时空一致的驾驶视频，支持感知和驾驶策略训练等下游任务。其核心研究问题是通过可控的合成数据生成，弥补真实世界数据在多样性和覆盖范围上的不足，特别是在极端天气、复杂交通场景等长尾分布情况下的数据需求。该数据集的推出显著提升了自动驾驶模型在3D车道检测、3D物体检测等任务中的泛化能力，推动了物理AI系统的发展。

当前挑战

Cosmos-Drive-Dreams面临的挑战主要包括两个方面：1) 领域问题的挑战：自动驾驶系统需要处理复杂多变的真实世界场景，特别是罕见但安全关键的情况（如突然的行人穿越、极端天气等），这些场景在真实数据中难以充分捕捉，导致模型在这些边缘案例上的表现不佳。2) 构建过程的挑战：生成高质量、多视角且时空一致的驾驶视频需要解决精确的布局控制、视角扩展和自动标注等技术难题；同时，确保生成数据的多样性和真实性，避免生成低质量或不符合现实的样本，也是一个重要挑战。此外，大规模生成合成数据还面临计算资源消耗大、生成效率低等问题。

常用场景

经典使用场景

在自动驾驶系统的开发过程中，Cosmos-Drive-Dreams数据集被广泛应用于生成具有挑战性的驾驶场景，以增强感知和驾驶策略训练。该数据集通过合成数据生成（SDG）管道，能够模拟罕见边缘情况，如极端天气条件、突发行人穿越等，从而弥补真实数据收集的不足。其多视图和时空一致的视频生成能力，为自动驾驶模型的训练提供了丰富且可控的数据源。

衍生相关工作

Cosmos-Drive-Dreams数据集衍生了一系列经典工作，包括基于世界基础模型（WFM）的驾驶专用生成模型、多视图扩展模型和自动标注模型。这些模型不仅在合成数据生成领域取得了显著进展，还为自动驾驶研究提供了新的工具和方法。例如，Cosmos-Transfer1-7B-Sample-AV模型通过精确的布局控制，实现了高保真驾驶视频的生成，为后续研究奠定了重要基础。

数据集最近研究