Cosmos-Drive-Dreams Dataset

github2025-06-11 更新2025-06-12 收录

下载链接：

https://github.com/nv-tlabs/Cosmos-Drive-Dreams

下载链接

链接失效反馈

官方服务：

资源简介：

Cosmos-Drive-Dreams数据集包含由NVIDIA收集的5,843个10秒片段的标签（HDMap、BBox和LiDAR），以及由Cosmos-Drive-Dreams从这些标签生成的81,802个合成视频样本。合成的视频长度为121帧，捕捉了各种具有挑战性的场景，如雨天、雪天、雾天等，这些场景在现实世界的驾驶数据集中可能不易获得。该数据集可用于商业和非商业用途。

The Cosmos-Drive-Dreams dataset contains 5,843 10-second segment labels (HDMap, BBox and LiDAR) collected by NVIDIA, as well as 81,802 synthetic video samples generated by Cosmos-Drive-Dreams from these labels. The synthetic videos are 121 frames in length, capturing various challenging scenarios such as rainy, snowy and foggy weather, which are often scarce in real-world driving datasets. This dataset is available for both commercial and non-commercial use.

创建时间：

2025-06-08

原始信息汇总

Cosmos-Drive-Dreams 数据集概述

数据集基本信息

名称: Cosmos-Drive-Dreams Dataset
类型: 合成驾驶数据
数据量:
- 真实采集的10秒视频片段: 5,843个
- 合成的视频样本: 81,802个
数据内容:
- 包含标签数据: HDMap、BBox和LiDAR
- 合成的视频: 每段121帧，涵盖多种具有挑战性的场景（如雨天、雪天、雾天等）

数据集特点

多样性: 涵盖多种现实中难以获取的复杂驾驶场景
商业授权: 可用于商业和非商业用途
配套工具: 提供可视化、标签编辑和格式转换工具

数据获取

下载方式: 即将发布
详细文档: Huggingface页面

数据处理流程

预处理: 从RDS-HQ数据集渲染条件视频
提示重写: 使用VLM生成多样化的文本提示
视频生成:
- 单视图视频生成
- 多视图视频扩展
过滤: 即将发布

引用文献

bibtex @misc{nvidia2025cosmosdrivedreams, title = {Cosmos-Drive-Dreams: Scalable Synthetic Driving Data Generation with World Foundation Models}, author = {Ren, Xuanchi and Lu, Yifan and Cao, Tianshi and Gao, Ruiyuan and Huang, Shengyu and Sabour, Amirmojtaba and Shen, Tianchang and Pfaff, Tobias and Wu, Jay Zhangjie and Chen, Runjian and Kim, Seung Wook and Gao, Jun and Leal-Taixe, Laura and Chen, Mike and Fidler, Sanja and Ling, Huan} year = {2025}, url = {https://arxiv.org/abs/2506.09042} }

bibtex @misc{nvidia2025cosmostransfer1, title = {Cosmos Transfer1: World Generation with Adaptive Multimodal Control}, author = {NVIDIA}, year = {2025}, url = {https://arxiv.org/abs/2503.14492} }

搜集汇总

数据集介绍

构建方式

Cosmos-Drive-Dreams数据集通过NVIDIA自主研发的Cosmos世界基础模型构建，采用合成数据生成（SDG）技术，将真实采集的5,843段10秒驾驶视频片段作为基础标签数据（包括HDMap、BBox和LiDAR），进而生成81,802段合成视频样本。该数据集特别模拟了雨雪雾等极端天气场景，弥补了真实驾驶数据在复杂环境下的不足。数据生成过程融合了多模态控制技术，确保场景的多样性和真实性。

使用方法

用户可通过官方提供的Python脚本按需下载HDMap、LiDAR或合成视频等子集，支持多线程加速。数据集配套工具包支持标签可视化、场景编辑及格式转换功能，例如可将Waymo数据集转换为统一格式。使用前需配置conda环境并下载预训练模型权重，具体流程包括条件视频预处理、提示词改写、单视图生成、多视图扩展等步骤，各阶段均有详细文档指导。研究引用需遵循arXiv论文的署名要求。

背景与挑战

背景概述

Cosmos-Drive-Dreams Dataset由NVIDIA研究团队于2025年推出，旨在通过合成数据生成（SDG）技术解决自动驾驶领域的关键问题。该数据集基于Cosmos世界基础模型构建，包含81,802个合成视频样本以及5,843个10秒真实驾驶片段的标注数据（如高清地图、边界框和激光雷达数据）。其核心研究价值在于生成多样化的极端驾驶场景（如雨雪、雾天等），弥补了真实数据难以覆盖的边缘案例。这一创新为自动驾驶系统的鲁棒性测试提供了标准化基准，显著推动了计算机视觉与强化学习在智能交通领域的融合应用。

当前挑战

在领域问题层面，该数据集致力于解决自动驾驶系统在复杂多模态环境感知中的泛化能力不足问题，尤其是应对罕见天气和突发场景的识别挑战。数据构建过程中，研究团队面临合成数据与真实物理规律一致性的验证难题，需平衡生成效率与场景多样性。多传感器数据（如LiDAR与HDMap）的时间同步与空间对齐亦对标注精度提出极高要求。此外，大规模合成数据的存储与传输（约3TB总量）对分布式计算架构构成了显著压力。

常用场景

经典使用场景

在自动驾驶领域，数据集的多样性和复杂性对算法训练至关重要。Cosmos-Drive-Dreams Dataset通过合成数据生成技术，提供了大量包含极端天气条件（如雨雪、雾霾）的驾驶场景，这些场景在真实数据中难以获取。研究者可利用该数据集训练和验证自动驾驶系统在复杂环境下的感知与决策能力，从而提升模型的鲁棒性和泛化性能。

解决学术问题

该数据集有效解决了自动驾驶研究中数据稀缺和多样性不足的学术难题。传统数据集往往受限于真实世界的采集条件，难以覆盖所有可能的驾驶场景。Cosmos-Drive-Dreams通过合成技术生成了大量罕见但关键的驾驶情境，为学术界提供了丰富的研究素材，推动了自动驾驶算法在极端条件下的性能优化和安全性研究。

实际应用

在实际应用中，Cosmos-Drive-Dreams Dataset被广泛用于自动驾驶系统的开发和测试。汽车制造商和科技公司利用其合成数据加速算法迭代，减少对昂贵且耗时的真实数据采集的依赖。此外，该数据集还支持模拟器的开发，帮助工程师在虚拟环境中测试自动驾驶系统在各种极端条件下的表现，从而降低实际路测的风险和成本。

数据集最近研究