DrivingGen

github2026-01-06 更新2026-01-07 收录

下载链接：

https://github.com/youngzhou1999/DrivingGen

下载链接

链接失效反馈

官方服务：

资源简介：

DrivingGen是一个用于自动驾驶的生成视频世界模型的综合基准数据集。

DrivingGen is a comprehensive benchmark dataset for generative video world models in autonomous driving.

创建时间：

2026-01-06

原始信息汇总

DrivingGen 数据集概述

数据集基本信息

数据集名称：DrivingGen
核心定位：用于自动驾驶中生成式视频世界模型的综合性基准测试
相关论文：DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving
官方网站：https://drivinggen-bench.github.io/
数据集发布地址：https://huggingface.co/datasets/yangzhou99/DrivingGen

发布与更新

论文发布时间：2026年1月5日（发布于arXiv）
数据集发布时间：2026年1月5日（发布于Hugging Face）

作者信息

主要作者：Yang Zhou*, Hao Shao*, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander
贡献说明：标有“*”的作者为同等贡献者

引用信息

如需使用本数据集或相关研究，请引用以下文献： bibtex @misc{zhou2026drivinggencomprehensivebenchmarkgenerative, title={DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving}, author={Yang Zhou and Hao Shao and Letian Wang and Zhuofan Zong and Hongsheng Li and Steven L. Waslander}, year={2026}, eprint={2601.01528}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.01528}, }

许可协议

代码许可：Apache License 2.0（仅限本仓库内代码）

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，构建能够模拟真实驾驶场景的视频生成模型基准至关重要。DrivingGen数据集通过整合多个公开自动驾驶数据集，如nuScenes和Waymo，精心筛选出具有代表性的驾驶片段。这些片段经过时空对齐与标注处理，形成了包含多样化交通场景、天气条件及光照变化的视频序列，为生成式世界模型提供了丰富的训练与评估素材。

特点

该数据集以其全面性和挑战性著称，涵盖了城市道路、高速公路及复杂交叉口等多种驾驶环境。其视频序列附带精确的传感器数据与场景语义标注，支持对生成模型的时空一致性与物理合理性进行量化评估。DrivingGen特别注重长时序预测与多模态生成的评测，为自动驾驶系统的仿真与验证设立了新的标准。

使用方法

研究人员可通过Hugging Face平台直接访问DrivingGen数据集，下载其结构化的视频序列及标注文件。该数据集适用于训练和测试生成式视频世界模型，用户可依据提供的基准流程进行模型训练，并利用内置评估指标衡量生成视频的质量与真实性。此外，数据集支持自定义任务设置，便于探索自动驾驶场景下的新型生成方法。

背景与挑战

背景概述

随着自动驾驶技术的飞速发展，生成式视频世界模型已成为模拟和预测复杂驾驶场景的关键工具。DrivingGen数据集于2026年由Yang Zhou、Hao Shao等研究人员联合发布，旨在为自动驾驶领域的生成式视频世界模型提供一个全面的基准测试平台。该数据集的核心研究问题聚焦于如何通过生成模型准确模拟动态交通环境中的多智能体交互与长时序事件演化，从而推动自动驾驶系统在安全性与泛化能力方面的突破。其发布不仅填补了该领域高质量基准数据的空白，也为后续研究提供了统一的评估框架，显著促进了生成模型在自动驾驶仿真与规划中的应用。

当前挑战

DrivingGen数据集致力于解决自动驾驶中生成式视频世界模型所面临的挑战，主要包括对高度动态、多模态交通场景的精确建模与长程预测。具体而言，模型需在复杂交互中保持时空一致性，并生成符合物理规律的逼真驾驶序列。在构建过程中，挑战同样突出：大规模真实驾驶数据的采集与标注成本高昂，需要协调多传感器数据以确保时空对齐；同时，数据集的多样性与覆盖度必须充分反映不同天气、光照及交通密度下的边缘案例，以避免模型过拟合。这些挑战共同构成了该数据集在推动技术前沿中的核心难点。

常用场景

经典使用场景

在自动驾驶领域，生成式视频世界模型的研究正成为推动环境理解与决策制定的关键驱动力。DrivingGen数据集作为一项综合性基准，其经典使用场景集中于评估模型在复杂驾驶环境中生成未来帧序列的能力。研究者利用该数据集训练和验证生成模型，以模拟车辆周围动态场景的演变，从而预测潜在风险并优化规划策略。这一场景不仅考验模型对时空信息的建模精度，还涉及对多模态传感器数据的融合与推理，为自动驾驶系统的可靠性与安全性提供了重要验证平台。

解决学术问题

DrivingGen数据集致力于解决生成式世界模型在自动驾驶研究中面临的若干核心学术问题。它通过提供大规模、多样化的驾驶场景视频序列，帮助研究者克服数据稀缺性与真实世界复杂性之间的鸿沟。该数据集支持对模型泛化能力、长时序预测准确性以及不确定性建模的深入探究，从而推动在动态环境中生成逼真且物理合理的未来状态。其意义在于为学术界建立了一个标准化评估框架，促进了生成模型在自动驾驶领域的可复现性与可比性，加速了从仿真到实际应用的转化进程。

衍生相关工作

围绕DrivingGen数据集，已衍生出一系列经典研究工作，这些工作进一步拓展了生成式世界模型在自动驾驶中的应用边界。例如，基于该数据集的基准测试催生了多种先进的视频预测架构，如时空变换器与扩散模型，它们在长时序生成任务中展现了卓越性能。同时，研究者利用DrivingGen探索了多智能体交互建模、场景语义理解以及不确定性量化等方向，推动了跨模态学习与强化学习方法的融合。这些衍生工作不仅丰富了自动驾驶领域的技术图谱，也为后续的大规模仿真与决策系统开发奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集