WorldEngine

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/OpenDriveLab/WorldEngine

下载链接

链接失效反馈

官方服务：

资源简介：

WorldEngine数据集是一个专注于自动驾驶领域物理AI后训练的开源数据集，由香港大学OpenDriveLab、华为和上海创新研究院联合开发。该数据集系统性地解决了自动驾驶中长尾安全关键数据稀缺的问题，具有以下核心特点：1) 采用模块化数据结构，包含原始数据（nuPlan和OpenScene基础数据集）、算法引擎（用于端到端模型训练和评估的预处理数据）和仿真引擎（闭环仿真环境场景资产）三大模块；2) 数据形式多样，涵盖传感器数据、高清地图、标注信息、预处理标注、模型检查点、PDM指标缓存以及3D高斯泼溅(3DGS)渲染所需的场景资产；3) 通过行为世界模型(BWM)生成多样化交通变体，将稀疏的安全关键事件扩展为可学习的密集分布；4) 已在量产ADAS平台上进行验证，基于80,000+小时驾驶日志训练，可降低碰撞率高达45.5%，并在200公里道路测试中实现零脱离。数据集采用CC-BY-NC-SA-4.0许可，允许修改和分发但禁止商业用途。

创建时间：

2026-04-07

原始信息汇总

WorldEngine 数据集概述

数据集基本信息

名称: WorldEngine
发布方: OpenDriveLab (The University of Hong Kong), Huawei Inc., Shanghai Innovation Institute (SII)
许可证: CC-BY-NC-SA-4.0
语言: 英语
标签: Robotics
官方数据发布日期: 2026年4月9日

核心特点

定位: 一个用于自动驾驶中物理人工智能的后训练框架，系统性解决自动驾驶中长尾安全关键数据稀缺问题。
数据驱动的长尾场景发现: 通过预训练智能体自动从真实世界驾驶日志中识别易出错的场景，无需人工设计或合成扰动。
基于3D高斯泼溅的逼真交互式仿真: 每个发现的场景被重建为一个完全可控、可实时渲染的仿真环境。
行为驱动的场景生成: 利用行为世界模型从长尾场景中泛化和合成多样化的交通变化，将稀疏的安全关键事件扩展为密集、可学习的分布。
基于强化学习的后训练: 在安全关键场景上进行后训练，其性能显著优于仅增加预训练数据，效果相当于预训练数据量增加约10倍。
生产规模验证: 部署于一个量产ADAS平台，基于超过80,000小时的驾驶日志进行训练，将碰撞率降低高达45.5%，并在200公里道路测试中实现零次接管。

数据集结构概述

数据集采用模块化数据结构，主要包含以下部分：

1. 原始数据 (`data/raw/`)

nuPlan原始数据集: 包含高清地图、传感器数据（相机图像和激光雷达）以及训练/验证/测试划分。
OpenScene-v1.1数据集 (基于nuPlan): 包含训练和测试的传感器数据及元数据。

2. AlgEngine数据 (`data/alg_engine/`)

用于端到端模型训练和评估的数据，包括：

openscene-synthetic/: SimEngine生成的合成数据（需生成）。
ckpts/: 预训练模型检查点。
pdms_cache/: 预计算的PDM指标缓存。
merged_infos_navformer/: 预处理的标注信息。
test_8192_kmeans.npy: 用于PDM的K-means聚类数据。

3. SimEngine数据 (`data/sim_engine/`)

用于闭环仿真的数据，包括：

assets/: 仿真场景资源（需提取），包含navtest、navtrain和navtest_failures场景资产。
scenarios/: 场景配置文件，包含原始记录的场景和通过行为世界模型增强的场景。

环境设置

需配置以下环境变量：

WORLDENGINE_ROOT: 指向WorldEngine根目录的路径。
NUPLAN_MAPS_ROOT: 指向nuPlan地图目录的路径。
PYTHONPATH: 包含WorldEngine根目录。

使用步骤

下载数据集: 通过Hugging Face Hub或Git克隆。
提取场景资产: 提取data/sim_engine/assets/目录下的分卷压缩文件。
设置环境变量: 配置WORLDENGINE_ROOT及相关路径。
创建符号链接 (可选): 链接已下载的原始数据集以避免数据重复。
验证安装: 运行快速测试脚本。

引用

若使用本项目，请考虑引用相关论文。若使用渲染资产（MTGS），请额外引用MTGS相关论文。若使用行为世界模型生成的场景数据，请额外引用相关论文。

许可证与使用条款

许可证: CC-BY-NC-SA-4.0
允许: 修改、分发、私人使用。
要求: 署名、以相同方式共享。
限制: 禁止商业使用；必须保留版权和许可证声明。

相关资源链接

项目主页: https://github.com/OpenDriveLab/WorldEngine
Hugging Face数据集页面: https://huggingface.co/datasets/OpenDriveLab/WorldEngine
ModelScope数据集页面: https://www.modelscope.cn/datasets/OpenDriveLab/WorldEngine
完整文档: https://github.com/OpenDriveLab/WorldEngine/tree/main/docs
场景重建: https://github.com/OpenDriveLab/MTGS
问题反馈: https://github.com/OpenDriveLab/WorldEngine/issues
讨论区: https://huggingface.co/datasets/OpenDriveLab/WorldEngine/discussions

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，长尾安全关键场景的数据稀缺问题长期制约着物理智能体的训练效能。WorldEngine数据集通过数据驱动的方法，从真实驾驶日志中自动识别易失败场景，无需人工设计或合成扰动。每个场景借助3D高斯泼溅技术重建为可完全控制、实时渲染的交互式仿真环境，并结合行为世界模型对长尾场景进行泛化与多样化交通变体合成，从而将稀疏的安全关键事件扩展为密集且可学习的分布。

特点

该数据集的核心特征在于其模块化数据结构，分别服务于算法引擎与仿真引擎，同时共享通用格式。算法引擎部分包含预处理标注、模型检查点及预计算度量缓存，支持端到端模型训练与评估。仿真引擎则提供闭环仿真所需的场景资产与配置文件，其资产以分卷压缩形式存储，需经提取后方可使用。数据集深度融合了真实世界数据与合成生成技术，实现了从原始传感器数据到高保真交互仿真的完整链路。

使用方法

使用WorldEngine数据集需遵循系统化的配置流程。首先需下载数据集并完成场景资产的提取，随后设置关键环境变量以指向数据根目录。若已拥有原始数据集，可通过符号链接避免数据冗余。完成基础配置后，用户可依据项目文档指引，分别利用算法引擎数据进行模型训练与评估，或借助仿真引擎构建闭环测试环境，对自动驾驶智能体进行安全关键场景下的强化学习后训练与验证。

背景与挑战

背景概述

WorldEngine数据集由香港大学OpenDriveLab实验室、华为公司及上海创新研究院于2026年联合发布，旨在为自动驾驶领域的物理人工智能后训练提供基础设施。该数据集系统性地应对了自动驾驶系统中长尾安全关键数据稀缺的核心研究问题，通过整合真实驾驶日志与三维高斯泼溅等先进重建技术，构建了高保真交互式仿真环境。其创新性地采用数据驱动方法自动发掘故障场景，并借助行为世界模型生成多样化交通变体，显著提升了自动驾驶模型在复杂现实环境中的安全性与泛化能力，对推动端到端自动驾驶系统的可靠部署具有重要影响力。

当前挑战

WorldEngine数据集致力于解决自动驾驶领域长尾安全关键场景的建模与泛化挑战。具体而言，其需应对极端罕见但高风险的驾驶事件（如突发碰撞、异常交通参与行为）在自然数据中分布稀疏、难以收集与标注的难题。在构建过程中，挑战体现在多模态数据的高效融合与逼真重建上，包括从海量原始传感器日志中自动化识别故障模式、利用三维高斯泼溅技术实现实时渲染的交互式场景重建，以及通过生成模型在保证物理真实性的前提下合成大规模、高多样性的安全关键场景数据，以形成可供强化学习高效利用的密集分布。

常用场景

经典使用场景

在自动驾驶领域，长尾安全关键场景的稀缺性一直是制约模型泛化能力的核心瓶颈。WorldEngine数据集通过其数据驱动的长尾场景发现机制，能够从真实驾驶日志中自动识别出易发生故障的交互情境，无需人工设计或合成扰动。这些场景随后被重建为基于3D高斯泼溅技术的逼真交互式仿真环境，为自动驾驶模型的闭环测试与强化学习后训练提供了高度可控且可扩展的验证平台。该数据集最经典的应用在于为端到端驾驶模型在安全关键分布上进行系统性的后训练，从而显著提升模型在复杂现实环境中的鲁棒性与安全性。

实际应用

该数据集的实际价值已在量产级高级驾驶辅助系统平台上得到验证。通过部署在超过八万小时的真实驾驶日志数据上，利用WorldEngine框架进行后训练的模型，在道路测试中实现了碰撞率降低高达45.5%的显著效果，并在长达200公里的实路测试中达到了零接管率。这证明了其不仅是一个研究工具，更是连接学术创新与工业落地的桥梁。它为自动驾驶系统的安全验证、合规性测试以及持续迭代优化提供了高效、低成本且可复现的解决方案，能够加速可靠自动驾驶系统的开发与部署进程。

衍生相关工作

围绕WorldEngine数据集的核心技术，衍生出了一系列重要的研究工作。其中，多遍历高斯泼溅技术为场景的光真实时重建提供了基础，实现了从驾驶日志到可交互仿真环境的高效转换。行为世界模型及其相关的扩散生成方法，如Decoupled Diffusion和优化引导扩散，则负责对发现的长尾场景进行泛化与增强，生成丰富多样的交通变体。这些技术共同构成了一个完整的后训练基础设施，推动了自动驾驶领域从纯粹的大规模预训练向注重安全关键性能的系统化后训练范式转变，并催生了更多关于场景重建、生成与安全评估的交叉研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集