Large-scale 3DGS-QA Dataset
收藏github2026-01-07 更新2026-01-08 收录
下载链接:
https://github.com/dtc111111/GaussianDWM
下载链接
链接失效反馈官方服务:
资源简介:
我们引入了第一个大规模数据集,该数据集将3D Gaussian Splatting特征与多样化的基于语言的驾驶任务配对,包含约190万个训练样本和35.8万个测试样本,涵盖场景理解、轨迹预测和多模态推理。该数据集基于nuScenes构建,并使用LangSplat处理以提取每个场景帧的语言对齐3D高斯特征。每个样本包含多视角图像、相应的3D高斯特征(.pth文件)和覆盖多样化驾驶场景的结构化QA注释。
We introduce the first large-scale dataset that pairs 3D Gaussian Splatting features with diverse language-based driving tasks. It contains approximately 1.9 million training samples and 358,000 test samples, covering scene understanding, trajectory prediction, and multimodal reasoning. This dataset is built upon nuScenes, and processed with LangSplat to extract language-aligned 3D Gaussian features for each scene frame. Each sample includes multi-view images, corresponding 3D Gaussian features (stored as .pth files), and structured QA annotations covering diverse driving scenarios.
创建时间:
2025-12-25
原始信息汇总
GaussianDWM 数据集概述
数据集基本信息
- 数据集名称: GaussianDWM (3D Gaussian Driving World Model)
- 核心内容: 首个大规模配对3D高斯特征与多样化语言驱动任务的数据集。
- 数据规模: 总计约226万样本,其中训练集约190万样本,测试集约35.8万样本。
- 构建基础: 基于 nuScenes 数据集,并使用 LangSplat 处理以提取语言对齐的3D高斯特征。
- 主要用途: 支持自动驾驶场景下的场景理解、轨迹预测和多模态推理任务。
数据集组成与结构
数据集主要包含三个部分,组织目录结构如下:
./data ├── dataset-NuIntereact ├── dataset-OmniDrive ├── dataset-Traject ├── gauss ├── nuscenes ├── utility.json └── utility.py
1. NuInteract-based QA 数据
- 数据来源: 采用自 NuInteract 数据集的所有标题和多任务QA数据。
- 任务类别:
- 2DVG: 2D视觉定位,输出为JSON格式的边界框。
- 3DVG: 相机坐标系下的3D视觉定位。
- RD&P: 区域描述与预测任务。
- Caption: 密集场景描述。
- Planning: 多视角规划推理。
- 数据统计:
类别 训练样本数 测试样本数 RD&P 810,302 167,596 3DVG 208,616 44,860 2DVG 189,450 40,373 Caption 181,286 - Planning 25,952 1,058 总计 1,415,606 253,887
2. 轨迹预测数据
- 数据来源: 从 nuScenes 数据集及其对应的 CAN 总线数据中提取。
- 预测时间范围: 0.5秒、1秒、2秒、3秒、5秒、10秒。
- 输入: 4个历史帧,包含车辆位姿和动态信息。
- 输出格式: 结构化JSON,每个轨迹点由
[x, y, z, sin(yaw), cos(yaw)]5个值表示。 - 数据统计:
预测范围 训练样本数 测试样本数 0.5s 24,630 5,269 1s 23,930 5,119 2s 22,530 4,819 3s 21,130 4,519 5s 18,330 3,919 10s 11,330 2,419 总计 121,880 26,064
3. OmniDrive-based 数据
- 数据来源: 采用自 OmniDrive 数据集,遵循 HERMES 的设置。
- 使用子集: Desc (场景描述)、VQA (视觉问答)、Conv (多轮对话)。
- 处理方式: 将VQA和Conv数据拆分为独立的问答对。
- 数据统计:
类别 训练样本数 测试样本数 Omni_Conv 260,612 48,108 Omni_VQA 111,884 24,081 Omni_Desc 27,968 6,019 总计 400,464 78,208
样本内容
每个样本包含:
- 多视角图像。
- 对应的3D高斯特征(
.pth文件)。 - 覆盖多样化驾驶场景的结构化问答标注。
相关资源
- 论文: https://arxiv.org/abs/2512.23180
- 详细数据文档:
- NuInteract-based QA 数据: https://github.com/dtc111111/GaussianDWM/blob/main/src/data/README_nu.md
- 轨迹预测数据: https://github.com/dtc111111/GaussianDWM/blob/main/src/data/README_traj.md
- OmniDrive-based 数据: https://github.com/dtc111111/GaussianDWM/blob/main/src/data/README_omni.md
- 基础数据集:
- nuScenes: https://www.nuscenes.org/
- LangSplat: https://github.com/minghanqin/LangSplat
- NuInteract Dataset: https://github.com/zc-zhao/DriveMonkey
- OmniDrive: https://github.com/NVlabs/OmniDrive
许可信息
- 许可证: Apache License 2.0。
搜集汇总
数据集介绍

构建方式
在自动驾驶领域,三维场景的语义理解与生成任务亟需高质量的多模态数据支撑。Large-scale 3DGS-QA Dataset的构建以广泛采用的nuScenes数据集为基础,通过LangSplat工具提取每一帧场景中与语言对齐的三维高斯特征。该过程将多视角图像、对应的三维高斯特征文件与结构化的问答标注进行配对,形成了涵盖场景理解、轨迹预测与多模态推理的多样化任务集合。数据集进一步整合了NuInteract、OmniDrive等现有资源中的标注,并对视觉定位等任务的输出格式进行了统一化处理,最终构建出包含约190万训练样本与35.8万测试样本的大规模语料库。
使用方法
为有效利用该数据集,研究者需按照其提供的目录结构组织数据,其中包含按任务划分的多个子数据集。使用前应仔细阅读各子数据集对应的详细说明文档,以理解不同任务的数据格式与标注规范。对于模型训练与评估,可通过加载预定义的JSON文件来获取样本,每个样本均关联了图像、三维高斯特征文件及相应的问答标注。该数据集设计用于支持端到端的自动驾驶世界模型训练,能够直接服务于三维高斯特征与大型语言模型的跨模态对齐、场景理解以及多模态生成等一系列前沿研究任务。
背景与挑战
背景概述
在自动驾驶技术迅猛发展的背景下,三维场景的精确理解与生成成为关键研究课题。Large-scale 3DGS-QA Dataset于2025年由GaussianDWM研究团队创建,旨在构建首个大规模、将三维高斯溅射特征与多样化驾驶问答任务相结合的数据资源。该数据集基于nuScenes基准,并利用LangSplat技术提取语言对齐的三维高斯特征,涵盖了场景理解、轨迹预测与多模态推理等核心问题。其约190万训练样本与35.8万测试样本的规模,为驱动世界模型的统一框架提供了坚实的数据基础,显著推动了自动驾驶领域向更高效、更智能的跨模态认知方向发展。
当前挑战
该数据集致力于解决自动驾驶领域三维场景理解与生成的统一建模挑战,其核心在于如何实现密集三维表征与语言语义的高效对齐,并支持从感知到决策的端到端任务。在构建过程中,研究团队面临多重困难:首先,从原始传感器数据中提取并标准化语言对齐的三维高斯特征,需克服几何与语义信息的融合偏差;其次,整合多源异构数据(如NuInteract、OmniDrive及轨迹预测数据)时,需确保任务格式的统一与标注质量的一致性;此外,处理大规模点云与图像的多视图对应关系,以及设计平衡数据量与多样性的预测时间跨度,均对数据集的可靠性与泛化能力提出了严峻考验。
常用场景
经典使用场景
在自动驾驶领域,三维场景的语义理解与推理是核心挑战之一。Large-scale 3DGS-QA Dataset通过将nuScenes数据集中的多视角图像与经过LangSplat处理得到的语言对齐3D高斯特征相结合,构建了大规模、多样化的驾驶场景问答对。该数据集最经典的使用场景是训练和评估端到端的自动驾驶世界模型,例如GaussianDWM框架,使其能够基于密集的3D高斯表征,执行从二维/三维视觉定位、区域描述与预测到密集场景描述、多视角规划推理等一系列复杂的语言引导任务,从而实现对驾驶环境的深度理解与交互。
解决学术问题
该数据集旨在解决自动驾驶研究中多模态对齐与场景理解的关键学术问题。传统方法往往依赖离散的感知模块与独立的规划器,难以实现统一的、基于语义的时空推理。本数据集通过提供海量的3D高斯特征与结构化语言标注的配对样本,为构建能够同时处理视觉、语言与三维几何信息的统一模型奠定了数据基础。它有效地弥合了稠密三维场景表征与高层语义任务之间的鸿沟,推动了面向开放世界理解的、具身智能体研究范式的演进。
实际应用
在实际应用层面,该数据集支撑的模型能力可直接转化为高级驾驶辅助系统与全自动驾驶系统的核心功能。例如,基于其训练的模型能够准确回答关于交通参与者状态、可行驶区域、潜在风险与驾驶决策的复杂问题,赋能更智能、更可解释的人机共驾交互。同时,其包含的轨迹预测数据与多模态生成能力,为预测其他道路使用者的未来行为、进行安全轨迹规划以及合成用于算法测试的逼真仿真场景提供了关键支持,加速了自动驾驶系统的开发、验证与部署流程。
数据集最近研究
最新研究方向
在自动驾驶领域,三维场景理解与生成正经历从传统点云向高效神经表示的范式转变。Large-scale 3DGS-QA Dataset作为首个大规模融合3D高斯特征与多样化驾驶问答任务的数据集,其前沿研究聚焦于构建统一的世界模型框架。该数据集通过语言引导的采样策略,从密集的3D高斯表示中提取任务相关特征,有效解决了特征对齐与信息过载的难题,从而支撑了涵盖视觉定位、轨迹预测与多轮对话的复杂推理任务。相关研究进一步探索如何利用提取的世界知识,驱动生成模型进行精准的时空场景合成,将场景理解与多模态生成无缝衔接,为端到端自动驾驶系统的认知与决策能力提供了关键的数据基石。
以上内容由遇见数据集搜集并总结生成



