NuInteract

Name: NuInteract
Creator: 华中科技大学
Published: 2025-05-14 00:36:51
License: 暂无描述

arXiv2025-05-14 更新2025-05-15 收录

下载链接：

https://github.com/zc-zhao/DriveMonkey

下载链接

链接失效反馈

官方服务：

资源简介：

NuInteract是一个大规模的数据集，包含超过150万对多视角图像语言对，涵盖密集的场景描述和多样的交互式驾驶任务。数据集包含239K张图像，34K帧，以及850个场景中的超过150万对图像-语言对。数据集的生成过程基于nuScenes数据集，通过自动化标注流程高效生成密集的环境描述和各种基于语言的交互式驾驶任务数据。NuInteract数据集旨在解决现有视觉-语言模型在自动驾驶场景中环境感知不足和3D感知不足的问题，为视觉-语言模型的训练和自动驾驶任务的执行提供支持。

NuInteract is a large-scale dataset comprising over 1.5 million multi-view image-language pairs, covering dense scene descriptions and diverse interactive driving tasks. It consists of 239K images, 34K frames, and over 1.5 million image-language pairs distributed across 850 scenarios. Generated based on the nuScenes dataset, this dataset employs an automated annotation pipeline to efficiently produce dense environmental descriptions and various language-based interactive driving task data. NuInteract is designed to address the limitations of existing vision-language models in terms of environmental and 3D perception for autonomous driving scenarios, providing support for the training of such models and the execution of autonomous driving tasks.

提供机构：

华中科技大学

创建时间：

2025-05-14

原始信息汇总

DriveMonkey数据集概述

数据集基本信息

名称：NuInteract Dataset
基础数据集：基于nuScene构建
数据规模：
- 239K图像（每帧包含6个单视图图像和1个环绕视图图像）
- 1.3M多样化交互式语言任务数据
- 总计1.5M图像-文本对

数据组成

密集标注(Dense Caption)

数据来源：
- nuScene的Ground Truth
- GRiT提取的边界框及对象描述
- SAM分割识别对象+BLIP描述
处理流程：
- 通过IoU和ITM标准过滤
- 使用Gemini生成密集标注
下载文件：cap_public.tar.gz
文件结构：

all_caption_public/ ├── 0a0d1f7700da446580874d7d1e9fce51.json ├── ... └── token_name.json
使用工具：load_dense_caption.py（转换为InternVL数据格式）

多样化交互任务

任务类型：
- 2D区域描述
- 2D视觉定位
- 预测
- 规划
- 3D视觉定位
下载文件：NuInteract.zip
文件结构：

NuInteract/ ├── train/ │ ├── 2D Visual Grounding.pkl │ ├── ... └── test/ ├── 2D Region Description Prediction and Visual Grounding.pkl ├── ...
数据格式：InternVL对话格式

致谢

基于InternVL和nuScene构建

搜集汇总

数据集介绍

构建方式

NuInteract数据集的构建采用了自动化标注流程，基于nuScenes数据集扩展而来。通过整合多视角图像和语言对，该数据集涵盖了850个场景中的34K帧和239K图像，生成了超过1.5M的图像-语言对。构建过程中，首先从nuScenes中提取基础信息，再通过区域到文本模型和分割模型补充对象描述，最后通过Gemini-Pro生成密集场景描述和多样化交互任务数据。整个流程无需人工干预，确保了数据的高效生成和质量。

使用方法

NuInteract数据集适用于训练和评估视觉-语言模型在自动驾驶场景中的综合理解能力。用户可通过多视角图像和语言对进行模型训练，特别适用于3D视觉定位和密集场景描述任务。数据集支持端到端的模型训练，也可用于特定任务的微调，如预测和规划。其结构化标注便于直接用于模型输入和输出验证，推动了自动驾驶领域多模态研究的发展。

背景与挑战

背景概述

NuInteract是由华中科技大学与小米EV团队于2025年提出的自动驾驶多模态交互数据集，旨在解决现有视觉语言大模型（LVLM）在三维空间感知与多视角环境理解方面的局限性。该数据集基于nuScenes基准构建，包含850个场景的34K帧数据、239K张多视角图像及150万组图像-语言对，覆盖密集场景描述、2D/3D视觉定位、行为预测与路径规划等任务。其创新性体现在首次实现了多视角图像与三维空间坐标的自然语言对齐，并通过自动化标注流程显著提升了数据规模与多样性，为自动驾驶系统的环境理解与决策推理提供了重要基准。

当前挑战

NuInteract针对两大核心挑战展开：在领域问题层面，需突破传统LVLM对单视角图像的依赖，解决多视角融合下的三维视觉定位难题，如将2D像素坐标与3D空间位置建立精确映射；在构建层面，面临跨模态数据对齐的复杂性，包括多专家模型（检测/分割/描述模型）生成信息的冗余过滤、三维几何信息到自然语言的精确转换，以及自动化标注流程中图像-文本匹配的语义一致性保障。实验表明，即使先进LVLM在3D视觉定位任务上的mAP仍落后专用检测器9.86%，凸显空间推理能力与语言理解的融合难度。

常用场景

经典使用场景

NuInteract数据集在自动驾驶领域的大规模视觉-语言模型（LVLM）研究中具有重要应用。该数据集通过多视角图像和语言对的结合，支持密集场景描述和多样化的交互任务，如3D视觉定位、预测和规划。其多视角特性使得模型能够全面理解车辆周围环境，从而提升自动驾驶系统的环境感知能力。

解决学术问题

NuInteract数据集解决了现有研究中单视角图像和部分对象关注的局限性，通过提供多视角图像和密集场景描述，显著提升了模型的全面场景理解能力。此外，该数据集通过引入3D视觉定位任务，弥补了传统LVLM在3D感知能力上的不足，为自动驾驶领域的多模态研究提供了重要支持。

实际应用

在实际应用中，NuInteract数据集被广泛用于训练和评估自动驾驶系统中的视觉-语言模型。其丰富的多视角图像和语言对能够帮助模型在实际驾驶场景中执行复杂的交互任务，如环境描述、物体定位和驾驶规划，从而提升自动驾驶系统的安全性和可靠性。

数据集最近研究