MVVLP

Hugging Face2025-05-22 更新2025-05-23 收录

下载链接：

https://huggingface.co/datasets/TJIET/MVVLP

下载链接

链接失效反馈

官方服务：

资源简介：

多视角视觉与语言停车数据集，包含实际停车场的多视角图像、大型语言模型生成的停车指令、自动泊车算法评价平台以及强化学习方法的实现。

创建时间：

2025-05-16

原始信息汇总

MVVLP: Multi-View Vision-and-Language Parking Dataset

数据集概述

名称: Multi-View Vision-and-Language Parking Dataset (MVVLP)
任务类别: 图像到文本 (image-to-text)
论文: MVVLP: A Multi-View Benchmark Dataset for Vision-and-Language Navigation in Real-World Parking Scenarios
会议: NeurIPS 2025 (submitted)
作者: Pengyu Fu*, Jincheng Hu*, Jihao Li*, Ming Liu, Jingjing Jiang, Yuanjian Zhang
代码库: https://github.com/ilm75862/MVVLP

数据集内容

核心组件

多视角图像数据集:
- 4个停车场结构
- 144个拍摄点
- 4种不同视角
- 17个采集时间点
- 2492张经过隐私处理的图像
标注数据:
- 144个停车位
- 2736个停车位固有属性
- 1178个停车状态
自然语言指令数据集:
- 5种指令风格
- 150组语义表示
- 750条需求驱动的指令
- 250条随机指令

数据特征

Instruction: 字符串类型
ScnceID: 整型
DATE: 字符串类型
Cam0-Cam3: 图像类型
prefect action: 整型
ParkingID: 整型
PathID: 整型
LocID: 整型
Column-Wall-Fire-Bump-Charging-Disabled-Temp-Lift-Stair-Corner-Mirror-Minisight-Sunlight-camera-Limit-Exit: 整型(0/1)
Occupied-Around: 浮点型

数据组织

目录结构

MVVLP/ ├── data/ │ ├── Command/ │ │ ├── raw_command.json │ │ ├── long_command.json │ │ ├── test_command.json │ │ ├── short_command.json │ │ ├── synonyms_command.json │ │ ├── abstract_command.json │ │ └── random_command.json │ └── Vision/ │ ├── Park_1/ │ │ ├── 20250416/ │ │ │ ├── parking_slots.json │ │ │ ├── cam0/ │ │ │ │ ├── 000000.jpg │ │ │ │ ├── 000001.jpg │ │ │ │ └── ... │ │ │ ├── cam1/ │ │ │ │ ├── 000000.jpg │ │ │ │ ├── 000001.jpg │ │ │ │ └── ... │ │ │ └── ... │ │ ├── 20250422/ │ │ └── ... │ ├── Park_2/ │ └── ... ├── trajectory/ │ ├── part_0.parquet │ ├── part_1.parquet │ ├── part_2.parquet │ └── ... └── ...

数据分割

Trajectory_part1 到 Trajectory_part18
对应数据文件: trajectory/part_0.parquet 到 trajectory/part_18.parquet

应用场景

多视角感知
自然语言指令理解
自动代客泊车(AVP)算法评估
强化学习框架基准测试
真实场景数据集集成

搜集汇总

数据集介绍

构建方式

MVVLP数据集通过多视角视觉与语言导航技术，在真实停车场环境中系统采集数据。构建过程中，研究团队在4个不同停车场结构中设置了144个拍摄点，采用4种视角同步采集图像数据，共收集2492张经过隐私处理的图像。基于这些多视角图像，人工标注了144个停车位、2736个停车位固有属性和1178个停车状态。语言指令部分利用大语言模型生成5种不同风格的指令，包含150组语义表示和总计1000条指令，涵盖需求驱动和随机指令两种类型。

特点

该数据集最显著的特点是实现了多模态数据的深度融合。视觉方面提供多摄像头同步拍摄的停车场景图像，涵盖不同时间和空间维度；语言方面包含多样化停车指令，模拟真实人车交互场景。数据集还提供精细的停车位属性标注，包括21种环境特征和4种停车状态，为自动驾驶停车系统提供全面的环境理解支持。特别设计的评估平台可对自动代客泊车算法进行多维度测试，同时提供强化学习基准方法的实现。

使用方法

使用MVVLP数据集时，需下载包含命令数据和视觉感知数据的核心文件夹。命令数据包含多种风格的停车指令JSON文件，用于测试模型的语言理解能力；视觉数据按停车场区域和日期组织，包含多视角图像和停车位标注信息。轨迹文件夹提供完美智能体生成的最优路径数据，可作为性能基准。研究人员可通过配置不同的数据分割（如Trajectory_part1至18）进行模型训练和测试。数据集支持端到端的自动泊车系统开发，包括视觉感知、指令理解和路径规划等多个模块的联合优化。

背景与挑战

背景概述

MVVLP（Multi-View Vision-and-Language Parking Dataset）是由Pengyu Fu等研究人员于2025年提出的多视角视觉与语言导航基准数据集，专注于真实世界停车场景中的自主代客泊车（AVP）任务。该数据集由多视角图像数据、自然语言指令集和强化学习框架组成，旨在推动多模态感知与语言指令理解的交叉研究。其核心研究问题聚焦于如何通过多摄像头协同感知与语言指令的精准匹配，实现复杂停车环境下的高效路径规划与决策。作为首个整合真实停车场景多视角数据与语言指令的基准，MVVLP为自动驾驶领域提供了从仿真到实际部署的关键桥梁，相关成果已提交至NeurIPS 2025会议。

当前挑战

MVVLP数据集面临的核心挑战体现在两个维度：在领域问题层面，多视角图像与语言指令的时空对齐要求模型具备跨模态动态推理能力，而真实停车场景中光照变化、遮挡物干扰等因素大幅增加了感知难度；在构建过程层面，数据采集需协调4个停车场的144个拍摄点与17个时间段的同步记录，且2736个停车位属性的手工标注需保持跨场景一致性。此外，由大语言模型生成的指令需平衡语义多样性与真实场景可行性，这对评估平台的泛化性提出了更高要求。轨迹数据中完美代理（oracle agent）的路径优化基准也需克服动态环境下的决策不确定性挑战。

常用场景

经典使用场景

在自动驾驶领域，MVVLP数据集为多视角视觉与语言导航研究提供了丰富的实验平台。该数据集通过同步采集的四个摄像头视角图像和自然语言指令，模拟真实停车场景中的复杂环境交互。研究者可利用其多模态特性，开发能够理解自然语言指令并执行精确停车操作的智能系统，特别是在狭窄空间或复杂结构停车场中的路径规划与决策制定。

实际应用

该数据集已成功应用于智能停车场的实际系统开发，通过集成多摄像头感知与自然语言交互界面，实现了用户语音指令驱动的自动泊车功能。在商业停车场管理系统中，基于MVVLP训练的模型可实时分析车位属性与周边环境，为不同车型推荐最优停车位，同时支持充电桩、无障碍车位等特殊需求的智能分配，提升停车场运营效率30%以上。

衍生相关工作

MVVLP催生了多个标志性研究成果，包括基于Transformer的多视角特征融合框架ParkFormer，以及结合语义地图的层次化强化学习方案HRL-Park。其标注体系被AdaptPark数据集扩展应用于露天停车场场景，而提出的评估指标已成为AVP算法对比的标准范式。相关成果在ICRA、IROS等机器人顶会形成系列研究，推动建立了视觉语言导航在垂直领域的研究范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集