MMS-VPR

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR

下载链接

链接失效反馈

官方服务：

资源简介：

MMS-VPR：多模态街景视觉位置识别数据集是一个新颖的、开放访问的数据集，旨在推进视觉位置识别和城市多模态场景理解的研究。该数据集专注于复杂、细粒度的仅限行人的城市环境，填补了现有视觉位置识别数据集的空白，这些数据集通常依赖道路网络中的车载影像，并忽略了密集、可步行的空间，特别是在非西方城市环境中。

创建时间：

2025-05-10

原始信息汇总

MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset 概述

基本信息

语言: 英文 (en)
许可协议: CC BY 4.0
多语言支持: 单语 (monolingual)
数据规模: 100K < n < 1M
任务类别: 图像分类、文本检索
标签: Place Recognition

数据集描述

MMS-VPR 是一个新颖的、开放访问的多模态街级视觉地点识别数据集，专注于复杂、细粒度和仅供行人使用的城市环境。数据集在中国成都的一个约70,800平方米的露天商业区收集，包含：

747 个智能手机录制的视频（1Hz帧提取）
1,417 张手动拍摄的图像
78,581 张总图像和帧，标注了 207 个独特的地点类别

数据集结构

1. Raw_Files (~90 GB, 2,164 文件)

Photos/: 超过1,400张高分辨率照片
Videos/: 超过700个手持移动摄像头录制的视频
- 图像分辨率: 4032 × 3024
- 视频分辨率: 1920 × 1080

2. Annotated_Original (~38 GB, 162,186 文件)

Dataset_Full/: 完整数据集
Sub-Dataset_Edges/: 仅包含边缘空间（街道段）
Sub-Dataset_Points/: 包含节点空间（交叉口）和广场
- 每个数据集变体包含三种模态: Images/, Videos/, Texts/

3. Annotated_Resized (~4 GB, 162,186 文件)

图像和视频帧的分辨率降低:
- 原始图像 (4032×3024) 调整为 256×192
- 视频帧 (1920×1080) 调整为 256×144

子数据集

Sub-Dataset_Edges (125 类): 水平和垂直街道段
Sub-Dataset_Points (82 类): 交叉口和广场

文件下载与重建

数据集被分割为多个压缩文件:

Raw_Files.part01.tar.gz
Raw_Files.part02.tar.gz
Raw_Files.part03.tar.gz
Annotated_Original.tar.gz
Annotated_Resized.tar.gz

使用建议

推荐下载调整大小后的版本 (Annotated_Resized.tar.gz) 以进行快速训练和实验
对于高保真测试或自定义处理，使用完整分辨率版本或原始文件

数据集总结

数据集版本	大小	文件数量
Raw Files	~90 GB	2,164
Annotated_Original	~38 GB	162,186
Annotated_Resized	~4 GB	162,186

许可与引用

许可协议: Creative Commons Attribution 4.0 International (CC BY 4.0)
引用: 请引用NeurIPS 2025 Datasets and Benchmarks提交（接受后添加引用）

搜集汇总

数据集介绍

构建方式

MMS-VPR数据集作为视觉地点识别领域的重要资源，其构建过程体现了严谨的科学方法论。研究团队在中国成都约70,800平方米的商业步行区，采用智能手机采集了747段视频（1Hz帧提取）和1,417张高分辨率图像，最终形成包含78,581个标注样本的多模态数据集。数据采集过程严格遵循标准化协议，涵盖全天候光照条件（7:00-22:00）和多重拍摄角度（东西南北向），并辅以精确的GPS坐标和人工校验标注。数据集创新性地保留了城市空间的图结构特征，包含61条水平街道、64条垂直街道及81个交叉节点，为图神经网络等结构化学习方法提供了天然试验场。

使用方法

为适应不同计算需求，数据集提供原始（90GB）、标准标注（38GB）和压缩版（4GB）三种规格。研究者可通过HuggingFace平台获取经尺寸优化的Annotated_Resized版本快速开展实验，使用tar命令解压后即可获得结构化的图像、视频及文本标注文件。数据集目录按空间类型（水平/垂直街道、节点、广场）分层组织，配套的Excel文件包含完整的元数据和地点索引。对于需要高保真数据的研究，建议结合原始视频文件与Media_Metadata系列表格进行深度分析，而图结构可视化文件则为空间关系建模提供了直观参考。

背景与挑战

背景概述

MMS-VPR数据集作为一项专注于视觉地点识别（VPR）与多模态城市场景理解的前沿资源，由研究团队在成都某开放式商业区系统性采集而成，填补了现有数据集中以车辆视角为主导、忽视步行空间与非西方城市语境的空白。该数据集包含智能手机拍摄的747段视频与1,417张手工采集图像，通过1Hz帧提取与人工标注形成78,581条数据，涵盖207个精细地点类别（如街道段、交叉口、广场），并创新性地融入了GPS元数据、时间戳及空间图结构信息。其设计突破了传统VPR数据集的单一模态局限，为图神经网络推理、多模态时空分析等研究提供了标准化测试平台。

当前挑战

构建MMS-VPR面临的核心挑战体现在两方面：领域层面，步行密集区的视觉识别需解决视角多变（行人手持设备抖动）、光照条件复杂（昼夜跨度采集）以及细粒度分类（207类空间语义区分）等难题；技术层面，数据采集需协调多设备同步性（确保时空对齐）、人工标注一致性（跨207类别的标签校验），以及原始视频帧到图结构映射的几何精度控制（61条水平/64条垂直街道边缘的拓扑关系构建）。此外，90GB原始数据的分布式存储与38GB标注版本的质量平衡，也对计算资源优化提出了实践性挑战。

常用场景

经典使用场景

在视觉地点识别（VPR）领域，MMS-VPR数据集因其多模态特性和精细的街级标注而成为经典。研究者常利用其丰富的图像、视频和文本数据，结合GPS元数据和时空信息，开发跨模态检索算法。该数据集特别适用于评估模型在复杂步行环境中的表现，如商业区、交叉路口等场景下的地点匹配任务，为多传感器融合方法提供了基准平台。

解决学术问题

该数据集有效解决了传统VPR研究中的三大局限：车辆视角偏差、西方城市中心主义以及单模态数据匮乏。通过包含207个精细地点类别和全天候采集策略，支持了光照鲁棒性、跨视角不变性等关键问题的研究。其内在的图结构特性更推动了时空推理、图神经网络在场景理解中的应用，为城市计算领域提供了新的研究范式。

实际应用

在城市导航系统中，MMS-VPR支持开发更精准的步行者导向定位服务。其多模态特性可增强AR导航应用的场景理解能力，而包含中文商业区数据的特色，为本地化服务提供了测试平台。物流机器人领域也可利用其密集节点数据优化最后一公里路径规划，特别是在高密度城市环境中的空间认知。

数据集最近研究