MMS-VPR

Name: MMS-VPR
Creator: 奥克兰大学
Published: 2025-05-18 14:21:13
License: 暂无描述

arXiv2025-05-18 更新2025-05-21 收录

下载链接：

https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR

下载链接

链接失效反馈

官方服务：

资源简介：

MMS-VPR是一个大型多模态数据集，用于复杂、行人专用环境中的街道级位置识别。该数据集包含78,575张注释图像和2,512个视频剪辑，跨越中国成都约70,800平方米的开放式商业区中的207个地点。每张图像都标注有精确的GPS坐标、时间戳和文本元数据，涵盖了不同的光照条件、视角和时间框架。数据集遵循系统和可复制的数据收集协议，降低了可扩展数据集创建的门槛。重要的是，该数据集形成一个固有的空间图，具有125个边缘、81个节点和1个子图，使结构感知位置识别成为可能。我们进一步定义了两个特定于应用程序的子集——Dataset_Edges和Dataset_Points，以支持细粒度和基于图的评估任务。使用传统VPR模型、图神经网络和多模态基线的广泛基准测试表明，利用多模态和结构线索可以获得显着改进。MMS-VPR促进了计算机视觉、地理空间理解和多模态推理交叉领域的未来研究。该数据集可在https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR公开获取。

MMS-VPR is a large-scale multimodal dataset designed for street-level place recognition in complex, pedestrian-only environments. This dataset contains 78,575 annotated images and 2,512 video clips, spanning 207 locations across an open commercial area of approximately 70,800 square meters in Chengdu, China. Each image is annotated with precise GPS coordinates, timestamps, and textual metadata, covering diverse lighting conditions, viewpoints, and temporal frames. The dataset follows a systematic and reproducible data collection protocol, lowering the barrier to scalable dataset creation. Importantly, the dataset forms an inherent spatial graph with 125 edges, 81 nodes, and 1 subgraph, enabling structure-aware place recognition. We further define two application-specific subsets, Dataset_Edges and Dataset_Points, to support fine-grained and graph-based evaluation tasks. Extensive benchmarking using traditional VPR models, graph neural networks, and multimodal baselines demonstrates that leveraging multimodal and structural cues yields significant performance improvements. MMS-VPR facilitates future research at the intersection of computer vision, geospatial understanding, and multimodal reasoning. This dataset is publicly available at https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR.

提供机构：

奥克兰大学

创建时间：

2025-05-18

搜集汇总

数据集介绍

构建方式

MMS-VPR数据集通过系统化的数据采集协议构建，涵盖了中国成都太古里商业区的207个地点，包含78,575张标注图像和2,512段视频片段。数据采集使用智能手机设备，遵循四个方向（东、西、南、北）、两种拍摄视角（0°和45°）以及两个时间段（白天和夜晚）的原则，确保数据多样性和全面性。每个图像和视频均标注了精确的GPS坐标、时间戳和文本元数据，并通过地理信息系统（GIS）和图形结构知识进行严格标注。

使用方法

MMS-VPR数据集的使用方法包括加载标注数据集、预处理多模态输入（如图像特征、视频嵌入和文本注释），并训练和评估模型。数据集支持传统的视觉地点识别模型、图神经网络和多模态基线模型的基准测试。用户可以通过提供的代码库（MMS-VPRlib）进行模型训练和评估，代码库包含多种经典和深度学习模型的实现。数据集适用于研究多模态感知、空间推理和城市信息学等领域。

背景与挑战

背景概述

MMS-VPR（Multimodal Street-Level Visual Place Recognition Dataset and Benchmark）是由奥克兰大学和湖南大学的研究团队于2025年提出的一个大规模多模态街景地点识别数据集。该数据集针对现有视觉地点识别（VPR）数据集的局限性，专注于复杂、仅供行人通行的商业街区环境，填补了非西方城市背景下密集混合用途街景空间的空白。MMS-VPR包含来自中国成都太古里商业区的78,575张标注图像和2,512个视频片段，覆盖207个地理位置，总面积约70,800平方米。数据集创新性地整合了图像、视频、文本描述和地理空间元数据等多模态信息，并构建了包含125条边、81个节点和1个子图的固有空间图结构，支持结构化地点识别研究。

当前挑战

MMS-VPR面临的挑战主要包括两个方面：在领域问题层面，传统VPR方法难以处理密集商业街区中视觉相似但语义不同的场景，以及昼夜光照条件剧烈变化带来的视觉差异；在构建过程层面，研究团队需要克服多模态数据（图像、视频、文本、GPS）的时空对齐难题，设计可扩展的数据采集协议以覆盖复杂街景空间，并建立系统的地点编码体系来表征空间图结构。此外，确保数据在多样化视角、光照条件和时间段的平衡分布，同时维持标注精度与一致性，也是构建过程中的重要挑战。

常用场景

经典使用场景

MMS-VPR数据集在视觉地点识别（VPR）领域具有广泛的应用场景，特别是在复杂、行人密集的开放商业区域。该数据集通过多模态数据（图像、视频和文本元数据）的整合，为研究者提供了一个全面的基准，用于开发和评估VPR模型。其经典使用场景包括跨模态地点识别、行人视角导航系统、光照鲁棒的地点识别以及精细化的地理定位任务。

解决学术问题

MMS-VPR数据集解决了现有VPR数据集在模态单一性、行人视角覆盖不足以及光照变化处理方面的局限性。通过提供丰富的多模态数据和系统化的数据收集协议，该数据集支持研究者开发更鲁棒的VPR模型，特别是在非西方城市背景下的密集商业区域。此外，其内置的空间图结构为结构感知的地点识别提供了新的研究方向。

实际应用

在实际应用中，MMS-VPR数据集可用于增强现实（AR）导航系统、城市空间分析和行人流量监控。其多模态特性使得系统能够结合视觉和语义信息，提升在复杂环境中的定位精度。例如，商业区内的店铺导航和游客导览系统可以借助该数据集提供的丰富信息，实现更精准的地点识别和路径规划。

数据集最近研究