MMS-VPR
收藏Hugging Face2025-05-15 更新2025-05-16 收录
下载链接:
https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR
下载链接
链接失效反馈官方服务:
资源简介:
MMS-VPR:多模态街景视觉位置识别数据集是一个新颖的、开放访问的数据集,旨在推进视觉位置识别和城市多模态场景理解的研究。该数据集专注于复杂、细粒度的仅限行人的城市环境,填补了现有视觉位置识别数据集的空白,这些数据集通常依赖道路网络中的车载影像,并忽略了密集、可步行的空间,特别是在非西方城市环境中。
创建时间:
2025-05-10
原始信息汇总
MMS-VPR: Multimodal Street-Level Visual Place Recognition Dataset 概述
基本信息
- 语言: 英文 (en)
- 许可协议: CC BY 4.0
- 多语言支持: 单语 (monolingual)
- 数据规模: 100K < n < 1M
- 任务类别: 图像分类、文本检索
- 标签: Place Recognition
数据集描述
MMS-VPR 是一个新颖的、开放访问的多模态街级视觉地点识别数据集,专注于复杂、细粒度和仅供行人使用的城市环境。数据集在中国成都的一个约70,800平方米的露天商业区收集,包含:
- 747 个智能手机录制的视频(1Hz帧提取)
- 1,417 张手动拍摄的图像
- 78,581 张总图像和帧,标注了 207 个独特的地点类别
数据集结构
1. Raw_Files (~90 GB, 2,164 文件)
Photos/: 超过1,400张高分辨率照片Videos/: 超过700个手持移动摄像头录制的视频- 图像分辨率: 4032 × 3024
- 视频分辨率: 1920 × 1080
2. Annotated_Original (~38 GB, 162,186 文件)
Dataset_Full/: 完整数据集Sub-Dataset_Edges/: 仅包含边缘空间(街道段)Sub-Dataset_Points/: 包含节点空间(交叉口)和广场- 每个数据集变体包含三种模态:
Images/,Videos/,Texts/
- 每个数据集变体包含三种模态:
3. Annotated_Resized (~4 GB, 162,186 文件)
- 图像和视频帧的分辨率降低:
- 原始图像 (4032×3024) 调整为 256×192
- 视频帧 (1920×1080) 调整为 256×144
子数据集
- Sub-Dataset_Edges (125 类): 水平和垂直街道段
- Sub-Dataset_Points (82 类): 交叉口和广场
文件下载与重建
数据集被分割为多个压缩文件:
Raw_Files.part01.tar.gzRaw_Files.part02.tar.gzRaw_Files.part03.tar.gzAnnotated_Original.tar.gzAnnotated_Resized.tar.gz
使用建议
- 推荐下载调整大小后的版本 (
Annotated_Resized.tar.gz) 以进行快速训练和实验 - 对于高保真测试或自定义处理,使用完整分辨率版本或原始文件
数据集总结
| 数据集版本 | 大小 | 文件数量 |
|---|---|---|
| Raw Files | ~90 GB | 2,164 |
| Annotated_Original | ~38 GB | 162,186 |
| Annotated_Resized | ~4 GB | 162,186 |
许可与引用
- 许可协议: Creative Commons Attribution 4.0 International (CC BY 4.0)
- 引用: 请引用NeurIPS 2025 Datasets and Benchmarks提交(接受后添加引用)
搜集汇总
数据集介绍

构建方式
MMS-VPR数据集作为视觉地点识别领域的重要资源,其构建过程体现了严谨的科学方法论。研究团队在中国成都约70,800平方米的商业步行区,采用智能手机采集了747段视频(1Hz帧提取)和1,417张高分辨率图像,最终形成包含78,581个标注样本的多模态数据集。数据采集过程严格遵循标准化协议,涵盖全天候光照条件(7:00-22:00)和多重拍摄角度(东西南北向),并辅以精确的GPS坐标和人工校验标注。数据集创新性地保留了城市空间的图结构特征,包含61条水平街道、64条垂直街道及81个交叉节点,为图神经网络等结构化学习方法提供了天然试验场。
使用方法
为适应不同计算需求,数据集提供原始(90GB)、标准标注(38GB)和压缩版(4GB)三种规格。研究者可通过HuggingFace平台获取经尺寸优化的Annotated_Resized版本快速开展实验,使用tar命令解压后即可获得结构化的图像、视频及文本标注文件。数据集目录按空间类型(水平/垂直街道、节点、广场)分层组织,配套的Excel文件包含完整的元数据和地点索引。对于需要高保真数据的研究,建议结合原始视频文件与Media_Metadata系列表格进行深度分析,而图结构可视化文件则为空间关系建模提供了直观参考。
背景与挑战
背景概述
MMS-VPR数据集作为一项专注于视觉地点识别(VPR)与多模态城市场景理解的前沿资源,由研究团队在成都某开放式商业区系统性采集而成,填补了现有数据集中以车辆视角为主导、忽视步行空间与非西方城市语境的空白。该数据集包含智能手机拍摄的747段视频与1,417张手工采集图像,通过1Hz帧提取与人工标注形成78,581条数据,涵盖207个精细地点类别(如街道段、交叉口、广场),并创新性地融入了GPS元数据、时间戳及空间图结构信息。其设计突破了传统VPR数据集的单一模态局限,为图神经网络推理、多模态时空分析等研究提供了标准化测试平台。
当前挑战
构建MMS-VPR面临的核心挑战体现在两方面:领域层面,步行密集区的视觉识别需解决视角多变(行人手持设备抖动)、光照条件复杂(昼夜跨度采集)以及细粒度分类(207类空间语义区分)等难题;技术层面,数据采集需协调多设备同步性(确保时空对齐)、人工标注一致性(跨207类别的标签校验),以及原始视频帧到图结构映射的几何精度控制(61条水平/64条垂直街道边缘的拓扑关系构建)。此外,90GB原始数据的分布式存储与38GB标注版本的质量平衡,也对计算资源优化提出了实践性挑战。
常用场景
经典使用场景
在视觉地点识别(VPR)领域,MMS-VPR数据集因其多模态特性和精细的街级标注而成为经典。研究者常利用其丰富的图像、视频和文本数据,结合GPS元数据和时空信息,开发跨模态检索算法。该数据集特别适用于评估模型在复杂步行环境中的表现,如商业区、交叉路口等场景下的地点匹配任务,为多传感器融合方法提供了基准平台。
解决学术问题
该数据集有效解决了传统VPR研究中的三大局限:车辆视角偏差、西方城市中心主义以及单模态数据匮乏。通过包含207个精细地点类别和全天候采集策略,支持了光照鲁棒性、跨视角不变性等关键问题的研究。其内在的图结构特性更推动了时空推理、图神经网络在场景理解中的应用,为城市计算领域提供了新的研究范式。
实际应用
在城市导航系统中,MMS-VPR支持开发更精准的步行者导向定位服务。其多模态特性可增强AR导航应用的场景理解能力,而包含中文商业区数据的特色,为本地化服务提供了测试平台。物流机器人领域也可利用其密集节点数据优化最后一公里路径规划,特别是在高密度城市环境中的空间认知。
数据集最近研究
最新研究方向
随着城市化进程的加速和智能移动设备的普及,基于多模态数据的视觉地点识别(VPR)研究正成为计算机视觉与城市计算领域的前沿热点。MMS-VPR数据集以其独特的行人视角、精细的空间图结构标注和完整的时间跨度,为复杂城市场景下的多模态表征学习提供了新的研究范式。当前该数据集主要应用于三个方向:基于图神经网络的时空关系建模,通过街景图像与GPS元数据的跨模态对齐实现鲁棒的地点识别;光照不变性特征学习,利用全天候采集数据解决低光照条件下的视觉定位难题;以及面向非西方城市形态的通用VPR算法评估,填补了现有研究在密集步行街区的空白。该数据集的发布直接响应了自动驾驶、AR导航等产业对高精度城市语义地图的需求,其科学化的采集框架也为后续众包式地理数据集建设提供了可复用的方法论参考。
以上内容由遇见数据集搜集并总结生成



