Multimodal_Street-level_Place_Recognition_Dataset

Hugging Face2025-05-11 更新2025-05-12 收录

下载链接：

https://huggingface.co/datasets/Yiwei-Ou/Multimodal_Street-level_Place_Recognition_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

多模态街景识别数据集，专注于视觉地方识别和城市场景理解的研究。收集于中国成都一个约70,800平方米的露天商业区，包括747个智能手机录制的视频、1417张手动捕获的图片和78581个带有人类验证注释的图像和帧，涵盖207个独特的地方类别。数据集具有自然的图结构，适用于图基学习任务，如基于GNN的推理，以及多模态、时空和结构感知推理。

创建时间：

2025-05-10

原始信息汇总

Multimodal Street-level Place Recognition Dataset 概述

数据集简介

目的：推动视觉地点识别（VPR）和多模态城市场景理解的研究。
特点：
- 专注于复杂、细粒度、行人专用的城市环境。
- 填补现有VPR数据集的空白，尤其是非西方城市环境中的密集可步行空间。
采集地点：中国成都市约70,800平方米的露天商业区。

数据集内容

数据量：
- 747个智能手机录制的视频（1Hz帧提取）。
- 1,417张手动拍摄的图像。
- 78,581张总图像和帧，标注了207个独特的地点类别（如街道段、交叉口、广场）。
元数据：
- 精确的GPS元数据（纬度、经度、海拔）。
- 细粒度的时间戳。
- 人工验证的类别一致性标注。
采集协议：
- 多相机方向（北、南、东、西）。
- 全天周期覆盖（7:00 AM至10:00 PM），确保光照和时间多样性。

数据集结构

1. Raw_Files（约90 GB，2,164个文件）

内容：
- Photos/：1,400多张高分辨率照片。
- Videos/：700多个手持移动摄像机录制的视频。
分辨率：
- 图像：4032 × 3024。
- 视频：1920 × 1080。

2. Annotated_Original（约38 GB，162,186个文件）

内容：
- Dataset_Full/：完整数据集。
- Sub-Dataset_Edges/：仅包含边缘空间（街道段）。
- Sub-Dataset_Points/：包含节点空间（交叉口）和广场。
子文件夹结构：
- Images/和Videos/下按空间类型分类（如Edge (horizontal)、Node等）。
文本文件：
- Annotations.xlsx：地点标签、空间类型、地图位置等。
- Media_Metadata-Images.xlsx和Media_Metadata-Videos.xlsx：元数据。

3. Annotated_Resized（约4 GB，162,186个文件）

内容：与Annotated_Original结构相同，但分辨率降低。
- 图像：256×192。
- 视频帧：256×144。

数据集子集

Sub-Dataset_Edges：125个类别（水平和垂直街道段）。
Sub-Dataset_Points：82个类别（交叉口和广场）。

下载与重建

文件：
- Raw_Files.part*.tar.gz。
- Annotated_Original.tar.gz。
- Annotated_Resized.tar.gz。
重建命令： bash cat Raw_Files.part*.tar.gz > Raw_Files.tar.gz tar -xzvf Raw_Files.tar.gz

使用建议

推荐下载：Annotated_Resized.tar.gz（训练效率高）。
高保真测试：使用完整分辨率版本或原始文件。

数据集统计

版本	大小	文件数量
Raw Files	~90 GB	2,164
Annotated_Original	~38 GB	162,186
Annotated_Resized	~4 GB	162,186

许可

许可证：Creative Commons Attribution 4.0 International (CC BY 4.0)。

引用

引用：NeurIPS 2025 Datasets and Benchmarks submission（待接受后添加）。

联系方式

作者：Yiwei Ou。
邮箱：you661@aucklanduni.ac.nz。
Hugging Face：https://huggingface.co/Yiwei-Ou。

搜集汇总

数据集介绍

构建方式

在视觉地点识别领域，该数据集通过科学严谨的采集框架填补了现有数据集中行人密集区域的空白。研究团队在中国成都约70,800平方米的开放式商业区内，采用智能手机系统化采集了747段视频（1Hz抽帧）和1,417张手动拍摄图像，最终构成包含78,581个样本的多模态数据集。数据采集过程严格控制变量，涵盖全天候时段（早7点至晚10点）及多角度拍摄方位（东南西北），并辅以精确的GPS坐标、时间戳及人工校验标注，形成具有207个细粒度地点类别的结构化数据。

特点

该数据集最显著的特征在于其多模态性和空间图结构特性。不仅包含高分辨率图像（4032×3024）和视频（1920×1080）两种视觉模态，还通过61条水平街道、64条垂直街道及81个交叉节点构建出天然的空间拓扑图。数据集特别提供边缘空间（125类）和节点空间（82类）两个针对性子集，支持图神经网络等结构感知任务。所有样本均标注有地理位置编码体系（如Eh-1-1），并配套包含商铺招牌文本等丰富元数据的Excel文件，为多模态联合学习提供坚实基础。

使用方法

研究者可通过Hugging Face平台获取经分卷压缩的原始数据（约90GB）或推荐使用的降采样版本（4GB）。数据集按功能划分为Raw_Files、Annotated_Original和Annotated_Resized三级目录，其中降采样版本保持原始长宽比将图像统一缩放到256×192分辨率。使用建议从Dataset_Full文件夹入手，该目录整合了图像、视频和文本三种模态的标注数据，配套的可视化地图文件清晰呈现空间图结构关系。对于计算资源有限的研究，可直接基于预处理的resized版本开展实验，而需要高保真测试时则可调用原始分辨率数据。

背景与挑战

背景概述

Multimodal Street-level Place Recognition Dataset是由Yiwei Ou等人构建的一项开创性数据集，旨在推动视觉地点识别（VPR）和多模态城市场景理解的研究。该数据集聚焦于复杂、细粒度且仅限行人通行的城市环境，填补了现有VPR数据集主要依赖车辆拍摄图像的空白，尤其关注非西方城市背景下的密集步行空间。数据集采集自中国成都约70,800平方米的开放式商业区，包含747段智能手机录制的视频、1,417张手动拍摄图像以及78,581张标注图像和视频帧，涵盖207个独特地点类别。其创新性在于通过系统化采集协议，整合了多摄像头方位、全时段光照变化及自然图结构，为图神经网络等结构感知推理任务提供了理想基准。

当前挑战

该数据集针对视觉地点识别领域的两大核心挑战：复杂步行环境的细粒度识别与非结构化城市场景的多模态对齐。具体而言，密集行人区域存在大量视觉遮挡和重复纹理，传统基于车辆视角的VPR方法难以应对；而多源异构数据（图像、视频、文本、GPS）的时空对齐与联合表征亦构成显著技术壁垒。在构建过程中，研究团队面临三大工程挑战：智能手机采集数据的传感器噪声抑制、大规模人工标注的类别一致性维护，以及城市图结构建模中几何拓扑与语义信息的有机融合。这些挑战使得该数据集成为检验多模态学习算法鲁棒性与泛化能力的试金石。

常用场景

经典使用场景

在视觉位置识别（VPR）领域，Multimodal_Street-level_Place_Recognition_Dataset为研究复杂城市环境中的位置识别提供了丰富的多模态数据支持。该数据集通过智能手机采集的高分辨率图像和视频，结合精确的GPS元数据和人工验证的标注，为研究者提供了一个涵盖昼夜不同光照条件、多样化行人场景的基准测试平台。其经典使用场景包括开发基于深度学习的视觉位置识别算法，特别是在非西方城市环境中验证模型的鲁棒性和泛化能力。

解决学术问题

该数据集有效解决了现有视觉位置识别数据集中存在的关键问题，如车辆视角主导、非西方城市环境数据缺乏等。通过提供精细标注的行人场景数据，研究者能够探索复杂城市结构中的位置识别挑战，如密集建筑遮挡、动态行人干扰等。其空间图结构特性进一步支持了图神经网络在位置识别中的应用，推动了多模态、时空感知的推理方法发展。

衍生相关工作

基于该数据集已衍生出多项重要研究工作，包括图神经网络在视觉位置识别中的创新应用、多模态融合的位置识别框架设计等。其提供的两个针对性子集（边缘子集和节点子集）进一步促进了特定场景下的算法优化研究，为后续基于智能手机采集的城市数据集树立了科学规范的标杆。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集