osv5m/osv5m|街景图像数据集|视觉地理定位数据集

hugging_face2024-04-27 更新2024-06-15 收录

街景图像

视觉地理定位

下载链接：

https://hf-mirror.com/datasets/osv5m/osv5m

下载链接

链接失效反馈

资源简介：

OpenStreetView-5M是第一个大规模开放的街景图像地理定位基准数据集。该数据集旨在提供一个全球范围内的视觉地理定位挑战，用户可以通过提供的演示来感受基准的难度。数据集包含训练集和测试集，用户可以通过Hugging Face Hub下载完整数据集或仅下载测试集，并提供了加载数据集的代码示例。

提供机构：

osv5m

原始信息汇总

OpenStreetView-5M

数据集概述

OpenStreetView-5M 是一个大规模的开放式街景图像地理定位基准数据集。

数据集结构

配置名称: default
数据文件:
- 训练集:
  - 文件路径: "train.csv"
  - 图像路径: "images/train"
- 测试集:
  - 文件路径: "test.csv"
  - 图像路径: "images/test"

数据集下载

下载完整数据集

python from huggingface_hub import snapshot_download snapshot_download(repo_id="osv5m/osv5m", local_dir="datasets/osv5m", repo_type=dataset)

解压数据集

python import os import zipfile for root, dirs, files in os.walk("datasets/osv5m"): for file in files: if file.endswith(".zip"): with zipfile.ZipFile(os.path.join(root, file), r) as zip_ref: zip_ref.extractall(root) os.remove(os.path.join(root, file))

直接加载数据集

python from datasets import load_dataset dataset = load_dataset(osv5m/osv5m, full=False)

其中 full 参数用于指定是否加载完整元数据（默认值为 False）。

仅下载测试集

python from huggingface_hub import hf_hub_download for i in range(5): hf_hub_download(repo_id="osv5m/osv5m", filename=str(i).zfill(2)+.zip, subfolder="images/test", repo_type=dataset, local_dir="datasets/OpenWorld") hf_hub_download(repo_id="osv5m/osv5m", filename="README.md", repo_type=dataset, local_dir="datasets/OpenWorld")

引用

bibtex @article{osv5m, title = {{OpenStreetView-5M}: {T}he Many Roads to Global Visual Geolocation}, author = {Astruc, Guillaume and Dufour, Nicolas and Siglidis, Ioannis and Aronssohn, Constantin and Bouia, Nacim and Fu, Stephanie and Loiseau, Romain and Nguyen, Van Nguyen and Raude, Charles and Vincent, Elliot and Xu, Lintao and Zhou, Hongyu and Landrieu, Loic}, journal = {CVPR}, year = {2024}, }

AI搜集汇总

数据集介绍

构建方式

OpenStreetView-5M数据集的构建基于全球范围内的街景图像，通过系统化的采集和标注过程，形成了这一大规模的地理定位基准。该数据集不仅涵盖了多样化的地理环境，还通过精细的图像分类和地理位置标注，确保了数据的准确性和实用性。构建过程中，研究团队采用了先进的地理信息系统（GIS）技术，结合机器学习算法，对图像进行自动分类和地理位置匹配，从而实现了高效的数据集构建。

特点

OpenStreetView-5M数据集的显著特点在于其全球覆盖性和多样性。该数据集包含了来自世界各地的街景图像，涵盖了城市、乡村、山区等多种地理环境，为研究全球视觉地理定位提供了丰富的数据资源。此外，数据集的图像质量高，标注精细，能够支持多种视觉地理定位任务的研究和应用。数据集的开放性和可扩展性也为未来的研究提供了广阔的空间。

使用方法

使用OpenStreetView-5M数据集时，用户可以通过HuggingFace平台直接下载和加载数据。首先，用户可以使用`snapshot_download`方法下载完整的数据集，并通过`zipfile`库解压缩。此外，用户还可以选择使用`load_dataset`函数直接加载数据集，通过设置`full`参数来控制是否加载完整的元数据。对于特定的测试需求，用户可以仅下载测试集，通过`hf_hub_download`方法实现。这些灵活的使用方法使得OpenStreetView-5M数据集能够适应不同的研究和应用场景。

背景与挑战

背景概述

OpenStreetView-5M数据集由Guillaume Astruc、Nicolas Dufour和Ioannis Siglidis等研究人员于2024年在Imagine研究所创建，该研究所隶属于LIGM、Ecole des Ponts、Univ Gustave Eiffel和CNRS。作为首个大规模开放的街景图像地理定位基准，OpenStreetView-5M旨在解决全球视觉地理定位的核心问题。该数据集的构建标志着街景图像在地理信息系统（GIS）和计算机视觉领域的应用迈出了重要一步，为全球范围内的地理定位研究提供了丰富的资源和基准。

当前挑战

OpenStreetView-5M数据集在构建过程中面临多重挑战。首先，全球街景图像的收集和标注需要跨越不同地理和文化背景，确保数据的多样性和代表性。其次，数据集的规模庞大，涉及海量图像的存储和处理，对计算资源和技术提出了高要求。此外，地理定位的准确性依赖于图像特征的提取和匹配，如何在复杂环境中保持高精度是一个持续的研究难题。这些挑战不仅推动了数据集的构建，也为后续研究提供了丰富的探索空间。

常用场景

经典使用场景

在地理信息系统（GIS）领域，OpenStreetView-5M数据集的经典使用场景主要集中在视觉地理定位任务中。该数据集通过提供大量街景图像及其对应的经纬度信息，使得研究者和开发者能够训练和评估地理定位模型。这些模型可以用于自动识别图像拍摄地点，从而在无人驾驶、城市规划和旅游导航等多个领域发挥重要作用。

实际应用

在实际应用中，OpenStreetView-5M数据集被广泛用于开发智能导航系统和增强现实应用。例如，在无人驾驶汽车中，该数据集可以用于训练车辆识别和定位自身位置的模型，从而提高导航的准确性和安全性。此外，城市规划者和旅游开发者也可以利用这些数据来优化路线规划和景点推荐，提升用户体验。

衍生相关工作

基于OpenStreetView-5M数据集，研究者们开展了一系列相关工作，包括但不限于改进地理定位算法的精度、开发新的图像特征提取技术以及构建更高效的图像检索系统。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用，推动了地理信息技术和计算机视觉领域的技术进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Open Power System Data

Open Power System Data is a free-of-charge data platform dedicated to electricity system researchers. We collect, check, process, document, and publish data that are publicly available but currently inconvenient to use. The project is a service provider to the modeling community: a supplier of a public good. Learn more about its background or just go ahead and explore the data platform.

re3data.org 收录

中国光伏电站空间分布ChinaPV数据集（2015,2020年）

该数据集是中国光伏电站空间分布ChinaPV数据，数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源，处理方法是基于GEE遥感云计算平台，运用随机森林分类模型对2020年中国光伏电站进行遥感提取，后经过形态学运算，灯光数据滤除，轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息，反映了中国地区光伏电站发展现状及其地域分布规律，以ESRI Shapefile格式存储。

国家地球系统科学数据中心收录

Solar Radiation Data

该数据集包含全球多个地点的太阳辐射数据，涵盖了不同时间段和气象条件下的辐射强度。数据包括直接辐射、散射辐射和总辐射等指标，适用于太阳能资源评估和气候研究。

www.nrel.gov 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录