LocBench

Name: LocBench
Creator: 佐治亚大学
Published: 2024-06-22 05:33:16
License: 暂无描述

arXiv2024-06-22 更新2024-06-26 收录

下载链接：

https://github.com/seai-lab/TorchSpatial

下载链接

链接失效反馈

官方服务：

资源简介：

LocBench是由佐治亚大学等机构创建的一个综合数据集，专注于空间表示学习。该数据集包含7个地理感知图像分类和4个地理感知图像回归数据集，总计11个子数据集。数据集通过收集和预处理多种类型的空间数据，如鸟类图像、卫星图像等，以支持位置编码器的开发和评估。创建过程中，研究者们确保了数据的可扩展性和可重复性，并应用了多种评估指标来量化模型的性能和地理偏差。LocBench的应用领域广泛，包括物种分布建模、天气预报等，旨在解决空间表示学习中的基本问题，推动地理人工智能研究的发展。

LocBench is a comprehensive dataset focused on spatial representation learning, created by institutions including the University of Georgia. This dataset includes 7 geospatial-aware image classification datasets and 4 geospatial-aware image regression datasets, totaling 11 sub-datasets. It collects and preprocesses various types of spatial data such as bird images and satellite imagery to support the development and evaluation of positional encoders. During its creation, researchers ensured the data's scalability and reproducibility, and applied multiple evaluation metrics to quantify model performance and geospatial bias. LocBench has a wide range of application scenarios including species distribution modeling and weather forecasting, aiming to solve fundamental problems in spatial representation learning and promote the development of geospatial artificial intelligence research.

提供机构：

佐治亚大学

创建时间：

2024-06-22

原始信息汇总

TorchSpatial 数据集概述

概览

TorchSpatial 提供了一个全面的框架和基准套件，旨在推进空间表示学习（SRL）。它支持使用广泛的基准和创新的评估指标来开发和评估位置编码器。

特点

统一框架：集成了15种公认的位置编码器，以增强可扩展性和可重复性。
LocBench 基准：包括11个数据集，用于地理感知图像分类和回归，能够在各种地理分布上进行彻底的性能评估。
地理偏差分数：一种新颖的指标，用于评估模型性能和地理偏差，促进地理人工智能应用中的空间公平性。

数据下载说明

数据可以通过以下DOI链接下载：下载数据

图像数据集

BirdSnap

基于BirdSnap数据集（Berg et al., 2014）并由（Aodha et al., 2019）添加位置注释的鸟类物种图像数据集，包含19576张北美常见鸟类物种的图片。

BirdSnap†

由（Aodha et al., 2019）构建的增强版BirdSnap数据集，通过模拟eBrid数据集（Sullivan et al., 2009）中的位置、日期和摄影师信息，包含43470张图片。

NABirds†

基于NABirds数据集（Van Horn et al., 2015）并由（Aodha et al., 2019）添加位置元数据的北美鸟类物种图像数据集，包含23699张图片。

iNat2017

用于iNaturalist 2017挑战赛的全球物种识别数据集，包含675170张图片和5089个独特类别，添加了iNaturalist 2021提供的位置信息。

iNat2018

用于iNaturalist 2018挑战赛的全球物种识别数据集，包含461939张图片和8142个独特类别，添加了iNaturalist 2021提供的位置信息。

YFCC

从Yahoo Flickr Creative Commons 100M数据集中提取并由（Tang et al., 2015）注释的图像数据集，包含88986张图片和100个日常对象类别。

fMoW

功能世界地图数据集（fMoW）（Christie et al., 2018），是一个遥感图像分类数据集，包含全球各地的多种土地利用类型的遥感图像。

结果

Top1分类准确率：不同模型在LocBench基准中的7个地理感知图像分类数据集上的Top1分类准确率。
R平方：不同模型在LocBench基准中的4个地理感知图像回归数据集上的R平方值。

搜集汇总

数据集介绍

构建方式

LocBench数据集的构建旨在为空间表示学习（SRL）提供一个基准测试平台，特别是针对位置（点）编码这一基本数据类型。该数据集包含了7个地理感知图像分类数据集和4个地理感知图像回归数据集，这些数据集覆盖了不同的任务设置、地理分布和数据集大小，用于系统性地评估各种位置编码器的性能及其对模型整体地理偏差的影响。数据集的构建过程涉及了对现有数据集的清洗和预处理，以确保数据的质量和一致性，从而支持空间表示学习模型的发展与评估。

特点

LocBench数据集的特点在于其多样性、广泛性和系统性。多样性体现在数据集涵盖了从鸟类的细粒度识别到夜间灯光亮度预测的各种地理感知任务，广泛性则体现在数据集覆盖了全球范围内的不同地理区域，系统性则体现在数据集的设计旨在全面评估位置编码器在不同任务和地理分布下的性能。此外，LocBench还引入了创新的地理偏差评分（Geo-Bias Score）指标，用于量化模型的地理偏差，这是一个通用的评价框架，旨在促进空间公平性和GeoAI研究的责任感。

使用方法

使用LocBench数据集时，研究人员可以将其作为基准来评估他们开发的位置编码器的性能。数据集包含了用于地理感知图像分类和回归任务的多个数据集，这些数据集可以帮助研究人员理解位置编码器在不同地理分布和任务设置下的表现。研究人员可以利用数据集中的地理信息来训练和评估他们的模型，并通过比较不同编码器的性能来选择最合适的方法。此外，数据集提供的Geo-Bias Score指标可以帮助研究人员识别和减少模型中的地理偏差，从而促进空间公平性。

背景与挑战

背景概述

LocBench数据集是TorchSpatial框架的一部分，TorchSpatial是一个用于空间表示学习（SRL）的深度学习框架和基准。SRL的目标是从各种类型的空间数据（例如点、折线、多边形、网络、图像等）的原始格式中学习通用神经网络表示。LocBench包含7个地理感知图像分类和4个地理感知图像回归数据集，用于系统评估位置编码器在各种任务设置、数据集大小和地理覆盖范围下的性能。TorchSpatial框架支持位置编码器的发展，并确保实现的可扩展性和可重复性。

当前挑战

尽管SRL已成为几乎所有地理空间人工智能（GeoAI）研究的基础，但尚未看到开发广泛的深度学习框架和基准来支持SRL模型开发和评估的重大努力。LocBench旨在填补这一空白，为位置编码提供基准任务，并包含7个地理感知图像分类和4个地理感知图像回归数据集。此外，TorchSpatial还提供了全面的评估指标，以量化地理感知模型的总体性能以及它们的地理偏差，包括新颖的Geo-Bias Score指标。最后，TorchSpatial提供了对不同位置编码器模型性能和地理偏差的详细分析和见解。

常用场景

经典使用场景

LocBench数据集主要用于地理信息的人工智能（GeoAI）研究，特别是针对地理空间表示学习（SRL）模型的发展与评估。该数据集包含了7个地理感知图像分类数据集和4个地理感知图像回归数据集，这些数据集被用于系统地评估各种位置编码器在不同任务设置、数据集大小和地理覆盖范围下的性能。

衍生相关工作

LocBench数据集的提出促进了地理空间表示学习领域的进一步发展。它为研究者提供了一个平台，用于比较和评估各种位置编码器的性能，并探索新的地理感知模型。此外，LocBench还衍生了一系列相关工作，如基于空间自信息的地理偏差评估框架Geo-Bias Score，以及针对不同空间数据类型的SRL模型开发。这些工作为GeoAI研究提供了新的思路和方法。

数据集最近研究