five

OBSR:Open Benchmark for Spatial Representations

收藏
arXiv2025-10-09 更新2025-10-09 收录
下载链接:
https://github.com/kraina-ai/srai
下载链接
链接失效反馈
官方服务:
资源简介:
OBSR是一个开放式的空间表示基准,旨在评估地理空间嵌入器的性能、准确性和效率。该基准无关模态,包含来自全球三个大陆多个城市的7个不同的数据集,确保了泛化能力和减少了人口统计偏差。它允许对GeoAI嵌入器在各种表现出地理过程的现象上进行评估。此外,我们还建立了一个简单直观的任务导向模型基线,为比较更复杂的模型提供了重要的参考点。

OBSR is an open spatial representation benchmark designed to evaluate the performance, accuracy, and efficiency of geospatial embedder models. This modality-agnostic benchmark contains seven distinct datasets from multiple cities across three continents globally, which ensures generalization capability and mitigates demographic bias. It allows the evaluation of GeoAI embedder models across a wide range of phenomena exhibiting geographic processes. Additionally, we have established a simple and intuitive task-oriented model baseline, which serves as a critical reference point for comparing more sophisticated models.
提供机构:
Wrocław University of Science and Technology, Kraina.AI
创建时间:
2025-10-07
原始信息汇总

SRAI 数据集概述

数据集基本信息

  • 项目名称: Spatial Representations for Artificial Intelligence (srai)
  • 项目类型: Python地理空间机器学习库
  • 主要功能: 专注于矢量几何的机器学习工具

核心功能模块

数据获取

  • OSM/OvertureMaps数据下载: 从不同来源下载给定区域的OpenStreetMap/Overture Maps数据
  • GTFS数据处理: 从GTFS数据中提取特征

数据处理

  • 矢量数据处理: 处理获取的矢量数据以提取有用信息(道路网络、建筑物、POI等)
  • 区域划分: 使用不同算法将给定区域划分为更小的区域
    • Uber的H3算法
    • Voronoi图
    • 行政边界

嵌入方法

  • Hex2VecEmbedder: 使用hex2vec算法
  • GTFS2VecEmbedder: 使用GTFS2Vec算法
  • CountEmbedder: 基于特征计数
  • ContextualCountEmbedder: 基于邻域上下文的特征计数
  • Highway2VecEmbedder: 使用Highway2Vec算法

数据集特性

  • 提供下游任务的预准备数据集
  • 包含基于公共数据的基准测试模块
  • 支持PyTorch模型

技术特性

  • 提供空间数据可视化和处理工具
  • 支持预训练模型使用
  • 提供完整的端到端示例

安装和使用

  • 基础安装: pip install srai
  • 支持多种可选依赖项扩展功能
  • 提供详细文档和教程资源

相关资源

  • 文档地址: https://kraina-ai.github.io/srai/
  • 教程仓库: https://github.com/kraina-ai/srai-tutorial
  • 预训练模型: https://drive.google.com/drive/folders/14sH33-kNxA0q1O1abPWTpuix8raR_XbD?usp=drive_link

许可证

  • 项目许可证: Apache License 2.0
  • 使用的OpenStreetMap数据许可证: ODbL
搜集汇总
数据集介绍
main_image_url
构建方式
在空间人工智能快速发展的背景下,OBSR基准通过精心筛选七个跨三大洲城市的地理空间数据集构建而成,涵盖Airbnb短租数据、房地产交易记录和犯罪事件报告等多模态信息。构建过程采用SRAI库实现数据标准化处理,通过H3六边形网格系统将原始点数据聚合为不同分辨率的空间单元,并运用分层抽样策略确保训练集与测试集的空间独立性,有效避免了地理空间分析中常见的数据泄漏问题。
特点
该基准的显著特征在于其多任务评估框架与模态无关的设计理念,同时支持区域预测和轨迹分析两类核心任务。通过引入多分辨率配置机制,基准能够在从粗粒度到细粒度的不同空间尺度上评估模型性能,真实反映地理空间模型处理多样化空间依赖关系的能力。基准数据集覆盖了城市基础设施、人类移动模式和公共安全等多元地理现象,其跨大陆的地理分布有效缓解了人口统计偏差,确保了评估结果的普适性。
使用方法
研究人员可通过基准提供的统一接口加载预处理后的数据集,利用内置的基线模型评估空间嵌入表示的质量。评估流程支持回归任务的均方误差和平均绝对百分比误差等标准指标,以及轨迹预测任务的动态时间规整距离和序列准确率等专门度量。基准与SRAI库深度集成,用户既可基于现有嵌入模型进行性能比较,也能扩展新的地理空间表示学习方法,所有实验均可通过公开的GitHub仓库复现,保障了研究过程的透明度和可重复性。
背景与挑战
背景概述
随着地理空间人工智能领域的快速发展,现有基准测试普遍局限于单一任务与模态,难以系统评估多模态地理空间嵌入模型的性能。在此背景下,波兰弗罗茨瓦夫理工大学与Kraina.AI团队于2025年联合推出OBSR开放基准,通过整合涵盖三大洲七个城市的多样化数据集,构建了首个面向多任务、模态无关的地理空间表示学习评估框架。该基准采用分层六边形网格系统,支持区域预测与轨迹分析两类核心任务,为地理空间基础模型的标准化测评奠定了重要基础。
当前挑战
该基准需应对双重挑战:在领域问题层面,需解决地理空间嵌入模型在多尺度空间依赖性建模中的泛化能力不足问题,例如模型在粗粒度网格中因信号聚合而性能衰减;在构建过程中,面临异构数据标准化难题,包括轨迹数据的时空对齐、犯罪数据分布的极端偏斜,以及跨城市数据的人口统计偏差消除。此外,静态OpenStreetMap特征与动态移动模式间的语义鸿沟,进一步增加了轨迹预测任务的建模复杂度。
常用场景
经典使用场景
在GeoAI研究领域,OBSR基准测试体系为空间表征学习提供了标准化评估框架。该数据集通过整合来自三大洲七个城市的多样化地理空间数据,构建了涵盖区域预测和轨迹分析两大核心任务的多分辨率评估体系。研究人员利用其统一的数据预处理流程和标准化的训练测试划分,能够系统性地评估不同嵌入模型在短租价格预测、犯罪活动强度估计等经典任务中的表现,为地理空间人工智能模型的横向比较提供了可靠依据。
解决学术问题
OBSR基准测试有效解决了地理空间人工智能领域长期存在的评估标准缺失问题。传统地理空间基准测试往往局限于单一模态或特定任务,难以全面评估模型的泛化能力。该数据集通过设计多任务、模态无关的评估框架,使得研究人员能够系统分析模型在不同空间尺度下的表现差异。其引入的H3多分辨率配置机制,揭示了空间表征学习中的粒度适应性问题,为理解模型在不同空间聚合尺度下的行为特征提供了重要实验依据。
衍生相关工作
OBSR基准测试的发布催生了系列重要的衍生研究工作。基于其多任务评估框架,研究者开发了Hex2Vec、GeoVex等专门针对城市环境的空间嵌入模型,推动了OpenStreetMap数据在表征学习中的深度应用。该数据集建立的标准化评估流程为后续TorchSpatial等空间推理基准提供了设计参考,其多分辨率分析方法被扩展至全球尺度的地理空间基础模型评估中。这些衍生工作共同构成了地理空间人工智能领域方法创新的重要推动力,促进了该研究方向的系统化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作