Geo_Benchmark

Hugging Face2026-01-29 更新2026-01-30 收录

下载链接：

https://huggingface.co/datasets/rfr2003/Geo_Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Geo-Benchmark是一个旨在评估大型语言模型（LLM）在地理领域多任务能力的综合基准数据集。该数据集整合了来自12个子集的8种不同任务，包括知识类任务（如坐标预测、是/否问题、回归问题、地点预测）和推理类任务（如场景复杂问答、空间推理）以及应用类任务（如兴趣点推荐、路径规划）。数据集主要包含文本生成任务，所有数据均为英文。数据规模方面，训练集包含236,290个样本，开发集29,942个样本，测试集176,628个样本。每个子集具有不同的数据结构，但都经过预处理以便于访问和使用。数据集可用于评估LLM在地理空间理解、推理和应用方面的能力。

创建时间：

2026-01-26

原始信息汇总

Geo Benchmark 数据集概述

数据集基本信息

数据集名称：Geo Benchmark
主页：https://github.com/Rfr2003/GeoBenchmark
仓库：https://github.com/Rfr2003/GeoBenchmark
联系人：rodrigo.ferreira-rodrigues@utoulouse.fr
语言：英语 (en)
许可证：other
主要任务类别：文本生成 (text-generation)

数据集目标

Geo-Benchmark 旨在评估大型语言模型 (LLM) 在多种任务中的地理能力。

数据集构成与任务

数据集由 12 个来源数据集构成，涵盖 8 种不同的任务类型。

知识类任务 (Knowledge)

坐标预测 (Coordinates Prediction)
- 来源数据集：GeoQuestions1089
是/否问题 (Yes|No questions)
- 来源数据集：GeoQuestions1089
回归问题 (Regression questions)
- 来源数据集：GeoQuestions1089, GeoQuery
地点预测 (Place Prediction)
- 来源数据集：GeoQuestions1089, GeoQuery, Ms Marco

推理类任务 (Reasoning)

场景复杂问答 (Scenario Complex QA)
- 来源数据集：GeoSQA, GKMC
空间推理 (Spatial Reasoning)
- 来源数据集：SpartUN, StepGame, SpatialEvalLLM

应用类任务 (Application)

兴趣点推荐 (POI Recommendation)
- 来源数据集：TourismQA, NY-QA
路径查找 (Path Finding)
- 来源数据集：GridRoute, PPNL, bAbI (task 19)

数据集配置与结构

数据集包含多个配置 (config)，每个配置对应一个特定的任务或数据集变体。

配置列表

GKMC
GeoQuery_place
GeoQuery_regression
GeoQuestions1089_YN
GeoQuestions1089_coord
GeoQuestions1089_place
GeoQuestions1089_regression
GeoSQA
GridRoute
MsMarco
NY-POI
PPNL_multi
PPNL_single
SpartUN
SpatialEvalLLM
TourismQA

数据划分统计

类别	任务	数据集	训练集样本数	验证集样本数	测试集样本数
知识	坐标预测	GeoQuestions1089	–	–	84
	是/否问题	GeoQuestions1089	–	–	181
	回归问题	GeoQuestions1089<br>GeoQuery	–<br>180	–<br>17	234<br>88
	地点预测	GeoQuestions1089<br>GeoQuery<br>MS-Marco	–<br>348<br>23,513	–<br>32<br>4,149	455<br>184<br>2,907
推理	场景复杂问答	GeoSQA<br>GKMC	–<br>–	–<br>–	4,110<br>1,600
	空间推理	SpatialEvalLLM<br>SpartUN<br>StepGame	–<br>37,095<br>50,000	–<br>5,600<br>5,000	1,400<br>5,551<br>100,000
应用	兴趣点推荐	TourismQA<br>NY-QA	19,960<br>–	2,119<br>–	2,173<br>1,347
	路径查找	bAbI (task 19)<br>GridRoute<br>PPNL	9,000<br>–<br>69,472	1,000<br>–<br>8,684	1,000<br>300<br>74,484
总计	–	–	236,290	29,942	176,628

使用方式

python import datasets dataset = datasets.load_dataset("rfr2003/Geo_Benchmark", "GeoSQA")

引用信息

数据集整合了多个来源的工作，使用时请引用相关原始论文。部分引用如下：

Huang et al. (2021) - GKMC
Finegan-Dollak et al. (2018) - GeoQuery
Zelle & Mooney (1996) - Geography, original
Huang et al. (2019) - GeoSQA
Li et al. (2025) - GridRoute
Nguyen et al. (2016) - MS MARCO
Hamzei et al. (2020) - Place questions
Aghzal et al. (2024) - PPNL

搜集汇总

数据集介绍

构建方式

在空间信息科学领域，Geo_Benchmark数据集通过集成与重构多个现有地理空间数据集构建而成。该数据集系统性地汇集了来自GeoQuestions1089、GeoQuery、GeoSQA等12个异构数据源，覆盖坐标预测、地点识别、空间推理等八类核心任务。构建过程中，研究团队对原始数据进行了统一的预处理与格式标准化，确保了不同任务间数据结构的兼容性与可访问性，最终形成一个旨在全面评估大语言模型地理空间认知能力的综合性基准。

特点

该数据集以其任务多样性与结构异构性为显著特征，涵盖了从基础地理知识问答到复杂路径规划的广泛应用场景。其数据实例不仅包含传统的文本问答对，还纳入了网格坐标、障碍物列表、多模态上下文等结构化空间信息。这种多任务、多模态的设计使得数据集能够深入检验模型在理解、推理与应用地理空间概念方面的综合能力，为评估模型的泛化性与鲁棒性提供了丰富维度。

使用方法

研究人员可通过HuggingFace的`datasets`库便捷加载Geo_Benchmark的任一子数据集配置，例如使用`load_dataset("rfr2003/Geo_Benchmark", "GeoSQA")`调用地理情景问答数据。数据集已预先划分为训练集、验证集与测试集，支持针对特定任务进行模型微调、零样本评估或跨任务能力分析。在使用时，需依据所选配置关注其特有的数据字段，例如`world`、`path`等空间结构描述，以适配相应的文本生成或空间推理建模流程。

背景与挑战

背景概述

Geo_Benchmark数据集是评估大型语言模型地理空间理解能力的综合性基准测试工具。该数据集由研究者Rodrigo Ferreira-Rodrigues等人于近期构建，旨在系统性地衡量模型在知识获取、空间推理及实际应用等多维度的地理能力。其核心研究问题聚焦于探索人工智能对复杂地理信息的解析与生成水平，通过整合GeoQuestions1089、GeoSQA、SpartUN等十二个异构子数据集，覆盖了坐标预测、地点识别、路径规划等八大任务类型。这一基准的建立为地理信息科学和自然语言处理的交叉领域提供了标准化的评估框架，推动了空间认知智能的深入研究与发展。

当前挑战

Geo_Benchmark所应对的核心挑战在于解决模型对地理空间信息的深度理解与逻辑推理问题。地理问题往往涉及多尺度空间关系、模糊语义表达及动态环境约束，要求模型不仅掌握事实性知识，还需具备场景化推理能力。在数据集构建过程中，挑战主要源于异构数据源的整合与标准化。各子数据集在格式、标注规范及任务定义上存在显著差异，需进行大量的数据清洗、结构对齐与质量校验工作，以确保评估的一致性与可靠性。此外，地理数据的时空敏感性与领域专业性也为标注验证带来了额外复杂度。

常用场景

经典使用场景

在地理信息科学与自然语言处理交叉领域，Geo_Benchmark数据集为评估大型语言模型的地理空间能力提供了综合性基准。其经典使用场景集中于对模型进行多维度地理知识测试，涵盖坐标预测、地点识别、空间推理及路径规划等任务。研究者通过该数据集能够系统性地检验模型在理解地理实体、处理空间关系以及解决实际地理问题方面的表现，从而推动地理智能技术的演进。

衍生相关工作

围绕Geo_Benchmark衍生了一系列经典研究工作，例如基于GeoSQA的场景化问答模型改进、利用SpartUN增强空间关系理解，以及借助GridRoute探索语言模型在网格环境中的路径规划能力。这些工作不仅深化了对模型地理认知机制的探索，还催生了如地理知识增强预训练、多模态空间推理等创新方法，持续拓展地理人工智能的边界。

数据集最近研究