GeoBenchX
收藏arXiv2025-03-24 更新2025-03-26 收录
下载链接:
https://github.com/Solirinai/GeoBenchX
下载链接
链接失效反馈官方服务:
资源简介:
GeoBenchX是由世界银行创建的一个地理空间任务评估基准集,包含200多个任务,这些任务分为四个复杂度逐渐增加的类别,旨在评估大型语言模型在处理多步骤地理空间任务上的性能。数据集包括了统计面板数据、几何向量数据和栅格数据,用于模型在处理地理空间分析任务时的训练和评估。
GeoBenchX is a geospatial task evaluation benchmark developed by the World Bank. It contains over 200 tasks grouped into four categories with gradually increasing complexity, aiming to evaluate the performance of large language models (LLMs) when handling multi-step geospatial tasks. The dataset includes statistical panel data, geometric vector data, and raster data, which are utilized for the training and evaluation of models during geospatial analysis task processing.
提供机构:
世界银行
创建时间:
2025-03-24
搜集汇总
数据集介绍

构建方式
GeoBenchX数据集的构建采用了多阶段严谨的设计流程,首先通过行业专家和学术文献收集种子任务,随后利用Sonnet 3.5模型基于工具描述和可用数据集列表生成扩展任务。为确保任务质量,所有生成任务均经过人工评审筛选。最终构建的基准集包含200余项任务,涵盖合并可视化、处理合并可视化、空间操作以及热图与等高线四大复杂度递增的类别,其中既包含可解任务也设置了故意不可解任务以测试模型的幻觉抑制能力。数据集采用本地快照存储策略,避免了在线API调用带来的数据波动问题。
特点
该数据集的核心特征体现在其专业性和系统性:任务设计紧密贴合GIS从业者的实际工作场景,包括社会经济分析报告制图、地理对象条件查询等典型需求;采用分层抽样方法确保任务覆盖的全面性,每组任务均包含可解与不可解样本;创新性地引入LLM-as-Judge评估框架,通过语义等价性判断实现解决方案的自动化评估;提供23种专业地理空间工具接口,涵盖矢量/栅格数据处理、空间关系分析及可视化等完整工作流。数据集特别强调对模型空间认知能力的测试,包括几何关系理解、坐标参考系统应用等专业维度。
使用方法
使用该数据集需配置Langgraph ReAct智能体框架,加载预定义的23种地理空间工具库。评估时需将待测LLM接入工具调用接口,在温度参数设为0的条件下执行基准任务。解决方案通过与人工标注的参考实现进行语义对比来评分,采用多模型评委(Sonnet 3.5、GPT-4o和Gemini 2.0)的加权平均分作为最终性能指标。研究者可重点分析模型在空间操作错误率、任务拒绝准确率以及解决方案步骤优化度等维度的表现。数据集配套的评估流水线支持自动化测试,适用于商业LLM在GeoAI领域的持续性能监测。
背景与挑战
背景概述
GeoBenchX数据集由世界银行的Varvara Krechetova和J.P.Morgan Chase的Denis Kochedykov于2025年联合创建,旨在为商业地理信息系统(GIS)实践者提供一个评估大型语言模型(LLMs)在多步骤地理空间任务中表现的基准。该数据集聚焦于GIS专业人员常见的实际需求,如社会经济分析、地图制作和报告撰写等任务。GeoBenchX通过设计包含可解决和故意不可解决任务的四个复杂性递增的类别,全面评估LLMs在地理空间推理、工具调用和幻觉抑制等方面的能力。其创新性的LLM-as-Judge评估框架为GeoAI领域提供了首个标准化评估方法,对推动空间人工智能发展具有重要意义。
当前挑战
GeoBenchX数据集面临的核心挑战主要体现在两个方面:领域问题层面,地理空间任务要求LLMs具备精确的地理事实知识、空间数据操作能力和坐标参考系统理解,而现有模型在几何关系理解、过时知识更新和低效数据处理等方面表现不足;构建过程层面,任务设计需平衡专业性与普适性,评估框架需解决地理空间输出(如地图、表格等)的复杂比对问题,同时确保数据API的稳定性和一致性。此外,商业LLMs在解决可完成任务与识别不可完成任务之间存在明显的性能权衡,如何优化这一平衡成为关键挑战。
常用场景
经典使用场景
GeoBenchX数据集在评估大型语言模型(LLMs)处理多步骤地理空间任务的能力方面具有经典应用场景。该数据集通过模拟商业地理信息系统(GIS)从业者的实际需求,设计了涵盖合并可视化、处理合并可视化、空间操作以及热图和等高线生成等四类复杂度的任务。这些任务不仅测试模型的地理知识掌握程度,还评估其在空间数据操作、几何关系理解和工具调用效率方面的表现。数据集特别设计了可解与不可解任务,以检验模型拒绝幻觉输出的能力,为GeoAI领域提供了标准化的评估基准。
解决学术问题
GeoBenchX数据集解决了GeoAI领域中多个关键学术问题,包括LLMs在空间推理、地理数据操作和工具调用链构建方面的性能评估。通过系统化设计的多步骤任务,该数据集揭示了模型在几何关系理解、空间数据过滤和高效工具调用等方面的常见错误模式,如几何中心误判、数据覆盖不足时的过度拟合等。其LLM-as-Judge评估框架为模型输出的语义等价性判断提供了自动化解决方案,弥补了传统执行比对方法在复杂地理空间任务评估中的不足,推动了GeoAI领域评估方法论的发展。
衍生相关工作
GeoBenchX数据集催生了多个GeoAI领域的经典研究工作。基于其任务设计范式,后续研究开发了LLM-Geo等自主GIS应用框架,扩展了语言模型与地理工具链的集成深度。数据集揭示的模型缺陷直接促进了MapGPT等智能制图系统的提示工程优化,其评估方法被ShapefileGPT多智能体框架采用以实现自动化矢量数据处理。相关错误分析还启发了针对空间关系理解的专项微调技术,如Geogpt中引入的几何操作校验模块,这些衍生工作共同推动了地理空间智能从理论验证向产业落地的转化。
以上内容由遇见数据集搜集并总结生成



