five

GeoAnalystBench

收藏
arXiv2025-09-07 更新2025-09-10 收录
下载链接:
https://github.com/GeoDS/GeoAnalystBench
下载链接
链接失效反馈
官方服务:
资源简介:
GeoAnalystBench是一个由威斯康星大学麦迪逊分校地理数据科学实验室和俄亥俄州立大学计算机科学与工程系共同开发的地缘人工智能基准数据集。该数据集包含50个基于Python的任务,这些任务源自现实世界的地缘空间问题,并由GIS专家精心验证。每个任务都与一个最低交付产品配对,评估内容包括工作流程的有效性、结构对齐、语义相似性和代码质量(CodeBLEU)。该数据集旨在评估大型语言模型在地缘空间分析工作流程和代码生成方面的能力,揭示其优势和局限性,并为地缘人工智能研究的未来发展提供可复制的框架。

GeoAnalystBench is a geospatial AI benchmark dataset co-developed by the Geospatial Data Science Lab at the University of Wisconsin-Madison and the Department of Computer Science and Engineering at The Ohio State University. This dataset comprises 50 Python-based tasks derived from real-world geospatial problems, which have been meticulously validated by GIS experts. Each task is paired with a minimum deliverable product, and the evaluation covers workflow validity, structural alignment, semantic similarity and code quality (CodeBLEU). This dataset aims to evaluate the capabilities of Large Language Models (LLMs) in geospatial analysis workflows and code generation, reveal their strengths and limitations, and provide a reproducible framework for the future development of geospatial AI research.
提供机构:
威斯康星大学麦迪逊分校地理系地理数据科学实验室,俄亥俄州立大学计算机科学与工程系
创建时间:
2025-09-07
原始信息汇总

GeoAnalystBench 数据集概述

数据集基本信息

  • 数据集名称:GeoAnalystBench
  • 数据集地址:https://github.com/GeoDS/GeoAnalystBench/blob/master/dataset/GeoAnalystBench.csv
  • 数据文件格式:CSV
  • 任务数量:50个地理处理任务

数据集内容

  • 任务来源:GIS平台、软件、在线教程和学术文献
  • 任务类型:Python地理处理任务,每个任务包含3到10个子任务
  • 关键列信息
    • ID:每个任务的唯一标识符
    • Open or Closed Source:使用开源或闭源库
    • Task:任务简要描述
    • Instruction:完成任务的自然语言指令
    • Domain Knowledge:与任务相关的领域特定知识
    • Dataset Description:数据名称、格式、描述和关键列
    • Human Designed Workflow:人工设计的工作流程编号列表
    • Task Length:人工设计的工作流程长度
    • Code:任务和数据集的人工设计代码

任务示例

任务涵盖多个地理空间分析领域,包括:

  • 城市热岛分析
  • 公共交通可达性评估
  • 野火影响评估
  • 地下水脆弱性识别
  • 动物活动范围建模
  • 土地沉降影响分析
  • 森林砍伐率预测
  • 海洋温度与盐度关系分析
  • 交通事故热点识别
  • 水质空间模式建模

数据可用性

  • 基准数据集:可通过GitHub获取
  • 研究数据:可通过Google Drive获取(https://drive.google.com/drive/u/0/folders/1GhgxWkNVh4FTgS1RETgvbstBqx0Q9ezp)

研究背景

该数据集用于评估大型语言模型在自动化GIS工作流程和代码生成方面的能力,特别关注专有模型与开源模型的性能比较。

搜集汇总
数据集介绍
main_image_url
构建方式
GeoAnalystBench的构建过程基于严谨的学术方法论,通过系统收集来自ESRI学习平台、大学实验指南及学术出版物中的真实地理空间问题,形成50项Python驱动的空间分析任务。每位任务均由GIS专家进行人工释义、抽象化与标注,确保与原始来源的表述和结构独立性。构建过程中采用多步骤校验机制:专家首先基于教程复现GIS操作流程,随后将冗长的教程转化为简洁的短语式工作流,最终转换为可执行的Python代码,并辅以必要的领域知识与数据集描述文档。这种设计有效降低了数据循环偏差风险,增强了基准测试在评估LLM空间推理能力时的有效性。
特点
该数据集的核心特征体现在其多维度的任务分类体系与精细化标注框架。所有任务均遵循ESRI空间分析分类标准,涵盖六大类别:位置理解、形态测量、空间关系判定、最优路径规划、模式检测以及空间插值与预测建模。每个任务配备结构化元数据,包括唯一标识符、任务描述、自然语言指令、领域知识说明、数据集描述(含文件格式、关键字段及数据规模)、人工设计的工作流步骤及对应代码。特别值得注意的是,数据集通过控制任务复杂度(每任务包含3-10个子步骤)和引入参数模糊性设计,有效评估LLM在缺乏明确指导时的领域直觉与默认参数选择能力。
使用方法
数据集的使用需遵循严格的评估协议,主要针对LLM在空间工作流生成与代码合成能力的测试。评估框架包含四个提示变体:仅任务描述、任务结合领域知识、任务结合数据集描述、以及全信息组合。响应生成需通过云API或本地推理环境执行,温度参数设置为0.7以平衡创造性与一致性。工作流评估采用三重指标:有效性(可解析工作流占比)、复杂度(与人工设计工作流的步骤数平均绝对偏差)及文本相似度(基于all-MiniLM-L6-v2模型的语义嵌入余弦相似度)。代码评估则依赖CodeBLEU指标,综合N-gram匹配、加权语法树匹配及数据流语义匹配,权重分配为0.2:0.2:0.3:0.3。所有输出需经GIS专家标注与自动化解析双重验证。
背景与挑战
背景概述
GeoAnalystBench是由威斯康星大学麦迪逊分校地理系与俄亥俄州立大学计算机科学与工程系联合研发的GeoAI基准数据集,于2025年正式发布。该数据集聚焦于评估大语言模型在空间分析工作流与代码生成方面的能力,核心研究问题涉及地理信息科学中多步骤空间推理的自动化实现。通过50个基于真实地理问题的Python任务,该数据集为GeoAI领域提供了首个系统性的工作流对齐评估框架,显著推动了地理空间人工智能从理论到实践的转化进程。
当前挑战
数据集首要解决空间分析工作流自动化的领域挑战,包括多步骤空间操作(如空间连接、叠加分析与栅格计算)的逻辑序列生成,以及空间关系推理、最优路径规划等复杂地理问题的建模。构建过程中面临标注一致性挑战,需将冗长的GIS教程转化为标准化工作流;数据异构性挑战体现为多源地理数据格式(如GeoJSON、Shapefile、GeoTIFF)的语义对齐;此外还需解决领域知识注入与代码生成质量平衡问题,确保生成代码兼具语法正确性与空间逻辑合理性。
常用场景
经典使用场景
GeoAnalystBench作为GeoAI领域的基准数据集,主要用于评估大型语言模型在空间分析工作流和代码生成方面的能力。该数据集涵盖了从真实地理问题中提取的50个Python任务,涉及空间关系检测、最优选址、热点分析等多个经典场景。通过专家验证的工作流和代码,研究者能够系统测试模型在复杂地理处理任务中的逻辑结构和执行效率,为自动化地理信息系统(GIS)提供可靠评估基础。
实际应用
在实际应用中,GeoAnalystBench支持GIS自动化工具的开发和优化,例如辅助城市规划中的灾害风险评估、野生动物栖息地分析或交通热点检测。通过生成可执行的空间分析代码,该数据集能够降低非专业用户使用GIS技术的门槛,提升政府部门或环保机构在空间决策中的效率。其衍生的工作流可直接集成至QGIS或ArcGIS等平台,实现从自然语言指令到空间成果的端到端自动化处理。
衍生相关工作
GeoAnalystBench催生了一系列重要研究,如LLM-Geo提出的空间任务分解框架、GeoGPT构建的自然语言驱动GIS工作流系统,以及BB-GeoGPT针对地理语义理解的领域适配模型。后续工作如GIS Copilot和GeoBenchX进一步扩展了多模态和工具调用评估维度,而ScienceAgentBench则与其形成互补,共同推进科学计算中语言智能体的标准化测试。这些工作共同推动了GeoAI向自动化、可解释和人类协同的方向演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作