ogd4all-benchmark

Hugging Face2026-03-10 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/michael7ma/ogd4all-benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

OGD4All Benchmark 是一个包含199个问题的基准数据集，用于评估基于大型语言模型的系统与地理空间开放政府数据（OGD）的交互性能。数据集支持两种主要任务：数据集检索（识别与问题相关的数据集）和数据集分析（处理相关数据集并生成文本答案）。数据集中包含德语、英语、法语和意大利语的问题，以及430个苏黎世市数据集的元数据。评估指标包括召回率、精确度、可回答性、答案正确性、延迟、令牌消耗和API成本。数据集规模较小（n<1K），适用于地理空间数据问答和表格问答任务。数据集还提供了用于生成真实答案的Python脚本和评估提示。

创建时间：

2026-02-26

原始信息汇总

OGD4All Benchmark 数据集概述

数据集基本信息

数据集名称：OGD4All Benchmark
许可证：MIT
任务类别：问答、表格问答
支持语言：德语、英语、法语、意大利语
标签：agent、opendata、open-government-data、ogd、gis、gpkg、csv、rag、zurich、llm、geospatial
数据规模：n<1K
配置名称：benchmark
数据文件：
- 测试集路径：benchmarks/benchmark_german.jsonl

数据集描述

这是一个包含199个问题的基准测试，用于评估OGD4All系统及其不同配置（如大语言模型、编排等）的整体性能。OGD4All是一个基于大语言模型的原型系统，旨在通过自然语言实现与地理空间开放政府数据的易用、透明交互。每个问题的回答都需要对零个、一个或多个GPKG或CSV格式的数据集进行GIS、SQL和/或拓扑操作。

主要任务

该基准测试可用于评估系统在以下两个主要任务上的表现：

数据集检索：给定苏黎世市430个数据集的真实元数据和一个问题，识别出回答该问题所需的k个相关数据子集（包含k=0的情况）。
数据集分析：给定一组相关数据集、相应的元数据和一个问题，适当地处理这些数据集（例如，通过生成的Python代码片段）并产生一个文本答案。注意，OGD4All可以伴随此答案提供交互式地图、图表和/或表格，但仅评估文本答案。

评估方法

评估指标

指标	描述
召回率	检索到的相关数据集所占百分比。
精确率	检索到的数据集中相关数据集所占百分比。
可回答性	判断问题是否可用现有数据回答的准确率。
正确性	最终答案是否与真实答案匹配。
延迟	从查询提交到数据集输出（检索）或从数据集提交到最终答案（分析）所经过的时间。
令牌消耗	检索或分析阶段消耗的令牌总数。可区分为输入、输出和推理令牌。
API成本	检索或分析阶段的总成本。

数据集检索评估

评估数据集检索时，依赖"outputs"字典中的"relevant_datasets"列表，该列表提供了相关数据集的标题列表。可以使用data/dataset_title_to_file.csv文件在元数据文件和标题之间进行映射。

数据集分析评估

评估数据集分析时，向您的架构提供"outputs"字典中指定的相关数据集和问题，然后手动将生成的答案与"outputs"字典中的真实答案进行比较，或使用eval_prompts/LLM_JUDGE_SYSTEM_PROMPT.txt中提供的LLM法官系统提示，并通过后续用户消息提供问题、参考答案和预测答案。

注意：少数问题被发现存在多个有效的相关数据集选项以及多个有效答案。因此，您的评估应考虑alternative_relevant_datasets和alternative_answer属性（如果存在）。

基准测试说明

benchmark_german.jsonl是主要的基准测试文件，以德语开发。所有元数据/数据集始终为德语。
此外，还通过DeepL API自动翻译了问题，提供了benchmark_english.jsonl、benchmark_french.jsonl和benchmark_italian.jsonl版本。
benchmark_template.jsonl是用于生成上述基准测试的模板，包含可以使用不同参数实例化的模板化问题。
benchmarks/gt_scripts目录包含手动编写的Python文件，用于为每个具有相关数据集的问题生成真实答案。文件名对应于基准测试条目的ID。
苏黎世市的数据集采用CC-0许可证。最新版本可从https://www.stadt-zuerich.ch/geodaten/下载，但为了评估，您应使用包含的数据集，否则某些答案可能会发生变化。注意：如果您只想评估“数据集分析”任务，可以仅下载基准测试条目中引用为"relevant_datasets"的数据集子集。
对于“数据集分析”，为智能体/大语言模型配备地理编码工具是有意义的。OGD4All依赖于谷歌的地理编码API。

引用信息

如果在研究中使用此基准测试，请引用我们的配套论文：

@article{siebenmann_ogd4all_2025, archivePrefix = {arXiv}, arxivId = {2602.00012}, author = {Siebenmann, Michael and S{a}nchez-Vaquerizo, Javier Argota and Arisona, Stefan and Samp, Krystian and Gisler, Luis and Helbing, Dirk}, journal = {arXiv preprint arXiv:2602.00012}, month = {nov}, title = {{OGD4All: A Framework for Accessible Interaction with Geospatial Open Government Data Based on Large Language Models}}, url = {https://arxiv.org/abs/2602.00012}, year = {2025} }

除了基准测试，这篇论文（已被IEEE CAI 2026接受）还介绍了OGD4All架构，该架构即使使用GPT-4.1等“较旧”的前沿模型也能实现高召回率和正确性分数。OGD4All的源代码公开可用：https://github.com/ethz-coss/ogd4all

搜集汇总

数据集介绍

构建方式

在空间数据科学领域，OGD4All Benchmark的构建体现了对地理空间开放政府数据（OGD）交互系统评估的严谨设计。该基准数据集包含199个问题，每个问题均需通过地理信息系统（GIS）、结构化查询语言（SQL）或拓扑操作来处理零个、单个或多个GPKG或CSV格式的数据集。问题以德语为原始语言开发，并借助DeepL API自动翻译为英语、法语和意大利语版本，确保了跨语言评估的可行性。数据集的生成依托于苏黎世市430个数据集的真实元数据，每个问题均配有手工编写的Python脚本作为参考答案，并考虑了多组有效数据集与答案的可能性，通过`alternative_relevant_datasets`和`alternative_answer`属性增强了评估的灵活性。

使用方法

使用OGD4All Benchmark时，研究人员可针对数据集检索任务，依据`outputs`字典中的`relevant_datasets`列表来验证系统检索的相关性，并通过`data/dataset_title_to_file.csv`文件映射元数据与数据集标题。对于数据集分析任务，需将问题及相关数据集输入评估系统，生成文本答案后，与基准中的参考答案进行手动对比，或利用`eval_prompts/LLM_JUDGE_SYSTEM_PROMPT.txt`提供的LLM评判提示进行自动化评估。评估过程中应注意处理可能存在的多组有效数据集与答案，参考`alternative_relevant_datasets`和`alternative_answer`属性以确保全面性。数据集文件以JSONL格式提供，包含德语主版本及自动翻译版本，便于跨语言实验；同时，附带的Python脚本可作为生成参考答案的基准，支持对地理空间数据处理系统的深入性能分析。

背景与挑战

背景概述

随着开放政府数据（OGD）运动的兴起，地理空间数据的可访问性与智能化利用成为研究热点。OGD4All Benchmark由苏黎世联邦理工学院的研究团队于2025年创建，旨在评估基于大语言模型的系统在自然语言交互下处理地理空间开放政府数据的性能。该数据集聚焦于多语言环境下的地理信息系统（GIS）操作、结构化查询语言（SQL）分析及拓扑运算，核心研究问题在于如何通过智能代理实现复杂地理空间数据查询与分析的自动化，从而推动政府数据透明化与公众参与。

当前挑战

该数据集致力于解决地理空间开放政府数据自然语言交互的复杂挑战，包括多模态数据（GPKG、CSV格式）的集成处理、跨语言（德语、英语、法语、意大利语）语义理解，以及动态数据更新带来的答案一致性维护。在构建过程中，研究人员面临标注高质量地面真值答案的困难，需手动编写Python脚本以生成精确的地理空间操作结果；同时，数据集的跨语言版本依赖自动翻译，可能引入语义偏差，影响评估的可靠性。此外，评估指标需兼顾检索精度、答案正确性及计算效率，对系统设计提出了多维度的苛刻要求。

常用场景

经典使用场景

在空间数据科学领域，OGD4All Benchmark作为评估框架，主要用于测试大型语言模型在自然语言交互中处理地理空间开放政府数据的能力。该数据集通过199个问题，模拟真实场景下用户对零个、单个或多个GPKG或CSV格式数据集进行GIS、SQL及拓扑操作的需求，从而系统评估智能代理在数据集检索与分析任务中的表现。其经典使用场景聚焦于多语言环境下的地理信息查询，为研究者提供了标准化的性能衡量基准。

解决学术问题

该数据集致力于解决地理空间数据访问与分析中的核心学术问题，特别是如何通过自然语言接口降低开放政府数据的使用门槛。它针对数据集检索的精确性与召回率、分析任务的答案正确性等关键指标，提供了量化评估方法，从而推动了智能地理信息系统在语义理解与多模态数据处理方面的研究进展。其意义在于为跨语言、多格式的空间数据交互建立了可复现的实验基础，促进了透明化数据治理技术的发展。

实际应用

在实际应用中，OGD4All Benchmark可支撑城市管理与公共政策制定场景，例如基于苏黎世市开放数据集的交通规划、环境监测或设施查询。通过集成大型语言模型与地理编码工具，该系统能够将非专业用户的自然语言问题转化为可执行的数据操作，生成交互式地图或统计图表，提升政府数据服务的可用性与效率，为智慧城市建设和公众参与提供技术赋能。

数据集最近研究