ogd4all-benchmark
收藏OGD4All Benchmark 数据集概述
数据集基本信息
- 数据集名称:OGD4All Benchmark
- 许可证:MIT
- 任务类别:问答、表格问答
- 支持语言:德语、英语、法语、意大利语
- 标签:agent、opendata、open-government-data、ogd、gis、gpkg、csv、rag、zurich、llm、geospatial
- 数据规模:n<1K
- 配置名称:benchmark
- 数据文件:
- 测试集路径:
benchmarks/benchmark_german.jsonl
- 测试集路径:
数据集描述
这是一个包含199个问题的基准测试,用于评估OGD4All系统及其不同配置(如大语言模型、编排等)的整体性能。OGD4All是一个基于大语言模型的原型系统,旨在通过自然语言实现与地理空间开放政府数据的易用、透明交互。每个问题的回答都需要对零个、一个或多个GPKG或CSV格式的数据集进行GIS、SQL和/或拓扑操作。
主要任务
该基准测试可用于评估系统在以下两个主要任务上的表现:
- 数据集检索:给定苏黎世市430个数据集的真实元数据和一个问题,识别出回答该问题所需的k个相关数据子集(包含k=0的情况)。
- 数据集分析:给定一组相关数据集、相应的元数据和一个问题,适当地处理这些数据集(例如,通过生成的Python代码片段)并产生一个文本答案。注意,OGD4All可以伴随此答案提供交互式地图、图表和/或表格,但仅评估文本答案。
评估方法
评估指标
| 指标 | 描述 |
|---|---|
| 召回率 | 检索到的相关数据集所占百分比。 |
| 精确率 | 检索到的数据集中相关数据集所占百分比。 |
| 可回答性 | 判断问题是否可用现有数据回答的准确率。 |
| 正确性 | 最终答案是否与真实答案匹配。 |
| 延迟 | 从查询提交到数据集输出(检索)或从数据集提交到最终答案(分析)所经过的时间。 |
| 令牌消耗 | 检索或分析阶段消耗的令牌总数。可区分为输入、输出和推理令牌。 |
| API成本 | 检索或分析阶段的总成本。 |
数据集检索评估
评估数据集检索时,依赖"outputs"字典中的"relevant_datasets"列表,该列表提供了相关数据集的标题列表。可以使用data/dataset_title_to_file.csv文件在元数据文件和标题之间进行映射。
数据集分析评估
评估数据集分析时,向您的架构提供"outputs"字典中指定的相关数据集和问题,然后手动将生成的答案与"outputs"字典中的真实答案进行比较,或使用eval_prompts/LLM_JUDGE_SYSTEM_PROMPT.txt中提供的LLM法官系统提示,并通过后续用户消息提供问题、参考答案和预测答案。
注意:少数问题被发现存在多个有效的相关数据集选项以及多个有效答案。因此,您的评估应考虑
alternative_relevant_datasets和alternative_answer属性(如果存在)。
基准测试说明
- benchmark_german.jsonl是主要的基准测试文件,以德语开发。所有元数据/数据集始终为德语。
- 此外,还通过DeepL API自动翻译了问题,提供了
benchmark_english.jsonl、benchmark_french.jsonl和benchmark_italian.jsonl版本。 benchmark_template.jsonl是用于生成上述基准测试的模板,包含可以使用不同参数实例化的模板化问题。benchmarks/gt_scripts目录包含手动编写的Python文件,用于为每个具有相关数据集的问题生成真实答案。文件名对应于基准测试条目的ID。- 苏黎世市的数据集采用CC-0许可证。最新版本可从https://www.stadt-zuerich.ch/geodaten/下载,但为了评估,您应使用包含的数据集,否则某些答案可能会发生变化。注意:如果您只想评估“数据集分析”任务,可以仅下载基准测试条目中引用为
"relevant_datasets"的数据集子集。 - 对于“数据集分析”,为智能体/大语言模型配备地理编码工具是有意义的。OGD4All依赖于谷歌的地理编码API。
引用信息
如果在研究中使用此基准测试,请引用我们的配套论文:
@article{siebenmann_ogd4all_2025, archivePrefix = {arXiv}, arxivId = {2602.00012}, author = {Siebenmann, Michael and S{a}nchez-Vaquerizo, Javier Argota and Arisona, Stefan and Samp, Krystian and Gisler, Luis and Helbing, Dirk}, journal = {arXiv preprint arXiv:2602.00012}, month = {nov}, title = {{OGD4All: A Framework for Accessible Interaction with Geospatial Open Government Data Based on Large Language Models}}, url = {https://arxiv.org/abs/2602.00012}, year = {2025} }
除了基准测试,这篇论文(已被IEEE CAI 2026接受)还介绍了OGD4All架构,该架构即使使用GPT-4.1等“较旧”的前沿模型也能实现高召回率和正确性分数。OGD4All的源代码公开可用:https://github.com/ethz-coss/ogd4all




