GeoQuestions1089
收藏Hugging Face2024-06-30 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/AI-team-UoA/GeoQuestions1089
下载链接
链接失效反馈官方服务:
资源简介:
GeoQuestions1089是一个众包的地理空间问答数据集,包含1089个三元组,包括自然语言问题、SPARQL/GeoSPARQL查询及其答案,针对知识图谱YAGO2geo。数据集分为两个部分:GeoQuestions_c和GeoQuestions_w,分别包含1017和72个条目。GeoQuestions_w中的问题包含语法、句法和拼写错误。数据集的最新版本1.1进行了多项改进,包括查询格式的统一、自然语言处理的修正等。数据集的问题分为9个类别,涵盖了地理空间问答的多个方面。
创建时间:
2024-06-30
原始信息汇总
GeoQuestions1089 数据集概述
基本信息
- 许可证: CC BY 4.0
- 任务类别: 问答系统
- 语言: 英语
- 数据量: 1K<n<10K
数据集描述
GeoQuestions1089 是一个众包的地理空间问答数据集,包含1089组自然语言问题、SPARQL/GeoSPARQL查询及其答案,针对知识图谱YAGO2geo。
数据集结构
数据集分为两个部分:
- GeoQuestions_c: 包含1017个条目,问题无语法、句法和拼写错误。
- GeoQuestions_w: 包含72个条目,问题包含语法、句法和拼写错误。
数据集版本
- 当前版本: 1.1
- 版本1.1更新:
- 统一查询格式和变量命名
- 修正自然语言大小写问题
- 修正查询分类错误
- 替换stSPARQL函数为GeoSPARQL函数
- 改进查询正确性
- 替换错误的三元组
数据集分类
数据集的问题分为9个类别:
- 询问特征的主题或空间属性
- 询问特征是否与另一个或多个特征存在地理空间关系
- 询问给定类别的特征与另一个特征的地理空间关系
- 询问给定类别的特征与任何其他类别特征的地理空间关系
- 询问给定类别的特征与未指定特征的地理空间关系,且其中一个或两者与明确指定的特征存在其他地理空间关系
- 类似C、D、E类别,但包含更多特征的主题和/或地理空间特征
- 包含数量和聚合的问题
- 包含最高级或比较级的问题
- 包含数量、聚合和最高级/比较级的问题
类别分布
| 类别 | GeoQuestions1089_c | GeoQuestions1089_w |
|---|---|---|
| A | 173 | 16 |
| B | 139 | 11 |
| C | 176 | 14 |
| D | 22 | 1 |
| E | 138 | 6 |
| F | 24 | 2 |
| G | 174 | 11 |
| H | 145 | 9 |
| I | 26 | 2 |
基准测试
数据集用于评估两个问答引擎:
- GeoQA2
- Hamzei et al. 引擎
评估结果
GeoQA2
| 类别 | 可执行查询(C) | 正确答案(C) | 正确答案*(C) | 可执行查询(W) | 正确答案(W) | 正确答案*(W) |
|---|---|---|---|---|---|---|
| A | 83.81% | 50.86% | 60.68% | 75.00% | 50.00% | 66.67% |
| B | 74.82% | 60.43% | 80.76% | 81.81% | 45.45% | 55.56% |
| C | 81.25% | 45.45% | 55.94% | 85.71% | 50.00% | 58.34% |
| D | 54.54% | 9.09% | 16.67% | 100.00% | 0.00% | 0.00% |
| E | 76.08% | 24.63% | 32.38% | 50.00% | 33.33% | 66.67% |
| F | 58.33% | 25.00% | 42.85% | 50.00% | 0.00% | 0.00% |
| G | 73.56% | 33.33% | 45.31% | 36.36% | 0.00% | 0.00% |
| H | 66.89% | 18.62% | 27.83% | 66.67% | 0.00% | 0.00% |
| I | 80.76% | 19.23% | 23.80% | 50.00% | 0.00% | 0.00% |
| 总计 | 75.61% | 37.75% | 49.93% | 68.05% | 30.55% | 44.89% |
Hamzei et al.
| 类别 | 可执行查询(C) | 正确答案(C) | 正确答案*(C) | 可执行查询(W) | 正确答案(W) | 正确答案*(W) |
|---|---|---|---|---|---|---|
| A | 82.08% | 23.12% | 28.16% | 93.75% | 6.25% | 6.67% |
| B | 94.96% | 53.23% | 56.06% | 100.00% | 54.54% | 54.54% |
| C | 81.81% | 26.13% | 31.94% | 100.00% | 14.28% | 14.28% |
| D | 81.81% | 4.54% | 5.55% | 100.00% | 0.00% | 0.00% |
| E | 92.75% | 6.52% | 7.03% | 83.34% | 0.00% | 0.00% |
| F | 62.50% | 12.50% | 20.00% | 90.90% | 0.00% | 0.00% |
| G | 80.45% | 10.34% | 12.85% | 100.00% | 0.00% | 0.00% |
| H | 77.93% | 26.89% | 34.51% | 77.78% | 0.00% | 0.00% |
| I | 84.61% | 7.96% | 9.09% | 50.00% | 0.00% | 0.00% |
| 总计 | 83.97% | 22.81% | 27.28% | 93.05% | 12.50% | 13.43% |
材料化和转译器
为了提高查询执行的时间性能,预计算和材料化了YAGO2geo KG中某些实体之间的关系。
RDF存储
使用GraphDB运行实验并生成黄金和生成查询的答案。
许可证
数据集遵循CC0 Attribution 4.0 International许可证。
搜集汇总
数据集介绍

构建方式
GeoQuestions1089数据集通过众包方式构建,专注于地理空间问答任务,目标知识图谱为YAGO2geo。该数据集包含1089组三元组,每组由自然语言问题、SPARQL/GeoSPARQL查询及其答案组成。数据集分为两部分:GeoQuestions_c包含1017条无语法错误的条目,GeoQuestions_w则包含72条带有语法、拼写或句法错误的条目。数据集的构建过程经过多次迭代,最新版本1.1在查询格式、变量命名、自然语言大小写、查询分类等方面进行了优化,确保了数据的一致性和准确性。
特点
GeoQuestions1089数据集的特点在于其多样化的地理空间问题类别,涵盖了从简单的地理属性查询到复杂的空间关系分析。问题被分为九大类,包括询问地理特征的空间属性、地理关系、特定类别的特征及其空间关系等。此外,数据集还包含带有语法错误的自然语言问题,为研究如何处理不完美的输入提供了独特的机会。数据集的查询语言为SPARQL/GeoSPARQL,支持复杂的地理空间计算,如距离、方向、拓扑关系等。
使用方法
GeoQuestions1089数据集主要用于评估地理空间问答系统的性能。研究人员可以使用该数据集来测试和优化其问答引擎,特别是在处理自然语言问题生成SPARQL/GeoSPARQL查询的能力上。数据集提供了详细的分类和查询示例,用户可以通过GitHub仓库获取相关代码和工具。此外,数据集还支持GraphDB等RDF存储系统,用户可以通过扩展的GeoSPARQL插件进行实验和查询执行。数据集的开放性和标准化格式使其成为地理空间问答研究的重要资源。
背景与挑战
背景概述
GeoQuestions1089数据集是一个众包的地理空间问答数据集,旨在针对知识图谱YAGO2geo进行问答任务。该数据集由1089个三元组组成,每个三元组包含自然语言问题、SPARQL/GeoSPARQL查询及其对应的答案。该数据集由雅典大学的研究团队于2023年发布,并在国际语义网会议(ISWC)上进行了详细介绍。GeoQuestions1089的创建旨在为地理空间问答引擎提供基准测试,特别是用于评估GeoQA2和Hamzei等人开发的引擎。该数据集不仅推动了地理空间问答领域的研究,还为知识图谱与自然语言处理技术的结合提供了新的研究方向。
当前挑战
GeoQuestions1089数据集在构建和应用过程中面临多重挑战。首先,地理空间问答任务本身具有复杂性,涉及自然语言理解、知识图谱查询以及地理空间推理的多重技术融合。其次,数据集中包含的自然语言问题存在语法、拼写和句法错误,这增加了模型处理的难度。此外,GeoSPARQL查询的生成与执行需要高度精确的地理空间计算,尤其是在处理诸如‘near’等模糊概念时,定义和计算距离的准确性至关重要。数据集的构建过程中,研究人员还需确保查询的一致性和正确性,特别是在处理大规模知识图谱时,查询性能的优化也是一个重要挑战。
常用场景
经典使用场景
GeoQuestions1089数据集在地理空间问答系统领域具有广泛的应用,特别是在基于知识图谱的地理信息检索中。该数据集通过提供1089组自然语言问题、SPARQL/GeoSPARQL查询及其答案,为研究人员提供了一个标准化的基准测试平台。其经典使用场景包括评估和优化地理空间问答引擎的性能,如GeoQA2和Hamzei等人的系统,这些引擎通过处理复杂的自然语言问题,生成精确的地理空间查询,从而提升系统的准确性和效率。
实际应用
在实际应用中,GeoQuestions1089数据集为地理信息系统(GIS)和智能问答系统的开发提供了重要支持。例如,该数据集可用于开发智能助手,帮助用户通过自然语言查询获取地理空间信息,如查找特定地点的位置、计算地理特征之间的距离或面积等。此外,数据集还可用于教育领域,帮助学生和研究人员学习如何构建和优化地理空间问答系统,提升其在真实场景中的应用能力。
衍生相关工作
GeoQuestions1089数据集催生了一系列相关研究工作,特别是在地理空间问答引擎的开发和优化方面。基于该数据集,研究人员提出了GeoQA2和Hamzei等人的系统,这些系统通过处理复杂的自然语言问题,生成精确的地理空间查询,显著提升了问答系统的性能。此外,该数据集还推动了知识图谱与自然语言处理技术的融合研究,为后续的地理空间问答系统开发提供了重要的理论和技术支持。
以上内容由遇见数据集搜集并总结生成



