AI-team-UoA/GeoQuestions1089
收藏Hugging Face2024-06-30 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/AI-team-UoA/GeoQuestions1089
下载链接
链接失效反馈官方服务:
资源简介:
GeoQuestions1089是一个众包的地理空间问答数据集,包含1089个三元组,每个三元组由自然语言问题、SPARQL/GeoSPARQL查询及其答案组成。该数据集的目标是知识图谱YAGO2geo,并用于评估两个最先进的问答引擎GeoQA2和Hamzei等人的引擎。数据集分为两部分:GeoQuestions_c和GeoQuestions_w,前者包含1017个条目,后者包含72个条目,区别在于后者的自然语言问题包含语法、句法和拼写错误。数据集的最新版本是1.1,包含多项改进,如统一的查询格式和变量命名、自然语言大小写修正、查询分类修正等。数据集的问答问题分为9个类别,涵盖了从简单的地理属性查询到复杂的空间关系查询。
GeoQuestions1089 is a crowdsourced geospatial question-answering dataset that contains 1089 triples of natural language questions, SPARQL/GeoSPARQL queries, and their answers. The dataset targets the Knowledge Graph YAGO2geo and has been used to benchmark two state-of-the-art Question Answering engines, GeoQA2 and the engine of Hamzei et al. The dataset is divided into two parts: GeoQuestions_c and GeoQuestions_w, with the former containing 1017 entries and the latter containing 72 entries, the difference being that the natural language questions in GeoQuestions_w contain grammatical, syntactical, and spelling mistakes. The latest version of the dataset is 1.1, which includes several enhancements such as uniform query format and variable naming, fixes in natural language capitalization, corrections in query categorization, and more. The datasets questions are categorized into 9 categories, ranging from simple thematic attribute queries to complex geospatial relation queries.
提供机构:
AI-team-UoA
原始信息汇总
GeoQuestions1089 数据集概述
基本信息
- 许可证: CC BY 4.0
- 任务类别: 问答
- 语言: 英语
- 数据量: 1K < n < 10K
数据集描述
- 名称: GeoQuestions1089
- 来源: 众包的时空问答数据集,包含1089个自然语言问题、SPARQL/GeoSPARQL查询及其答案,基于YAGO2geo知识图谱。
- 版本: 1.1
数据集结构
- 部分:
- GeoQuestions_c: 1017个条目,问题无语法、句法和拼写错误。
- GeoQuestions_w: 72个条目,问题包含语法、句法和拼写错误。
- 范围:
- GeoQuestions_c:
- 1-895: 仅针对YAGO2geo
- 896-1017: 针对YAGO2 + YAGO2geo
- GeoQuestions_w: 1018-1089: 问题包含错误
- GeoQuestions_c:
版本更新
- 版本1.1:
- 统一查询格式和变量命名
- 修正自然语言大小写
- 修正查询分类
- 替换stSPARQL函数为GeoSPARQL函数
- 改进现有查询的正确性
- 替换错误的三元组
问题分类
- 类别: 9类
- A: 询问特征的主题或空间属性
- B: 询问特征是否与另一特征或特征集存在空间关系
- C: 询问给定类别的特征与另一特征的空间关系
- D: 询问给定类别的特征与另一类别的特征的空间关系
- E: 询问给定类别的特征与未指定类别的特征的空间关系,且其中一个或两个与明确指定的特征存在另一空间关系
- F: 类似C、D、E,但期望答案包含更多主题和/或空间特征
- G: 包含数量和聚合的问题
- H: 包含最高级或比较级的问题
- I: 包含数量、聚合和最高级/比较级的问题
类别分布
| 类别 | GeoQuestions1089_c | GeoQuestions1089_w |
|---|---|---|
| A | 173 | 16 |
| B | 139 | 11 |
| C | 176 | 14 |
| D | 22 | 1 |
| E | 138 | 6 |
| F | 24 | 2 |
| G | 174 | 11 |
| H | 145 | 9 |
| I | 26 | 2 |
前缀定义
PREFIX geo: http://www.opengis.net/ont/geosparql# PREFIX geof: http://www.opengis.net/def/function/geosparql/ PREFIX rdf: http://www.w3.org/1999/02/22-rdf-syntax-ns# PREFIX rdfs: http://www.w3.org/2000/01/rdf-schema# PREFIX xsd: http://www.w3.org/2001/XMLSchema# PREFIX yago: http://yago-knowledge.org/resource/ PREFIX y2geor: http://kr.di.uoa.gr/yago2geo/resource/ PREFIX y2geoo: http://kr.di.uoa.gr/yago2geo/ontology/ PREFIX strdf: http://strdf.di.uoa.gr/ontology# PREFIX uom: http://www.opengis.net/def/uom/OGC/1.0/ PREFIX owl: http://www.w3.org/2002/07/owl#
许可证
- 许可证: CC0 Attribution 4.0 International
- 版权: © 2024 AI-Team, University of Athens
搜集汇总
数据集介绍

构建方式
GeoQuestions1089数据集是一个众包的地理空间问答数据集,旨在针对知识图谱YAGO2geo进行研究和应用。它包含了1089个自然语言问题、SPARQL/GeoSPARQL查询及其答案的三元组。数据集的构建主要采用了众包的方式,由人们提出问题,并使用SPARQL/GeoSPARQL查询语言进行查询,最后收集这些查询和答案,形成数据集。此外,数据集还包含了针对YAGO2geo的1017个三元组和针对YAGO2+YAGO2geo的72个三元组,分别命名为GeoQuestions_c和GeoQuestions_w。
使用方法
GeoQuestions1089数据集的使用方法主要包括以下步骤:首先,需要了解数据集的结构和内容,可以通过阅读相关的论文和README文件来获取这些信息;其次,可以根据研究需求选择合适的问题类别进行研究和应用;最后,可以使用SPARQL/GeoSPARQL查询语言进行查询,并通过评估查询结果来评估问答系统的性能。此外,数据集还提供了预计算的实体关系,有助于提高查询执行的时间性能。
背景与挑战
背景概述
GeoQuestions1089 是一个针对地理空间知识图谱 YAGO2geo 的众包地理空间问答数据集。它包含 1089 个三元组,包括自然语言问题、SPARQL/GeoSPARQL 查询及其答案。该数据集由雅典大学 AI 团队创建,旨在为地理空间问答研究提供一个可靠和一致的资源。GeoQuestions1089 已被用于评估两个最先进的问答引擎 GeoQA2 和 Hamzei 等人的引擎。该数据集的最新版本是 1.1,它包括对查询格式、变量命名、自然语言大写、查询分类、stSPARQL 函数和 GeoSPARQL 函数的更新,以及查询正确性的改进。
当前挑战
GeoQuestions1089 面临的挑战包括:1) 如何有效地回答包含语法、句法和拼写错误的自然语言问题;2) 如何处理包含多个地理空间关系的复杂查询;3) 如何利用预计算和物化关系来提高查询执行的时间性能。此外,GeoQuestions1089 还需要扩展和改进以支持更多的地理空间关系和更复杂的查询。
常用场景
经典使用场景
在地理信息系统(GIS)和知识图谱(KG)领域,地理空间问答(GeoQA)系统旨在理解自然语言中的地理空间查询,并将其转化为结构化查询语言(SPARQL/GeoSPARQL)以从知识图谱中检索信息。GeoQuestions1089数据集,包含1089个自然语言问题及其对应的SPARQL/GeoSPARQL查询和答案,是评估GeoQA系统性能的理想工具。该数据集可用于训练和测试自然语言处理模型,以理解和转换自然语言中的地理空间查询,并从知识图谱中获取精确的地理信息。
解决学术问题
GeoQuestions1089数据集解决了地理空间问答系统性能评估的挑战。它提供了标准化的问题和查询对,允许研究人员系统地评估和比较不同GeoQA系统的性能。此外,数据集包含了含有语法和拼写错误的问题,这有助于评估系统在处理真实世界查询时的鲁棒性。GeoQuestions1089的发布,为地理空间问答领域的研究提供了宝贵资源,促进了该领域技术的发展。
实际应用
GeoQuestions1089数据集的实际应用场景广泛。在智能城市、城市规划、环境监测等领域,GeoQA系统可以用于分析公众对地理空间信息的查询,以提供定制化的地理信息服务。例如,在智能城市中,GeoQA系统可以帮助居民了解附近的公共服务设施,如医院、学校、公园等。此外,在环境监测中,GeoQA系统可以用于分析公众对环境污染、气候变化等问题的查询,以提供相关的地理空间信息。
数据集最近研究
最新研究方向
GeoQuestions1089数据集在地理空间问答领域的前沿研究方向主要集中在如何提高问答系统的准确性和效率。数据集包含了1089个自然语言问题、SPARQL/GeoSPARQL查询及其答案,为地理空间知识图谱YAGO2geo提供了一种新的基准。研究人员正在探索如何更好地理解和处理地理空间关系,以及如何将自然语言问题转换为有效的GeoSPARQL查询。此外,数据集还包含了一些包含语法、拼写错误的问题,这为问答系统的鲁棒性和容错性研究提供了新的挑战。
以上内容由遇见数据集搜集并总结生成



