five

GeoChanges QA Dataset

收藏
github2024-04-18 更新2024-05-31 收录
下载链接:
https://github.com/AI-team-UoA/GeoChanges-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
GeoChanges QA数据集是一个半自动创建的数据集,涉及生成一组子图及其对应的自然语言问题。数据集生成基于HCB-Ontology和HCB-KG。

The GeoChanges QA dataset is a semi-automatically created dataset that involves generating a set of subgraphs along with their corresponding natural language questions. The dataset generation is based on the HCB-Ontology and HCB-KG.
创建时间:
2023-06-19
原始信息汇总

GeoChanges-Dataset 概述

数据集简介

GeoChanges QA Dataset 是一个半自动生成的数据集,主要涉及手动生成一系列子图及其对应的自然语言问题。该数据集的生成基于 HCB-Ontology 和 HCB-KG。

HCB-Ontology

  • 描述: HCB-Ontology 文件可通过提供的链接获取。
  • 链接: ontology

HCB-Knowledge Graph

  • 描述: 该知识图谱遵循 HCB-Ontology,并使用 Atlas Historical County Boundaries Dataset 进行填充。
  • 数据源: Atlas Historical County Boundaries Dataset (https://digital.newberry.org/ahcb/downloads/states.html)
  • 公开文件: rdf_dump

QA 生成流程

  • 组件1: Random SPARQL Query Generator,负责基于输入的子图生成随机 SPARQL 查询。
  • 组件2: Queries2Questions,负责将随机生成的查询转换为自然语言问题。

Random SPARQL Query Generator

  • 位置: 位于 Geo_Changes 目录内。
  • 功能: 选择目标节点,创建通用查询以检索有效实例组合,用于生成至少返回一个结果的 SPARQL 查询。
  • 本地端点创建: 使用 python kg_api.py 创建,并通过 python pipeline.py 生成查询。

Queries2Questions

  • 功能: 将子图与问题模板映射,生成自然语言问题。
  • 操作: 使用 python pipeline.py 生成包含问题、查询和示例答案的输出文件。

数据集使用

  • QA 数据集: 包含 5700 个示例,DOI: 10.5281/zenodo.10257310。
  • SPARQL 查询运行: 可在 HCB-KG endpoint 运行。

许可证

  • 版权: 2024, AI Team, University of Athens。
  • 许可: 允许免费使用、复制、修改、合并、发布、分发、转授权和/或销售软件副本,但需包含版权声明和许可声明。
搜集汇总
数据集介绍
main_image_url
构建方式
GeoChanges QA Dataset的构建采用了半自动化的方式,结合了HCB-Ontology和HCB-Knowledge Graph。首先,通过手动生成一系列子图及其对应的自然语言问题,随后利用随机SPARQL查询生成器(Random SPARQL Query Generator)从这些子图中生成随机SPARQL查询。接着,通过Queries2Questions组件将这些查询映射到预定义的问题模板,生成相应的自然语言问题。整个过程依赖于HCB-Ontology的结构和HCB-Knowledge Graph的数据填充,确保了数据集的逻辑一致性和语义丰富性。
特点
该数据集的显著特点在于其结合了地理变化与知识图谱的深度语义信息。通过HCB-Ontology的结构化定义,数据集不仅包含了地理变化的历史数据,还通过SPARQL查询与自然语言问题的映射,提供了丰富的问答对。此外,数据集的生成过程高度自动化,确保了数据规模和多样性,同时保留了地理变化事件的复杂性和时间维度。
使用方法
使用GeoChanges QA Dataset时,用户可以通过提供的SPARQL查询在HCB-KG端点上运行,获取与地理变化相关的详细信息。数据集的问答对可以直接用于自然语言处理任务,如问答系统、语义解析等。此外,用户可以通过修改配置文件(configuration.py)调整生成查询的规则和参数,以适应不同的研究需求。数据集的灵活性和可扩展性使其适用于多种地理信息系统和知识图谱相关的研究与应用。
背景与挑战
背景概述
GeoChanges QA Dataset 是由雅典大学 AI 团队于2024年创建的一个半自动生成的问答数据集,旨在通过结合HCB-Ontology和HCB-Knowledge Graph,探索地理变化相关的自然语言问答任务。该数据集的核心研究问题是如何从历史地理边界数据中提取有意义的信息,并通过自然语言生成相应的问答对。其构建基于HCB-Ontology,并利用Atlas Historical County Boundaries Dataset填充知识图谱,生成了5700个问答对。该数据集的发布不仅为地理信息系统(GIS)领域的研究提供了新的资源,还为自然语言处理(NLP)领域中的知识图谱问答任务提供了宝贵的数据支持。
当前挑战
GeoChanges QA Dataset 的构建过程中面临了多个挑战。首先,如何从复杂的历史地理边界数据中提取有意义的信息并生成有效的SPARQL查询是一个技术难题。其次,将这些查询映射为自然语言问题时,需要确保问题的准确性和可理解性,这涉及到复杂的模板匹配和语言生成技术。此外,数据集的生成过程中还需要处理大量的地理和时间信息,确保生成的问答对在语义和逻辑上的正确性。最后,如何高效地构建和维护一个能够支持大规模查询的知识图谱端点也是一个重要的挑战,尤其是在处理复杂的地理空间查询时。
常用场景
经典使用场景
GeoChanges QA Dataset 主要用于地理变化相关的问答任务,特别是在历史地理边界变化的背景下。该数据集通过半自动化的方式生成,结合了HCB-Ontology和HCB-Knowledge Graph,能够生成大量关于地理变化的自然语言问题及其对应的SPARQL查询。这一数据集的经典使用场景包括地理信息系统(GIS)中的历史地理数据查询、地理变化事件的自动化问答系统构建,以及基于知识图谱的地理变化推理任务。
实际应用
在实际应用中,GeoChanges QA Dataset 可用于构建智能地理信息查询系统,帮助用户通过自然语言查询历史地理边界的变化情况。例如,在历史研究、文化遗产保护、城市规划等领域,该数据集可以为专家提供快速、准确的地理信息查询服务。此外,该数据集还可用于教育领域,帮助学生和研究人员通过问答形式学习地理变化的历史背景和相关知识。
衍生相关工作
基于GeoChanges QA Dataset,研究者们开发了多种相关的经典工作,包括改进的问答生成算法、基于知识图谱的地理变化推理模型,以及用于历史地理数据查询的自然语言接口。这些工作不仅提升了地理信息系统的智能化水平,还为其他领域的知识图谱构建和问答系统设计提供了宝贵的参考。此外,该数据集还激发了更多关于地理变化事件的语义分析和推理研究,推动了地理信息科学和人工智能的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作