KGQAGen-10k

Name: KGQAGen-10k
Creator: Rensselaer Polytechnic Institute, University of Toronto, Pennsylvania State University, AT&T Chief Data Office, Griffith University
Published: 2025-05-29 22:44:52
License: 暂无描述

arXiv2025-05-29 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/lianglz/KGQAGen-10k

下载链接

链接失效反馈

官方服务：

资源简介：

KGQAGen-10k是一个由10,787个问答对组成的数据集，由KGQAGen框架生成。该数据集旨在解决现有KGQA数据集中存在的事实错误、问题模糊或不合理等问题。KGQAGen框架利用大型的、最新的Wikidata作为知识库，并通过LLM引导的生成和符号验证来确保每个实例在事实上是正确的，并且在语言上也是合理的。该数据集可用于分析和评估KG-RAG模型的质量和多样性，以及揭示现有模型的局限性。

KGQAGen-10k is a dataset composed of 10,787 question-answer pairs, generated using the KGQAGen framework. This dataset aims to address issues existing in current KGQA datasets, such as factual errors, ambiguous or unreasonable questions. The KGQAGen framework utilizes the large-scale, up-to-date Wikidata as its knowledge base, and employs LLM-guided generation and symbolic verification to ensure that each instance is factually correct and linguistically reasonable. This dataset can be used to analyze and evaluate the quality and diversity of KG-RAG models, as well as reveal the limitations of existing models.

提供机构：

Rensselaer Polytechnic Institute, University of Toronto, Pennsylvania State University, AT&T Chief Data Office, Griffith University

创建时间：

2025-05-29

原始信息汇总

KGQAGen-10k 数据集概述

数据集基本信息

任务类别: 问答系统
标签: 代码、生物学、化学、金融、音乐、艺术、医学、气候、法律
规模分类: 10K<n<100K
下载大小: 7,822,383 字节
数据集大小: 18,956,365 字节

数据集结构

特征

id: 整型，唯一标识符
seed: 字符串，种子信息
question: 字符串，自然语言问题
answer: 字符串序列，标准答案集
sparql: 字符串，机器可执行的SPARQL查询
proof: 字符串序列的序列，支持子图（证据）

数据划分

full: 9,480,145 字节，10,787 个样本
train: 7,583,651 字节，8,629 个样本
dev: 938,332 字节，1,079 个样本
test: 954,237 字节，1,079 个样本

数据集描述

KGQAGen-10k 是一个高质量的多跳知识图谱问答（KGQA）示例数据集，通过KGQAGen框架从Wikidata自动构建。该数据集展示了如何通过子图扩展、SPARQL验证和LLM引导生成来构建大规模、可验证的QA基准。

示例内容

每个实例包含：

自然语言问题
标准答案集
机器可执行的SPARQL查询
最小支持子图（证据）

示例： json { "id": 23, "seed": "Q61391", "question": "Which sport that is a subclass of both gymnastics and dance is the main subject of an item, described by Girl Culture: An Encyclopedia, and associated with a piece of equipment that has use in that sport?", "answer": ["cheerleading"], "sparql": "SELECT ?sport ?sportLabel WHERE { ?sport wdt:P279 wd:Q43450 . ?sport wdt:P279 wd:Q11639 . ?sport wdt:P1343 wd:Q116876043 . SERVICE wikibase:label { bd:serviceParam wikibase:language "en". } }", "proof": [ ["cheerleading (Q61391)", "subclass of (P279)", "gymnastics (Q43450)"], ["cheerleading (Q61391)", "subclass of (P279)", "dance (Q11639)"], ["Q1770162 (Q1770162)", "main subject (P921)", "cheerleading (Q61391)"], ["cheerleading (Q61391)", "described by source (P1343)", "Girl Culture: An Encyclopedia (Q116876043)"], ["pom-pom (Q1187538)", "has use (P366)", "cheerleading (Q61391)"], ["cheerleading (Q61391)", "subclass of (P279)", "human activity (Q61788060)"] ] }

搜集汇总

数据集介绍

构建方式

KGQAGen-10k数据集通过KGQAGen框架构建，该框架结合了结构化知识基础、LLM引导生成和符号验证技术。首先从Wikipedia Vital Articles中选取种子实体，基于Wikidata构建初始子图，随后通过迭代的LLM引导子图扩展过程生成具有多跳推理能力的复杂问题。每个问题实例均经过SPARQL查询验证，确保答案在知识图谱中的可验证性和事实准确性。

使用方法

该数据集适用于评估KG-RAG系统的多跳推理能力，提供标准化的8,629/1,079/1,079训练/开发/测试划分。使用时需通过SPARQL端点连接Wikidata执行验证查询，支持两种评估模式：严格字符串匹配（EM）和基于GPT-4o-mini的语义匹配（LASM）。高级应用可结合支持子图进行完美检索实验，或通过分析问题-子图-答案三元组诊断模型推理缺陷。

背景与挑战

背景概述

KGQAGen-10k是由Rensselaer Polytechnic Institute、University of Toronto等机构的研究团队于2025年提出的一个知识图谱问答（KGQA）基准数据集。该数据集旨在解决现有KGQA基准数据集（如WebQSP和CWQ）中存在的质量问题，包括标注错误、问题模糊或过于简单以及知识过时等问题。KGQAGen-10k基于Wikidata知识图谱，采用了一种结合结构化知识基础、大语言模型（LLM）引导生成和符号验证的系统化框架（KGQAGen）构建而成。该数据集包含10,787个经过验证的问答对，覆盖艺术、天文学、生物学、物理学等多个领域，具有较高的语言复杂性和推理深度。KGQAGen-10k的推出为评估KG-RAG系统的复杂多跳推理能力提供了更可靠的基准，对推动知识图谱问答领域的发展具有重要意义。

当前挑战

KGQAGen-10k面临的主要挑战包括：1) 领域问题挑战：现有KGQA数据集普遍存在标注质量低、问题设计不合理等问题，难以有效评估模型在复杂多跳推理任务上的真实性能；2) 构建过程挑战：在数据集构建过程中，需要确保生成的问题具有足够的推理复杂度，同时避免问题模糊或自包含答案；验证生成的问答对在知识图谱中的可验证性也是一大挑战；3) 评估挑战：传统的精确匹配评估方法无法识别语义正确但表述不同的答案，需要开发更合理的评估指标。此外，数据集的质量还依赖于底层知识图谱（如Wikidata）的准确性和完整性，知识图谱中的错误或缺失会影响生成问答对的质量。

常用场景

经典使用场景

KGQAGen-10k数据集在知识图谱问答系统（KGQA）的评估中扮演着关键角色，特别是在测试模型的多跳推理能力和对复杂问题的处理能力方面。该数据集通过其精心设计的问答对，能够有效评估模型在真实场景下的表现，尤其是在需要结合多源知识和深度推理的复杂问题中。

解决学术问题

KGQAGen-10k解决了现有KGQA数据集中普遍存在的标注错误、问题模糊以及评估标准过于僵化等问题。通过引入LLM辅助的生成和符号验证机制，该数据集显著提高了问答对的准确性和多样性，为研究社区提供了一个更加可靠和具有挑战性的评估基准。

实际应用

在实际应用中，KGQAGen-10k可用于开发和优化各类基于知识图谱的问答系统，特别是在需要高精度和多跳推理的场景，如医疗咨询、法律分析和教育辅导等。其高质量的数据标注和复杂的问答设计使得它成为测试和提升系统性能的理想选择。

数据集最近研究