query-reformulation

Hugging Face2025-03-22 更新2025-03-23 收录

下载链接：

https://huggingface.co/datasets/alexdong/query-reformulation

下载链接

链接失效反馈

官方服务：

资源简介：

QRKB-16k是一个包含16384对合成查询重写示例的知识图谱检索数据集，用于促进查询理解和检索增强生成研究。每个示例包括一个自然语言查询和一组相应的子查询，这些子查询是适合从知识图谱中检索的语义三元组的部分。数据集支持比较、链式和扩展三种查询重写模式，并提供每个子查询集的5种问题变体。

创建时间：

2025-03-22

搜集汇总

数据集介绍

构建方式

QRKB-16k数据集通过一种创新的‘反向合成’方法构建，首先从本地知识图谱中提取实体和关系，随后通过广度优先遍历构建局部知识图谱，并生成适合知识图谱检索的结构化子查询。最后，利用语言模型生成与子查询对应的自然语言查询，确保查询风格与现有数据集如MS-MARCO和HotpotQA一致。

使用方法

QRKB-16k数据集以JSON Lines格式提供，每行包含一个查询实例，用户可以通过解析JSON对象获取原始查询和对应的子查询。该数据集适用于文本生成、问答和句子相似性任务，特别适合用于知识图谱检索增强生成（RAG）的研究。用户可通过HuggingFace平台下载并使用该数据集，结合DBpedia和Wikidata进行实验和模型优化。

背景与挑战

背景概述

QRKB-16k数据集由Alex Dong于2025年创建，旨在推动基于知识图谱的查询理解和检索增强生成（RAG）研究。该数据集包含16,384对自然语言查询及其对应的子查询，每个子查询以部分语义三元组的形式呈现，适用于从DBpedia和Wikidata等知识图谱中检索信息。QRKB-16k的独特之处在于其通过“反向合成”方法生成数据，即从结构化知识图谱三元组出发，逆向生成自然语言查询。这一方法弥补了现有数据集（如MS-MARCO和HotpotQA）在知识图谱检索中的不足，为研究者提供了更直接的工具来优化查询重构模型。

当前挑战

QRKB-16k数据集在构建和应用中面临多重挑战。首先，其生成过程依赖于Gemini-3 7B模型和o3-mini模型，可能导致数据准确性和语言风格上的偏差。其次，数据集中的实体和关系可能存在代表性偏差，影响模型在特定领域或实体类型上的表现。此外，由于数据是合成生成的，可能无法完全捕捉真实用户查询的复杂性和多样性，限制了其在真实场景中的泛化能力。最后，数据集主要针对DBpedia和Wikidata设计，可能不适用于其他知识图谱结构，限制了其通用性。这些挑战需要在后续研究和应用中加以解决，以提升数据集的实用性和可靠性。

常用场景

经典使用场景

QRKB-16k数据集在自然语言处理领域，尤其是知识图谱检索和查询重构任务中，展现了其独特的价值。该数据集通过提供16,384对自然语言查询及其对应的结构化子查询，为研究者提供了一个丰富的实验平台。这些子查询以语义三元组的形式呈现，适用于从DBpedia和Wikidata等知识图谱中检索信息。数据集的设计特别适合用于查询理解、检索增强生成（RAG）以及句子相似性任务的研究。

解决学术问题

QRKB-16k数据集解决了在知识图谱检索中如何将自然语言查询有效分解为结构化子查询的学术问题。传统的数据集如MS-MARCO和HotpotQA主要关注人类可读的输出，而QRKB-16k则专注于将查询分解为适合知识图谱检索的结构化子查询。这不仅提高了查询的召回率和精确率，还为研究者提供了一个无需依赖私有搜索引擎索引的实验环境。

实际应用

在实际应用中，QRKB-16k数据集可以广泛应用于智能问答系统、搜索引擎优化以及知识图谱的自动扩展。通过将自然语言查询转化为结构化子查询，系统能够更高效地从知识图谱中检索相关信息，从而提升用户体验。此外，该数据集还可用于训练和评估查询重构模型，帮助开发者优化查询处理流程。

数据集最近研究