WikiWebQuestions

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/stanford-oval/wikidata-emnlp23

下载链接

链接失效反馈

官方服务：

资源简介：

一个基于Wikidata的SPARQL标注数据集

A SPARQL annotation dataset based on Wikidata

创建时间：

2023-08-26

原始信息汇总

数据集概述

数据集名称

Seq-to-Seq Semantic Parsing over Wikidata

数据集结构

WikiWebQuestions: 包含WikiWebQuestions数据集。
training_data: 包含论文中所有模型的训练数据。
predicted_results: 包含论文中所有模型的预测结果。

模型信息

WikiSP (LLaMA) models:
- WikiSP (ours): 训练于WikiWebQuestions和Stanford Alpaca数据集。
- WikiSP (ours) with Qald-7: 训练于WikiWebQuestions, Qald-7和Stanford Alpaca数据集。

评估方法

使用eval_predictions.py进行评估，需提供预测文件和相应的数据集文件。

模型训练数据命名

best: 对应论文中Section 6的WikiSP (ours)模型。
no_mention_oracle: 对应论文中Section 6.2的No mentions, trained with Oracle NED模型。
no_mention_refined: 对应论文中Section 6.2的No mentions, trained with ReFinED模型。
original_query_format: 对应论文中Section 6.3的Original SPARQL模型。

引用信息

若使用此数据集或代码，请引用以下论文：

@inproceedings{xu-etal-2023-fine, title = "Fine-tuned {LLM}s Know More, Hallucinate Less with Few-Shot Sequence-to-Sequence Semantic Parsing over {W}ikidata", author = "Xu, Silei and Liu, Shicheng and Culhane, Theo and Pertseva, Elizaveta and Wu, Meng-Hsi and Semnani, Sina and Lam, Monica", booktitle = "Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing", year = "2023", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.emnlp-main.353", pages = "5778--5791" }

搜集汇总

数据集介绍

构建方式

WikiWebQuestions数据集的构建基于WebQuestions数据集，并将其迁移至Wikidata平台。该数据集通过SPARQL注释，涵盖了真实世界的问题与答案，旨在为Wikidata提供高质量的问答基准。构建过程中，研究团队对SPARQL进行了修改，以使用Wikidata特有的领域和属性名称，而非其ID，从而增强了数据集的实用性和可解释性。

特点

WikiWebQuestions数据集的主要特点在于其高质量的问答对和与Wikidata的深度结合。数据集中的问题与答案均经过精心标注，确保了其在语义解析任务中的有效性。此外，数据集支持多种模型的训练与评估，包括LLaMA等大型语言模型，为研究者提供了丰富的实验资源。

使用方法

使用WikiWebQuestions数据集时，用户可通过Hugging Face平台下载预训练模型，并利用提供的Docker镜像进行推理。数据集的评估可通过`eval_predictions.py`脚本进行，用户需准备与`predicted_results/best.json`格式一致的预测文件。此外，数据集支持与ReFinED模型的集成，进一步提升了实体链接的准确性。

背景与挑战

背景概述

WikiWebQuestions数据集由斯坦福大学的研究人员于2023年创建，旨在通过序列到序列的语义解析技术，提升基于Wikidata的知识问答系统的准确性和可靠性。该数据集的核心研究问题是如何在Wikidata的庞大知识库中，通过语义解析生成准确的SPARQL查询，从而解决自然语言问答中的实体链接和属性映射问题。WikiWebQuestions的推出不仅为自然语言处理领域提供了新的基准测试数据，还为大规模语言模型在知识问答任务中的应用提供了重要的实验平台。

当前挑战

WikiWebQuestions数据集在构建过程中面临多项挑战。首先，如何从Wikidata中提取高质量的问答对，并确保其与自然语言查询的语义一致性，是一个复杂的问题。其次，数据集的构建需要处理Wikidata中复杂的实体和属性关系，这要求研究人员设计高效的语义解析算法。此外，数据集的评估标准需要兼顾准确性和覆盖率，以确保其在实际应用中的有效性。最后，如何在大规模语言模型中有效利用该数据集进行微调，以提升模型的知识问答能力，也是当前研究的一个重要挑战。

常用场景

经典使用场景

在自然语言处理领域，WikiWebQuestions数据集的经典使用场景主要集中在语义解析和问答系统的构建上。该数据集通过将自然语言问题映射到Wikidata的SPARQL查询，为研究人员提供了一个高质量的基准，用于评估和训练序列到序列的语义解析模型。这些模型能够将用户输入的自然语言问题转换为结构化的查询语言，从而直接从Wikidata中提取准确的信息。

解决学术问题

WikiWebQuestions数据集解决了自然语言处理中的一个关键问题，即如何将非结构化的自然语言问题准确地映射到结构化的知识库查询。通过提供带有SPARQL注释的真实世界数据，该数据集为研究人员提供了一个标准化的评估平台，帮助他们开发和验证语义解析模型。这不仅提高了问答系统的准确性，还为大规模知识库的利用提供了新的方法，推动了相关领域的研究进展。

衍生相关工作

基于WikiWebQuestions数据集，研究人员开发了多种相关的经典工作。例如，通过结合Wikidata和WebQuestions数据，研究人员训练了高效的序列到序列语义解析模型，并在多个公开数据集上取得了优异的表现。此外，该数据集还激发了对实体链接和知识库查询优化的进一步研究，推动了自然语言处理和知识图谱领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集