PaDaS-Lab/Instruct-to-SPARQL

Name: PaDaS-Lab/Instruct-to-SPARQL
Creator: PaDaS-Lab
Published: 2024-06-03 15:11:51
License: 暂无描述

Hugging Face2024-06-03 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/PaDaS-Lab/Instruct-to-SPARQL

下载链接

链接失效反馈

官方服务：

资源简介：

Instruct-to-SPARQL数据集包含自然语言指令和对应的SPARQL查询对。该数据集通过爬取Wikipedia页面和教程收集真实的WikiData SPARQL查询，并进行了复杂性标注。数据集总共有2.8k个示例，分为训练、验证和测试集。每个示例包含唯一的ID、自然语言指令序列、原始SPARQL查询、带注释的SPARQL查询、最终使用的SPARQL查询、查询复杂性描述以及查询结果。该数据集主要用于问答和文本生成任务，旨在为SPARQL查询生成任务提供开源训练数据，以改进与Wikidata接口的检索增强生成管道。

提供机构：

PaDaS-Lab

原始信息汇总

数据集概述

数据集名称: Instruct-to-SPARQL

数据集描述: 该数据集包含自然语言指令与SPARQL查询的配对，通过爬取Wikipedia页面和教程收集真实WikiData SPARQL查询示例。数据集总计约2.8k个示例，分为训练、验证和测试集。

数据集特征

id: 整数型，唯一标识符。
instructions: 字符串序列，自然语言指令。
sparql_raw: 字符串，原始SPARQL查询。
sparql_annotated: 字符串，带注释的SPARQL查询。
sparql_query: 字符串，用于检索数据的最终SPARQL查询。
complexity: 字符串，查询复杂度度量。
complexity_description: 字符串，查询复杂度描述。
query_results: 字符串，执行SPARQL查询得到的结果。

数据集分割

full: 完整数据集。
train: 训练集。
validation: 验证集。
test: 测试集。

数据集配置

config_name: default
- 数据集大小: 8130064312字节
- 下载大小: 1074140179字节
- 完整数据集大小: 4067344522字节，包含2771个示例
- 训练集大小: 3068334809字节，包含1854个示例
- 验证集大小: 115559900字节，包含124个示例
- 测试集大小: 878825081字节，包含495个示例
config_name: with_limit
- 数据集大小: 951655881字节
- 下载大小: 131164798字节
- 完整数据集大小: 478173232字节，包含2771个示例
- 训练集大小: 298865233字节，包含1847个示例
- 验证集大小: 15864033字节，包含123个示例
- 测试集大小: 158753383字节，包含493个示例

许可证

数据集遵循CC BY 4.0许可证。

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，构建高质量的数据集对于提升语义查询能力至关重要。Instruct-to-SPARQL数据集通过系统化地爬取维基百科页面及相关教程，收集了真实场景下的WikiData SPARQL查询实例。这些查询经过精心处理，与对应的自然语言指令配对，并进一步标注了查询的复杂度及其描述，最终形成了包含约2.8千个样本的结构化集合。数据集划分为训练集、验证集和测试集，确保了其在机器学习任务中的实用性与评估可靠性。

特点

该数据集的核心特征在于其丰富的多维度标注与真实世界查询的紧密结合。每个样本不仅包含自然语言指令序列与原始SPARQL查询，还提供了带注释的查询版本、最终执行查询、复杂度分类及详细描述，甚至附带了查询结果。这种多层次结构使得数据集能够支持从基础查询生成到复杂语义解析的多种研究需求。其查询复杂度涵盖从简单到复杂的多种类型，为模型训练提供了梯度化的挑战。

使用方法

在自然语言到结构化查询的转换研究中，该数据集可直接用于训练和评估序列到序列模型。研究人员可通过Hugging Face的datasets库便捷加载数据集，利用其标准划分进行模型训练、验证与测试。每个样本的指令与查询对可用于微调大语言模型，提升其生成准确SPARQL查询的能力。同时，标注的复杂度信息可用于分析模型在不同难度查询上的表现，推动更鲁棒的语义解析系统发展。

背景与挑战

背景概述

在知识图谱与自然语言处理交叉领域，将自然语言指令转化为结构化查询语言（如SPARQL）是实现智能信息检索的关键技术。Instruct-to-SPARQL数据集由PaDaS-Lab团队于2024年构建，旨在为SPARQL查询生成任务提供开源训练数据。该数据集通过爬取维基百科页面和教程，收集了真实世界中的Wikidata SPARQL查询实例，并将其与对应的自然语言指令配对，共计约2.8千个样本。其核心研究问题聚焦于提升大型语言模型与知识图谱的交互能力，特别是在事实核查和上下文检索等应用场景中，为检索增强生成（RAG）流程提供支持，对推动语义网和智能问答系统的发展具有显著影响力。

当前挑战

该数据集旨在解决自然语言到SPARQL查询转换的领域挑战，包括处理复杂多变的自然语言表述、准确映射到知识图谱中的实体与关系，以及生成符合SPARQL语法的精确查询。这些挑战源于自然语言的歧义性、知识图谱的规模庞大以及查询逻辑的嵌套复杂性。在构建过程中，团队面临数据收集与处理的困难，例如从维基百科动态内容中提取高质量查询实例、确保查询结果与当前知识图谱状态的一致性，以及为查询复杂度提供可靠标注。此外，数据集规模相对有限，可能影响模型在广泛场景下的泛化能力，且部分查询结果可能因底层数据源变更而产生偏差。

常用场景

经典使用场景

在知识图谱与自然语言处理交叉领域，Instruct-to-SPARQL数据集为研究自然语言到结构化查询语言的转换提供了关键资源。该数据集通过从维基百科页面和教程中爬取真实的WikiData SPARQL查询实例，构建了自然语言指令与SPARQL查询之间的配对。其经典使用场景聚焦于训练和评估序列到序列模型，特别是针对将用户以自然语言表述的信息需求，自动转化为可在知识图谱上执行的精确SPARQL查询。这一过程对于实现智能问答系统和语义搜索至关重要，数据集中的复杂性标注也为模型性能的细粒度分析提供了依据。

解决学术问题

该数据集有效应对了语义网与人工智能领域的一个核心挑战：如何弥合人类自然语言与机器可理解的结构化查询语言之间的语义鸿沟。它为解决文本到SPARQL的自动生成问题提供了高质量、多样化的训练与测试基准，其中包含不同复杂度的查询实例，有助于评估模型处理多条件过滤、多标签生成及复杂连接操作的能力。通过提供带注释的查询和原始查询结果，该数据集支持对模型生成查询的准确性、可执行性及其与知识图谱交互的有效性进行系统性研究，推动了语义解析和知识图谱问答技术的进步。

衍生相关工作

围绕Instruct-to-SPARQL数据集，已衍生出多项探索自然语言到SPARQL转换的经典研究工作。这些工作通常集中于改进基于Transformer的编码器-解码器架构，或微调大型语言模型以适应特定的查询生成任务。研究者们利用该数据集评估不同预训练策略、提示工程方法以及少样本学习技术在提升查询生成准确率和泛化能力方面的效果。此外，该数据集也常被用作基准，用于比较不同神经语义解析模型在复杂查询生成上的性能，推动了该领域模型架构与训练范式的持续创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集