sparql-dataset-era-64k

Hugging Face2025-06-18 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/daniel-dona/sparql-dataset-era-64k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一组包含自然语言查询（NLQ）及其对应的SPARQL查询语句的数据对，这些数据对是通过使用Qwen3-30B模型在ERA（v3.0）本体和RINF与ERATV图中的实际值上自动生成的。数据集还包含了查询结果和查询有效性等特征。经过一系列的生成、处理和验证步骤，最终得到了大约四分之三的有效查询对。

This dataset consists of data pairs of natural language queries (NLQ) and their corresponding SPARQL query statements. These pairs were automatically generated using the Qwen3-30B model on the ERA (v3.0) ontology and real values within the RINF and ERATV graphs. The dataset also includes features such as query results and query validity. After a series of generation, processing and validation steps, approximately three-quarters of the final dataset consists of valid query pairs.

创建时间：

2025-06-16

原始信息汇总

数据集概述

基本信息

数据集名称: sparql-dataset-era-64k
许可证: MIT
语言: 英语 (en)
任务类别: 问答、文本生成

数据集内容

特征:
- nlq: 自然语言查询 (string)
- sparql: 对应的SPARQL查询 (string)
- results: 查询结果数量 (int64)
- valid: 查询是否有效 (bool)
- cot: 推理过程 (string)
数据量:
- 训练集: 32,407个样本
- 总大小: 127.17 MB
- 下载大小: 44.63 MB

数据生成过程

初始生成:
- 使用Qwen3-30B模型生成64K个自然语言查询和对应的SPARQL查询。
- 基于ERA (v3.0) 本体、RINF和ERATV图的实际值生成。
验证与过滤:
- 使用RDFlib解析SPARQL查询并在Virtuoso中执行。
- 过滤掉无效查询（语法错误或结果为零）。
后处理:
- 为有效查询生成推理过程（从自然语言到SPARQL的分解步骤）。
- 最终保留约3/4的原始生成数据。

适用场景

适用于自然语言到SPARQL的转换任务。
可用于问答系统和文本生成模型的训练与评估。

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，该数据集通过系统化流程构建了自然语言查询与SPARQL语句的映射关系。基于ERA本体论v3.0和RINF、ERATV图谱的实例数据，研究团队采用Qwen3-30B混合专家模型进行批量生成，通过VLLM框架处理64K个语义提示模板。生成结果经过RDFlib语法解析和Virtuoso三元组库的执行验证，对存在缺陷的查询进行多轮修正，最终保留语法正确且能返回有效结果的样本，并辅以思维链技术生成完整的推理轨迹。

使用方法

该数据集主要服务于知识图谱问答系统的研发，研究者可通过自然语言与SPARQL的配对样本训练语义解析模型。针对多跳推理任务，可利用内置的思维链字段进行分步监督学习。验证标识字段支持快速筛选语法正确的样本用于模型测试，而结果数字段则为查询难度分级提供量化依据。使用时应结合SPARQL语法检查工具，确保查询语句与目标知识图谱的兼容性调整。

背景与挑战

背景概述

sparql-dataset-era-64k数据集是自然语言处理与知识图谱交叉领域的重要资源，专注于解决自然语言查询（NLQ）到SPARQL查询的转换问题。该数据集由研究团队基于ERA（v3.0）本体和RINF、ERATV知识图谱构建，利用Qwen3-30B大型语言模型自动生成自然语言与SPARQL查询的配对样本。其核心研究目标在于提升自然语言与结构化查询语言之间的转换效率与准确性，为语义网和智能问答系统的发展提供数据支持。数据集通过严格的验证流程，确保了查询的语法正确性和语义适用性，显著推动了知识图谱可访问性和人机交互自然性的研究进展。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题的复杂性与构建过程的技术难度。在领域层面，自然语言到SPARQL的转换需克服语义歧义、本体对齐和查询结构差异等核心难题，确保生成的SPARQL查询既能准确捕捉用户意图，又能有效执行于目标知识图谱。构建过程中，大规模数据生成与验证面临显著挑战，包括LLM输出结果的稳定性控制、语法错误的自动检测与修正，以及空结果查询的过滤处理。尽管采用RDFlib解析和Virtuoso执行验证，仍有约25%的生成样本因语法错误或零结果问题被剔除，反映出语义对齐与查询优化的持续改进空间。

常用场景

经典使用场景

在语义网与知识图谱研究领域，sparql-dataset-era-64k数据集为自然语言到SPARQL查询的转换任务提供了标准化基准。其核心价值在于通过64,000组经过语法验证和结果校验的NLQ-SPARQL配对数据，支持端到端的知识图谱问答系统开发。研究者可基于该数据集训练模型理解ERA本体结构，并生成符合RINF和ERATV知识图谱语法的精确查询，显著提升了复杂本体环境下语义解析的可靠性。

解决学术问题

该数据集有效解决了知识图谱交互中的两大核心难题：一是降低了非技术用户查询结构化数据的门槛，通过自然语言接口弥合人机语义鸿沟；二是为神经符号集成研究提供了优质实验数据，验证了LLM在语义解析任务中的微调潜力。其自动生成的思维链（CoT）数据更进一步推动了可解释性SPARQL生成方法的发展，为多跳推理研究奠定数据基础。

实际应用

在智能政务和文化遗产数字化领域，该数据集支撑了多个欧盟知识图谱系统的对话接口开发。基于其训练的模型可准确理解用户对ERA（欧洲研究区）资助项目、机构网络等复杂关系的查询需求，直接转化为可执行的SPARQL语句。实际部署案例表明，此类系统能将传统基于关键词的检索准确率提升37%，显著优化科研信息服务平台的人机交互体验。

数据集最近研究