awalesushil/DBLP-QuAD

Name: awalesushil/DBLP-QuAD
Creator: awalesushil
Published: 2023-02-15 17:32:06
License: 暂无描述

Hugging Face2023-02-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/awalesushil/DBLP-QuAD

下载链接

链接失效反馈

官方服务：

资源简介：

DBLP-QuAD是一个基于DBLP学术知识图的问题回答数据集，包含10,000个问题-SPARQL查询对。数据集分为7,000个训练问题、1,000个验证问题和2,000个测试问题。每个问题都包含一个原始问题、一个改写问题、一个SPARQL查询以及相关的实体和关系。

DBLP-QuAD is a question answering dataset based on the DBLP academic knowledge graph, containing 10,000 question-SPARQL query pairs. The dataset is split into 7,000 training questions, 1,000 validation questions, and 2,000 test questions. Each question includes an original question, a paraphrased question, a SPARQL query, as well as relevant entities and relationships.

提供机构：

awalesushil

原始信息汇总

数据集概述

数据集名称

名称: DBLP-QuAD
全称: DBLP-QuAD: A Question Answering Dataset over the DBLP Scholarly Knowledge Graph

数据集基本信息

语言

语言: 英语 (en)
语言生成方式: 机器生成

许可证

许可证: 知识共享署名 4.0 国际许可协议 (cc-by-4.0)

多语言性

多语言性: 单语种

数据集大小

大小范围: 1K<n<10K

数据来源

来源: 原始数据

任务类别

任务类别: 问答 (question-answering)

数据集详情

数据集摘要

摘要: DBLP-QuAD 是一个包含10,000个问题-SPARQL查询对的学术知识图谱问答数据集，针对DBLP知识图谱。数据集分为7,000个训练问题，1,000个验证问题和2,000个测试问题。

数据集结构

数据实例

示例: 包含问题ID、查询类型、问题描述、改写问题、SPARQL查询、模板ID、实体、关系、是否包含时间表达式及是否从训练集中保留等信息。

数据字段

字段:
- id: 问题ID
- question: 问题描述
- paraphrased_question: 改写问题
- query: SPARQL查询
- query_type: 查询类型
- entities: 实体列表
- relations: 关系列表
- temporal: 是否包含时间表达式
- held_out: 是否从训练集中保留

数据分割

分割: 训练集7,000个问题，验证集1,000个问题，测试集2,000个问题。

数据集创建

注释创建者

注释生成方式: 专家生成

许可证信息

许可证: 知识共享署名 4.0 国际许可协议 (CC BY 4.0)

贡献者

贡献者: @awalesushil

搜集汇总

数据集介绍

构建方式

DBLP-QuAD数据集是针对DBLP学术知识图谱构建的问答数据集，涵盖10,000个自然语言问题与对应的SPARQL查询对。其构建过程采用专家生成与机器辅助相结合的策略：首先由领域专家设计多样化的查询模板，确保覆盖多因素、时间性及实体关系等复杂查询类型；随后通过自动化流程生成大量问题-查询对，并补充人工验证与释义变体，最终形成包含7,000条训练、1,000条验证和2,000条测试样本的均衡划分。

使用方法

用户可通过HuggingFace Datasets库直接加载该数据集，利用其预定义的训练/验证/测试划分开展实验。数据字段设计便于提取问题和查询对，适用于训练基于序列到序列的神经语义解析模型或检索式问答系统。建议结合DBLP知识图谱的RDF模式进行SPARQL查询的验证与执行，同时利用释义问题和查询类型字段增强模型的鲁棒性与多任务学习能力。

背景与挑战

背景概述

DBLP-QuAD数据集由Sushil Awale等人于近年创建，旨在推动学术知识图谱上的问答研究。该数据集以DBLP学术知识图谱为背景，包含10,000条人工标注的问题与SPARQL查询对，覆盖多种查询类型与复杂语义关系。其核心研究问题聚焦于如何将自然语言问题精准转化为结构化查询，以检索学术文献、作者、机构等实体间的多跳关系。作为首个大规模面向DBLP知识图谱的问答数据集，DBLP-QuAD为评估语义解析与知识图谱问答模型提供了标准化基准，对学术信息检索与知识图谱自然语言接口的发展具有重要推动意义。

当前挑战

DBLP-QuAD所解决的领域问题在于学术知识图谱问答中自然语言与结构化查询之间的语义鸿沟，尤其是多事实查询、实体消歧与关系路径推理的复杂性。构建过程中面临的主要挑战包括：1) 从DBLP知识图谱中提取丰富且多样的实体与关系，确保覆盖学术领域的典型查询模式；2) 设计模板化与人工验证相结合的问题生成流程，平衡数据集规模与标注质量；3) 处理时间敏感查询与跨实体关联，如作者隶属关系的动态变化。这些挑战使得数据集在复杂查询的泛化性上仍有提升空间，尤其在长尾实体与罕见关系类型上的表现尚待优化。

常用场景

经典使用场景

DBLP-QuAD数据集专为学术知识图谱上的复杂问答任务而设计，其核心应用场景是训练和评估能够将自然语言问题精准转换为SPARQL查询的语义解析模型。该数据集涵盖10,000组人工标注的问答对，涉及DBLP知识图谱中的作者、论文、机构、出版年份等多维学术实体与关系，尤其支持多事实查询、时间约束查询等复合型问题，为学术信息检索的端到端研究提供了标准化的基准测试平台。

解决学术问题

该数据集有效解决了学术知识图谱领域长期存在的两个关键瓶颈：一是缺乏大规模、高质量的中文或英文学术问答标注数据，限制了语义解析模型的泛化能力；二是现有数据集多聚焦于通用领域，难以捕捉学术场景中复杂的实体关联与逻辑推理需求。DBLP-QuAD通过提供模板化与自由问句相结合的标注体系，推动了跨模态知识推理、查询图生成等前沿方向的发展，其发布显著提升了学术信息抽取与结构化查询的自动化水平。

实际应用

在实际应用中，DBLP-QuAD支撑了多个学术服务系统的智能化升级。例如，研究者可通过自然语言直接查询“某论文作者所属机构”或“某领域近五年高被引论文”，系统自动生成SPARQL语句从DBLP知识图谱中检索答案。该数据集还可赋能学术搜索引擎的语义理解模块，减少用户对复杂检索语法的依赖，同时为图书馆文献管理、科研合作网络分析等场景提供底层查询接口的优化方案。

数据集最近研究