MKQASubgraphsRanking

Name: MKQASubgraphsRanking
Creator: s-nlp
Published: 2025-12-02 23:25:24
License: 暂无描述

Hugging Face2025-12-02 更新2025-12-03 收录

下载链接：

https://huggingface.co/datasets/s-nlp/MKQASubgraphsRanking

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：默认配置和mkqa_t5large_subgraphs配置。每个配置都包含问题文本、答案文本、图的统计数据以及图相关的特征。这些特征包括节点数、边数、密度、环数、桥数、Katz中心性、PageRank值和平均最短路径长度等。此外，还包括正确率、确定性序列及其嵌入表示、问题答案的嵌入表示和TF-IDF向量。测试集是数据集的唯一分割，包含了相应配置的所有测试数据。

提供机构：

s-nlp

创建时间：

2025-12-02

原始信息汇总

数据集概述

基本信息

数据集名称: MKQASubgraphsRanking
托管地址: https://huggingface.co/datasets/s-nlp/MKQASubgraphsRanking
配置数量: 2
总数据大小: 约361.45 MB

配置详情

配置一: `default`

描述: 默认配置。
特征字段:
- question: 问题文本 (字符串)。
- question_answer: 问题-答案文本 (字符串)。
- num_nodes: 节点数量 (整数)。
- num_edges: 边数量 (整数)。
- density: 密度 (浮点数)。
- cycle: 环数量 (整数)。
- bridge: 桥数量 (整数)。
- katz_centrality: Katz中心性 (浮点数)。
- page_rank: PageRank值 (浮点数)。
- avg_ssp_length: 平均最短路径长度 (浮点数)。
- correct: 正确性标识 (浮点数)。
- determ_sequence: 确定性序列 (字符串)。
- determ_sequence_embedding: 确定性序列嵌入 (字符串)。
- question_answer_embedding: 问题-答案嵌入 (字符串)。
- tfidf_vector: TF-IDF向量 (浮点数序列)。
数据分割:
- test: 测试集，包含7,239个样本，大小约141.34 MB。
下载大小: 约86.63 MB。
数据集大小: 约141.34 MB。

配置二: `mkqa_t5large_subgraphs`

描述: 基于MKQA和T5-large模型的子图配置。
特征字段:
- question: 问题文本 (字符串)。
- question_answer: 问题-答案文本 (字符串)。
- num_nodes: 节点数量 (整数)。
- num_edges: 边数量 (整数)。
- density: 密度 (浮点数)。
- cycle: 环数量 (整数)。
- bridge: 桥数量 (整数)。
- katz_centrality: Katz中心性 (浮点数)。
- page_rank: PageRank值 (浮点数)。
- avg_ssp_length: 平均最短路径长度 (浮点数)。
- answerEntity: 答案实体序列 (字符串序列)。
- groundTruthAnswerEntity: 真实答案实体序列 (字符串序列)。
- questionEntity: 问题实体序列 (字符串序列)。
- graph: 图结构 (字符串)。
- correct: 正确性标识 (浮点数)。
- no_highlighted_determ_sequence: 无高亮确定性序列 (字符串)。
- no_highlighted_determ_sequence_embedding: 无高亮确定性序列嵌入 (字符串)。
- highlighted_determ_sequence: 高亮确定性序列 (字符串)。
- highlighted_determ_sequence_embedding: 高亮确定性序列嵌入 (字符串)。
- question_answer_embedding: 问题-答案嵌入 (字符串)。
- tfidf_vector: TF-IDF向量 (浮点数序列)。
数据分割:
- test: 测试集，包含7,239个样本，大小约220.11 MB。
下载大小: 约121.12 MB。
数据集大小: 约220.11 MB。

数据文件路径

default 配置: data/test-*
mkqa_t5large_subgraphs 配置: mkqa_t5large_subgraphs/test-*

搜集汇总

数据集介绍

构建方式

在知识图谱与问答系统交叉领域，MKQASubgraphsRanking数据集的构建体现了对结构化知识进行深度挖掘的严谨方法。该数据集以MKQA多语言问答数据为基础，通过提取与问题相关的知识子图，并系统性地计算子图的拓扑特征，如节点数量、边密度、中心性指标等，从而构建了一个包含丰富图结构属性的问答对集合。其构建过程不仅涉及原始问答对的转换，还整合了图嵌入与文本向量化技术，确保了数据在多模态表示上的完整性。

特点

该数据集的核心特点在于其深度融合了自然语言问答与图结构分析，提供了从问题到答案的完整知识子图路径。每个样本均包含详细的图论度量，如Katz中心性、PageRank值以及平均最短路径长度，这些特征为研究子图重要性排序提供了量化依据。同时，数据集支持多种表示形式，包括原始文本、图结构序列以及TF-IDF向量，使得它能够灵活适应不同模型架构的需求，尤其适用于图神经网络与语言模型的联合训练场景。

使用方法

使用该数据集时，研究人员可将其应用于知识图谱增强的问答系统开发，特别是子图排序与答案推理任务。通过加载指定的配置，如`default`或`mkqa_t5large_subgraphs`，用户能够访问不同层次的图结构表示与嵌入特征。典型流程包括解析问题对应的子图特征，利用图度量进行重要性评估，并结合文本嵌入进行跨模态对齐，从而训练或评估模型在复杂问答场景下的性能。数据集以标准分割形式提供，便于直接集成到机器学习管道中。

背景与挑战

背景概述

MKQASubgraphsRanking数据集诞生于知识图谱与问答系统深度融合的研究浪潮中，旨在推动多跳知识问答的进展。该数据集由前沿研究团队构建，其核心研究问题聚焦于如何从复杂知识图谱中精准提取并排序相关子图，以支持对多跳问题的推理与解答。通过整合MKQA基准中的问题与答案，并引入丰富的图结构特征如节点数、边密度、中心性指标等，该数据集为评估子图检索与排序模型提供了标准化测试平台，显著促进了知识增强型问答系统在可解释性与准确性方面的探索。

当前挑战

该数据集致力于应对多跳知识问答中，从庞大知识图谱中高效定位与排序相关子图的挑战，这要求模型具备深度的语义理解与复杂的图结构推理能力。在构建过程中，研究人员面临如何从MKQA中提取高质量问题-答案对，并自动构建对应知识子图的难题；同时，设计涵盖图拓扑、中心性及路径长度等多维度特征，以全面刻画子图属性，亦需克服特征工程与数据标注的复杂性，确保数据的一致性与可扩展性。

常用场景

经典使用场景

在知识图谱与问答系统领域，MKQASubgraphsRanking数据集为多跳知识问答任务提供了结构化评估基准。该数据集通过提取知识图谱中的子图结构，将自然语言问题与相关实体及其关系映射为图表示，使得研究者能够基于图拓扑特征（如节点数、边数、密度、中心性指标）对候选答案进行排序和验证。这一场景常用于训练和评估图神经网络模型，以提升模型在复杂推理任务中的准确性和可解释性。

解决学术问题

该数据集主要解决了知识问答中多跳推理的挑战，即如何从大规模知识图谱中有效检索并整合分散的实体关系以生成准确答案。通过提供丰富的图结构特征和嵌入表示，它支持研究者在子图排序、图表示学习、以及跨模态对齐（如文本与图结构）等方向进行探索。其意义在于推动了结构化知识推理与自然语言处理的交叉研究，为构建更鲁棒、可解释的问答系统奠定了数据基础。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，主要集中在图神经网络与问答系统的结合上。例如，基于子图排序的注意力机制模型、利用图嵌入进行多跳推理的架构，以及融合拓扑特征（如Katz中心性、PageRank）的联合学习方法。这些工作进一步拓展了知识图谱推理的边界，并在ACL、EMNLP等顶级会议上发表了相关成果，持续推动着结构化数据与自然语言交互的前沿进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集