hle2000/KGQA_T5-large-ssm

Name: hle2000/KGQA_T5-large-ssm
Creator: hle2000
Published: 2024-04-19 13:04:49
License: 暂无描述

Hugging Face2024-04-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/hle2000/KGQA_T5-large-ssm

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: question dtype: string - name: answerEntity dtype: string - name: questionEntity dtype: string - name: groundTruthAnswerEntity dtype: string - name: complexityType dtype: string - name: graph dtype: string - name: correct dtype: bool - name: t5_sequence dtype: string - name: gap_sequence dtype: string - name: question_answer dtype: string - name: num_nodes dtype: int64 - name: num_edges dtype: int64 - name: density dtype: float64 - name: cycle dtype: int64 - name: bridge dtype: int64 - name: katz_centrality dtype: float64 - name: page_rank dtype: float64 - name: avg_ssp_length dtype: float64 - name: determ_sequence dtype: string - name: determ_sequence_embedding sequence: float64 - name: gap_sequence_embedding sequence: float64 - name: t5_sequence_embedding sequence: float64 - name: question_answer_embedding sequence: float64 - name: highlighted_determ_sequence dtype: string - name: no_highlighted_determ_sequence dtype: string - name: highlighted_t5_sequence dtype: string - name: no_highlighted_t5_sequence dtype: string - name: highlighted_gap_sequence dtype: string - name: no_highlighted_gap_sequence dtype: string splits: - name: train num_bytes: 1776110070 num_examples: 65402 - name: validation num_bytes: 1776110070 num_examples: 65402 - name: test num_bytes: 449834999 num_examples: 16567 download_size: 3873019570 dataset_size: 4002055139 --- # Dataset Card for "KGQA_T5-large-ssm" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征： - 名称：标识符（id），数据类型：字符串（string） - 名称：问题（question），数据类型：字符串（string） - 名称：答案实体（answerEntity），数据类型：字符串（string） - 名称：问题实体（questionEntity），数据类型：字符串（string） - 名称：基准真值答案实体（groundTruthAnswerEntity），数据类型：字符串（string） - 名称：复杂度类型（complexityType），数据类型：字符串（string） - 名称：图（graph），数据类型：字符串（string） - 名称：正确性标记（correct），数据类型：布尔型（bool） - 名称：T5序列（t5_sequence），数据类型：字符串（string） - 名称：间隙序列（gap_sequence），数据类型：字符串（string） - 名称：问题-答案对（question_answer），数据类型：字符串（string） - 名称：节点数（num_nodes），数据类型：64位整型（int64） - 名称：边数（num_edges），数据类型：64位整型（int64） - 名称：图密度（density），数据类型：浮点型（float64） - 名称：环数量（cycle），数据类型：64位整型（int64） - 名称：桥接边数量（bridge），数据类型：64位整型（int64） - 名称：卡茨中心性（katz_centrality），数据类型：浮点型（float64） - 名称：网页排名（page_rank），数据类型：浮点型（float64） - 名称：最短路径平均长度（avg_ssp_length），数据类型：浮点型（float64） - 名称：确定序列（determ_sequence），数据类型：字符串（string） - 名称：确定序列嵌入（determ_sequence_embedding），数据类型：浮点型序列（sequence: float64） - 名称：间隙序列嵌入（gap_sequence_embedding），数据类型：浮点型序列（sequence: float64） - 名称：T5序列嵌入（t5_sequence_embedding），数据类型：浮点型序列（sequence: float64） - 名称：问题-答案对嵌入（question_answer_embedding），数据类型：浮点型序列（sequence: float64） - 名称：高亮确定序列（highlighted_determ_sequence），数据类型：字符串（string） - 名称：非高亮确定序列（no_highlighted_determ_sequence），数据类型：字符串（string） - 名称：高亮T5序列（highlighted_t5_sequence），数据类型：字符串（string） - 名称：非高亮T5序列（no_highlighted_t5_sequence），数据类型：字符串（string） - 名称：高亮间隙序列（highlighted_gap_sequence），数据类型：字符串（string） - 名称：非高亮间隙序列（no_highlighted_gap_sequence），数据类型：字符串（string）数据集划分： - 名称：训练集（train），字节大小：1776110070，样本数量：65402 - 名称：验证集（validation），字节大小：1776110070，样本数量：65402 - 名称：测试集（test），字节大小：449834999，样本数量：16567 下载大小：3873019570 数据集总大小：4002055139 --- # "KGQA_T5-large-ssm"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

hle2000

原始信息汇总

数据集概述

数据集名称

名称: KGQA_T5-large-ssm

数据集特征

特征列表:
- id: 字符串类型
- question: 字符串类型
- answerEntity: 字符串类型
- questionEntity: 字符串类型
- groundTruthAnswerEntity: 字符串类型
- complexityType: 字符串类型
- graph: 字符串类型
- correct: 布尔类型
- t5_sequence: 字符串类型
- gap_sequence: 字符串类型
- question_answer: 字符串类型
- num_nodes: 整数类型（int64）
- num_edges: 整数类型（int64）
- density: 浮点类型（float64）
- cycle: 整数类型（int64）
- bridge: 整数类型（int64）
- katz_centrality: 浮点类型（float64）
- page_rank: 浮点类型（float64）
- avg_ssp_length: 浮点类型（float64）
- determ_sequence: 字符串类型
- determ_sequence_embedding: 序列类型（float64）
- gap_sequence_embedding: 序列类型（float64）
- t5_sequence_embedding: 序列类型（float64）
- question_answer_embedding: 序列类型（float64）
- highlighted_determ_sequence: 字符串类型
- no_highlighted_determ_sequence: 字符串类型
- highlighted_t5_sequence: 字符串类型
- no_highlighted_t5_sequence: 字符串类型
- highlighted_gap_sequence: 字符串类型
- no_highlighted_gap_sequence: 字符串类型

数据集拆分

拆分详情:
- train: 大小为1776110070字节，包含65402个示例
- validation: 大小为1776110070字节，包含65402个示例
- test: 大小为449834999字节，包含16567个示例

数据集大小

下载大小: 3873019570字节
数据集总大小: 4002055139字节

搜集汇总

数据集介绍

构建方式

在知识图谱问答领域，数据集的构建需兼顾结构复杂性与语义丰富性。该数据集基于T5-large模型与子图匹配技术，通过提取知识图谱中的实体与关系，将自然语言问题转化为结构化查询序列。构建过程中，系统性地标注了问题实体、答案实体及对应的图结构特征，并引入多种序列表示形式，如确定性序列与间隙序列，以增强模型对复杂推理路径的捕捉能力。数据划分遵循机器学习常规，涵盖训练、验证与测试集，确保评估的全面性与可靠性。

特点

本数据集在知识图谱问答任务中展现出多维度的技术特性。其核心特征在于融合了丰富的图结构指标，如节点数量、边密度、中心性度量等，为模型提供了深层次的拓扑学信息。同时，数据集包含多种嵌入表示，包括序列嵌入与图嵌入，支持端到端的语义理解与推理。此外，通过高亮与非高亮序列的对比设计，增强了模型对关键信息的敏感性，适用于处理多跳推理与复杂逻辑问题，为前沿研究提供了扎实的数据基础。

使用方法

在知识图谱问答的研究与应用中，该数据集为模型训练与评估提供了标准化流程。使用者可直接加载数据集分割，利用预定义的序列字段进行模型输入，如t5_sequence或gap_sequence，并结合图结构特征进行多模态学习。评估时，可通过correct字段验证答案准确性，并借助复杂性类型与图指标进行细粒度分析。数据集兼容主流深度学习框架，支持嵌入向量的直接调用，便于开展对比实验与性能优化，推动知识推理技术的迭代发展。

背景与挑战

背景概述

知识图谱问答（KGQA）作为自然语言处理与知识表示交叉的前沿领域，旨在通过结构化知识库对自然语言问题进行精准解析与答案生成。KGQA_T5-large-ssm数据集由hle2000于近年构建，其核心研究聚焦于复杂多跳推理场景下的问答性能提升，通过整合图结构特征与序列生成模型，推动模型对知识图谱中隐含关系的深度理解。该数据集以T5-large架构为基础，引入序列相似性匹配机制，显著增强了模型对实体间路径的建模能力，为知识驱动型智能问答系统的演进提供了关键数据支撑。

当前挑战

在知识图谱问答领域，模型需应对多跳推理、路径消歧及稀疏关系检索等核心难题，尤其当问题涉及深层语义关联或动态知识更新时，传统方法往往难以保证答案的准确性与泛化性。数据构建过程中，挑战主要体现在图谱子图的高效抽取、复杂问题与答案实体的对齐标注，以及序列化表示中信息损失的平衡。此外，图结构度量指标（如中心性、路径长度）与文本嵌入的融合亦需克服异构数据融合与计算复杂度控制的瓶颈。

常用场景

经典使用场景

在知识图谱问答领域，该数据集通过结构化的问题-答案对与图结构特征，为模型训练提供了丰富的基础。其经典使用场景聚焦于评估序列到序列模型在复杂知识推理任务中的表现，特别是针对多跳问答场景。研究者利用数据集中的图嵌入与序列表示，能够系统性地分析模型在理解实体关系、路径推理及语义映射方面的能力，从而推动知识驱动型自然语言处理技术的发展。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于图增强序列建模的经典研究。这些工作探索了结合图神经网络与预训练语言模型的新架构，以提升多跳问答的鲁棒性。同时，基于数据集的图特征分析，推动了知识推理中结构感知损失函数与动态路径解码方法的创新，为跨模态知识融合提供了新思路。

数据集最近研究