prismaga

Hugging Face2026-05-31 更新2026-06-01 收录

下载链接：

https://huggingface.co/datasets/guangchen/prismaga

下载链接

链接失效反馈

官方服务：

资源简介：

PrismaGA Graph-Analysis QA 是一个由 PrismaGA 工具生成的、基于知识图谱的问答对数据集，旨在为知识图谱上的问答任务提供高质量、带有可验证溯源信息的训练和评估数据。每个数据样本包含一个自然语言问题、一个经过验证的答案，以及完整的分析链，该分析链包括人类可读的分析描述、机械式 Cypher 查询链、标准优化查询（gold_cypher）及其验证标记。此外，样本还提供答案对应知识子图的统计信息，如节点数量、关系数量、节点标签类型列表和关系类型列表，以支持理解图结构。数据集基于知识图谱来源分为三个子集：nba（129个样本）、flight_accident（111个样本）和soccer（42个样本），总计282个样本，适用于知识图谱问答、图检索增强生成（Graph-RAG）、Neo4j 图数据库查询生成等研究与应用。

PrismaGA Graph-Analysis QA is a knowledge graph-based question-answer pair dataset generated by the PrismaGA tool, with the core purpose of providing high-quality, verifiable traceability information for training and evaluation data in knowledge graph question-answering tasks. Each data sample includes a natural language question, a verified answer, and a complete analysis chain for generating the answer. The analysis chain consists of a human-readable analysis description, a mechanically generated Cypher query chain, a cleaned and optimized standard Cypher query (gold_cypher), and a marker indicating whether the query has been verified to accurately reproduce the answer. Additionally, each sample provides detailed statistical information about the knowledge subgraph corresponding to the answer, such as the number of nodes, number of relationships, lists of node label types, and relationship type lists, offering support for understanding the underlying graph structure. The dataset is divided into three independent subsets based on knowledge graph sources: nba (129 samples), flight_accident (111 samples), and soccer (42 samples), totaling 282 samples. This dataset is suitable for research and applications in knowledge graph question-answering, graph retrieval-augmented generation (Graph-RAG), Neo4j graph database query generation, and other related scenarios.

创建时间：

2026-05-30

原始信息汇总

数据集概述：PrismaGA Graph-Analysis QA

该数据集由 PrismaGA 框架自动生成，专注于图基问答（Graph-grounded QA）。每个样本包含一个自然语言问题、经过验证的答案以及用于生成该答案的溯源链（Cypher查询 + 子图统计信息）。

许可证：CC-BY-4.0
语言：英语
任务类别：问答（question-answering）
标签：知识图谱、图RAG、Neo4j、PrismaGA

数据集结构

数据集包含 3 个拆分（split），每个拆分对应一个独立的源知识图谱（数据站点）。加载时可使用 load_dataset("guangchen/prismaga", split="<data_site>") 指定拆分。

拆分名称	样本数量	字节数
`nba`	129	306,281
`flight_accident`	111	290,684
`soccer`	42	107,421
总计	282	704,386

数据字段

字段名	类型	描述
`question`	string	自然语言问题
`answer`	string	经过验证的答案
`analysis_type`	string	高级分析类别
`graph_id`	string	源知识图谱标识符
`chain_description`	string	分析链的人工可读描述
`chain_cypher`	string	用于检索答案的机械式（范围支架化）Cypher链
`gold_cypher`	string	可复现答案的简洁、惯用只读Cypher查询
`gold_query_verified`	bool	是否执行了 `gold_cypher` 并与答案完全匹配
`subgraph_node_count`	int64	答案子图中的节点数量
`subgraph_rel_count`	int64	答案子图中的关系数量
`subgraph_node_labels`	list[string]	子图中存在的节点标签类型
`subgraph_relation_types`	list[string]	子图中存在的关系类型

配置与数据文件

默认配置（default）包含所有拆分，数据文件路径如下：

data/flight_accident-*
data/nba-*
data/soccer-*

搜集汇总

数据集介绍

构建方式

PrismaGA数据集源于同名自动化问答生成框架，专门用于图结构知识库的问答对构建。该数据集以多个独立的知识图谱为数据源，每个数据源对应一个独立的分片，涵盖NBA、足球赛事与飞行事故等不同领域。构建过程中，PrismaGA框架首先针对每个知识图谱生成自然语言问题，随后通过作用域脚手架化的Cypher查询链检索答案，并辅以人工验证确保答案的准确性。最终，每条数据记录包含问题、验证后的答案、分析类型、图谱标识符、可读的推理链描述、机械化的Cypher链、精炼的标准Cypher查询以及答案子图的节点与关系统计信息，形成了结构完整、可追溯的图问答数据集。

使用方法

该数据集通过HuggingFace Datasets库加载使用，用户可根据研究需求选择特定分片，如使用split参数指定'nba'、'flight_accident'或'soccer'进行加载。每个样本的question与answer字段可直接用于监督式问答任务训练，而chain_cypher与gold_cypher字段则适合用于评估模型生成图查询语句的准确性与可执行性。此外，子图统计信息可辅助分析模型对图结构理解的深度，研究者亦可利用analysis_type字段对不同分析类型的问答性能进行细粒度评估，从而全面检验图问答系统的能力边界。

背景与挑战

背景概述

基于知识图谱的问答系统（KGQA）在语义解析与推理路径生成方面面临长期挑战，传统方法往往依赖人工构建的模板或受限的查询形式。PrismaGA数据集由Guangchen等人于近期创建，旨在推动图分析问答（Graph-Analysis QA）这一新兴方向的发展。该数据集涵盖NBA、空难事故与足球三个领域，包含282个经过验证的问答对，每个样本均携带自然语言问题、验证答案以及对应的Cypher查询链与子图统计信息。通过提供从问题到图查询的完整溯源链条，PrismaGA为研究者在复杂图结构上开展多跳推理与自动查询生成提供了标准化基准，对推动图增强检索（Graph-RAG）与可解释图谱推理具有重要影响力。

当前挑战

该数据集所解决的领域核心挑战在于如何将自然语言问题自动映射为结构化的图查询语言，并保证答案的可验证性与可溯源。现有方法在处理多实体、多关系类型的复杂图结构时，常因语义歧义或图拓扑理解不足而产生错误查询。此外，数据构建本身面临严苛挑战：需从多个异源知识图谱中人工设计并验证Cypher查询链，确保每条查询既符合图模式约束又能准确还原答案；同时还需平衡自动化生成与人工校验的成本，保证小规模数据集的答案精确度与查询链忠实度。这些挑战使得PrismaGA虽体量有限，却为图问答的鲁棒性与泛化性研究提供了极具价值的测试环境。

常用场景

经典使用场景

在知识图谱与自然语言处理的交叉领域中，PrismaGA数据集专为基于图的问答（Graph-grounded QA）任务而设计。其经典使用场景在于评估和提升大型语言模型在复杂图结构上的推理能力。具体而言，研究者可利用该数据集提供的自然语言问题、已验证答案及其对应的Cypher查询链，来训练或测试模型如何将非结构化问题精准映射到结构化知识图谱上，进而完成从数据检索到逻辑归纳的完整分析链条。该数据集覆盖NBA、飞行事故和足球等多个领域，使得模型能够在不同知识浓度和关系复杂度下进行泛化能力验证。

解决学术问题

PrismaGA数据集系统性地解决了图问答领域中缺乏可验证、可追溯的细粒度标注数据这一学术瓶颈。传统的QA数据集多基于文本或简单表格，难以支撑对图谱中多跳推理和分析型查询的研究。该数据集通过提供机械化的Cypher链与精炼的标准查询，使得研究者能够精确衡量模型在子图统计、路径查询和模式识别等分析型任务上的表现。其意义在于为图推理、检索增强生成（Graph RAG）和知识图谱补全等领域提供了可靠的基准，推动了从浅层匹配向深层语义分析的技术演进。

实际应用

在实际应用层面，PrismaGA数据集直接赋能于需要深度知识整合的智能决策系统。如在体育赛事分析中，系统可依据历史比赛的知识图谱，自动回答关于球员表现对比、赛季趋势演变等复杂问题；在航空安全领域，则可针对事故报告图谱进行因果链查询与风险因素统计。此外，它还可用于金融风控场景中挖掘实体间的隐性关联，或助力医疗知识图谱实现症状、诊断与治疗方案的逻辑验证。这些应用均依赖于数据集所训练的模型能够忠实于图谱结构并生成可解释的推理路径。

数据集最近研究