KGDS

github2025-06-05 更新2025-06-10 收录

下载链接：

https://github.com/zhouweixiao/KGDS

下载链接

链接失效反馈

官方服务：

资源简介：

`KGDS.json` 文件包含多个字段，每个字段代表数据集的关键组成部分：1. **SBK**：共享背景知识。2. **KGD**：基于知识的讨论。3. **BSP**：背景支持段落。4. **CAO**：清晰的原子意见。5. **BSPAF**：来自背景支持段落的原子事实。标记为`type`为`1`的事实是**关键背景支持原子事实**。6. **BNPAF**：来自背景非支持段落的原子事实。标记为`type`为`0`的事实是**背景非支持原子事实**。

The KGDS. file contains multiple fields, each representing a key component of the dataset: 1. **SBK**: Shared Background Knowledge. 2. **KGD**: Knowledge-Based Discussion. 3. **BSP**: Background Support Paragraph. 4. **CAO**: Clear Atomic Opinion. 5. **BSPAF**: Atomic Facts from the Background Support Paragraph. Facts marked with `type` as `1` are **Key Background Support Atomic Facts**. 6. **BNPAF**: Atomic Facts from the Non-Support Background Paragraph. Facts marked with `type` as `0` are **Background Non-Support Atomic Facts**.

创建时间：

2025-05-19

原始信息汇总

KGDS数据集概述

数据集位置

数据文件路径：benchmark/KGDS.json

数据结构

数据集包含以下核心字段：

SBK
共享背景知识
KGD
基于知识的讨论
BSP
背景支持段落
CAO
明确原子观点
BSPAF
背景支持段落的原子事实
- 类型标记1表示关键背景支持原子事实
BNPAF
背景非支持段落的原子事实
- 类型标记0表示背景非支持原子事实

未来更新计划

预计2-3周内发布评估代码及12个LLM模型的输出结果

搜集汇总

数据集介绍

构建方式

在知识图谱与自然语言处理交叉领域，KGDS数据集的构建采用了多维度标注体系。该数据集通过结构化JSON格式整合了共享背景知识(SBK)、知识驱动讨论(KGD)等六大核心模块，其中背景支持段落(BSP)与非支持段落(BNP)的原子事实分别采用二进制类型标注，关键支持事实被标记为类型1，形成层次分明的知识验证体系。标注过程严格遵循原子化分解原则，确保每个事实单元具备清晰的语义边界。

特点

KGDS数据集最显著的特征在于其双轨制知识验证架构，既包含支撑核心论点的背景支持原子事实(BSPAF)，又囊括反例性质的背景非支持事实(BNPAF)。这种对立统一的设计为知识可靠性检测提供了天然试验场，数据标注粒度精确到句子级原子事实，每个标注单元均携带可追溯的类型标识。数据集特别标注的关键背景支持事实，为知识推理任务提供了高价值锚点。

使用方法

使用该数据集时，研究者可通过解析标准JSON文件获取结构化知识单元，各字段间存在逻辑关联性。典型应用场景包括：基于SBK和KGD字段实现知识增强的对话生成，利用BSPAF与BNPAF的二元标注开展事实性验证研究，或通过CAO字段分析观点表达的逻辑结构。即将发布的评估代码与12个大语言模型输出结果，将为基准测试提供横向对比框架。

背景与挑战

背景概述

KGDS数据集作为知识图谱与对话系统交叉领域的重要资源，由前沿研究团队于近期构建发布，旨在探索共享背景知识（SBK）与知识驱动对话（KGD）之间的深层关联。该数据集通过结构化标注背景支持段落（BSP）、清晰原子观点（CAO）等核心要素，为分析对话中知识引用机制与事实支撑体系提供了标准化基准。其创新性地区分关键背景支持原子事实（BSPAF）与非支持事实（BNPAF），推动了可解释对话系统与知识验证技术的研究进程，对自然语言处理领域的知识增强模型发展具有显著影响。

当前挑战

KGDS数据集面临的挑战主要体现在两个维度：在领域问题层面，如何精准识别对话流中知识片段的支持性与非支持性边界，需要解决语义关联度量化与上下文连贯性评估的复杂性问题；在构建过程中，原子事实的类型标注（1/0分类）依赖严格的逻辑一致性检验，标注者需平衡段落整体语义与局部事实颗粒度之间的表征冲突。此外，评估框架需兼容不同规模语言模型对知识引用能力的测试，这对基准设计的适应性与可比性提出了更高要求。

常用场景

经典使用场景

KGDS数据集在知识图谱与自然语言处理交叉领域展现出卓越价值，其结构化知识表示与标注体系为研究知识驱动的对话系统提供了标准实验平台。数据集通过Shared Background Knowledge和Knowledge-Grounded Discussion等模块，精准模拟了人类基于背景知识进行逻辑推理的认知过程，成为测试模型知识整合能力的理想基准。

解决学术问题

该数据集有效解决了知识增强型对话系统中三大核心问题：如何区分关键支持事实与非支持事实、如何建立背景知识与对话内容的映射关系、如何验证生成内容的 factual consistency。其精细标注的Atomic Facts体系为可解释性研究提供了新范式，推动对话系统从模式匹配向知识推理的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集