KGDS (Knowledge-Grounded Discussion Summarization)
收藏arXiv2025-05-18 更新2025-05-21 收录
下载链接:
https://github.com/zhouweixiao/KGDS
下载链接
链接失效反馈官方服务:
资源简介:
KGDS 数据集旨在解决现有对话摘要系统中由于仅依赖于对话信息而导致外部观察者混淆的问题。该数据集包含 100 个高质量的多领域样本,这些样本来自真实的新闻讨论,并通过严格的标注协议进行标注。每个样本包括结构化的共享背景知识、多轮人工讨论和专家标注的评价组件。该数据集的创建旨在支持对大型语言模型在知识驱动讨论摘要任务上的性能进行评估。
The KGDS dataset is developed to address the issue that existing dialogue summarization systems, which solely leverage dialogue information, cause confusion among external observers. This dataset includes 100 high-quality multi-domain samples sourced from real-world news discussions, annotated under strict annotation protocols. Each sample comprises structured shared background knowledge, multi-turn manual discussions, and expert-annotated evaluation components. The construction of this dataset aims to support the evaluation of Large Language Models (LLMs) on knowledge-driven discussion summarization tasks.
提供机构:
北京航空航天大学复杂与关键软件环境国家重点实验室, 中国科学院自动化研究所多模态人工智能系统国家重点实验室, 中国科学院大学, 字节跳动, 番禺人工智能实验室
创建时间:
2025-05-18
搜集汇总
数据集介绍

构建方式
KGDS数据集的构建采用了多阶段专家标注流程,首先从Google News采集100篇多领域新闻作为背景知识库,通过严格控制时间范围(2024年3月至9月)确保数据时效性。随后由四名NLP领域博士候选人组成专家小组,经过独立阅读理解和开放式讨论生成对话文本,并采用双层一致性控制机制标注背景支持段落、关键背景支持原子事实及清晰原子观点。特别设计了EBS-AOS(抽取式背景摘要+抽象观点摘要)和ABS-AOS(抽象背景摘要+抽象观点摘要)两种标准化摘要模式,通过LLM驱动的原子事实分解与验证技术确保数据粒度的一致性。
特点
该数据集具有三大核心特征:知识依赖性方面,专门针对背景知识稀疏的讨论场景,要求模型同时处理显性对话内容和隐性背景知识;多维度标注体系包含432个背景支持段落、1638个关键原子事实及873个带指代消解的原子观点,支持从段落级到原子事实级的细粒度评估;创新性评估框架采用几何平均算法,将背景摘要的KBSAF F1分数与观点摘要的CAO召回率相结合,实现多维度性能量化。数据样本呈现典型的知识省略特征,平均每篇新闻讨论包含14.4个段落,对话中隐式指代占比高达91.6%。
使用方法
使用KGDS需遵循分层评估协议:对于EBS-AOS模式,采用BSP匹配算法计算段落级召回率(BSPR)、精确率(BSPP)和F1值;ABS-AOS模式则通过LLM驱动的原子事实验证,评估关键背景事实覆盖率(KBSAFR)和聚焦度(KBSAFP)。观点摘要需执行CAO召回率分析,并针对未覆盖观点进行五类错误检测(指代未澄清/错误澄清等)。整体性能采用(BSFF1×CAOR)^(1/2)公式计算,建议优先使用EBS-AOS模式以获得更稳定的实验结果。数据集支持单轮结构化提示和多轮自反思两种LLM交互范式,需注意不同模式间存在平均11.37%-28.29%的性能差距。
背景与挑战
背景概述
KGDS(Knowledge-Grounded Discussion Summarization)数据集由北京航空航天大学和中国科学院自动化研究所的研究团队于2025年提出,旨在解决传统对话摘要系统因依赖单一对话信息而导致的外部观察者理解障碍问题。该数据集聚焦于结合背景知识与讨论内容生成摘要的新任务,通过建模背景摘要和观点摘要两个标准化模式,构建了首个包含高质量多领域样本的基准测试集。KGDS的提出显著推动了知识增强型文本生成领域的发展,为评估大语言模型在复杂语境下的理解与生成能力提供了重要工具。
当前挑战
KGDS面临的核心挑战体现在两个维度:在领域问题层面,需突破传统对话摘要仅依赖对话内容的局限,解决背景知识稀疏性、指代模糊性及观点整合等难题;在构建过程中,需克服多专家标注一致性控制、细粒度事实单元分解、跨模态知识对齐等技术难点。具体包括:1)背景摘要检索的精度-召回权衡困境;2)关键事实遗漏与无关事实保留的生成缺陷;3)观点摘要中隐式指代消解错误率高等问题。当前最先进的大语言模型在两项标准模式下的平均性能仍不足69%,凸显该任务的前沿性与挑战性。
常用场景
经典使用场景
KGDS数据集在知识驱动的对话摘要任务中展现了其独特的价值。该数据集通过结合讨论内容与背景知识,为生成观察者友好的摘要提供了标准化框架。在学术研究中,KGDS常被用于评估大型语言模型在背景知识检索、生成以及观点整合方面的能力。其精心设计的EBS-AOS和ABS-AOS两种摘要模式,为研究者提供了多角度的分析工具,尤其在处理信息省略和隐式引用等复杂场景时表现出色。
衍生相关工作
基于KGDS的创新研究呈现出多元化发展趋势。在评估方法层面,Song等人提出的FineSurE框架借鉴了KGDS的原子事实验证思想;在模型优化方面,Zhou团队开发的多阶段预训练方法显著提升了跨领域摘要性能。此外,该数据集还催生了针对知识检索增强(如Chen等人工作)和隐式引用解析(如Zhu等人研究)的专项改进,形成了以知识融合为核心的技术生态。
数据集最近研究
最新研究方向
近年来,知识基础讨论摘要(KGDS)领域的研究聚焦于如何将背景知识与讨论内容相结合,以生成更符合外部观察者需求的摘要。前沿研究方向包括探索大型语言模型(LLM)在背景摘要检索、生成和观点摘要整合中的性能表现。研究发现,当前LLM在背景摘要检索和生成方面仍存在显著挑战,尤其是在关键事实的遗漏和无关事实的保留上。此外,观点摘要中的隐式引用澄清问题也成为研究热点。这些发现不仅揭示了LLM在KGDS任务中的局限性,也为未来在粗粒度检索、细粒度生成和知识整合方面的改进提供了重要指导。
相关研究论文
- 1What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization北京航空航天大学复杂与关键软件环境国家重点实验室, 中国科学院自动化研究所多模态人工智能系统国家重点实验室, 中国科学院大学, 字节跳动, 番禺人工智能实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



