KdConv
收藏arXiv2020-04-09 更新2024-06-21 收录
下载链接:
https://github.com/thu-coai/KdConv
下载链接
链接失效反馈官方服务:
资源简介:
KdConv是一个中文多领域知识驱动对话数据集,由清华大学计算机科学与技术系创建。该数据集包含86,000条语句和4,500个对话,覆盖电影、音乐和旅游三个领域,平均每个对话有19轮。数据集中的对话深入探讨相关话题,并自然过渡到多个话题。创建过程中,通过众包方式收集对话,并要求标注者根据知识图谱中的知识三元组生成语句。KdConv旨在解决多轮知识驱动对话建模的问题,支持知识规划、知识基础和知识适应等研究,适用于探索知识在多轮人机对话中的交互作用。
KdConv is a Chinese multi-domain knowledge-driven dialogue dataset created by the Department of Computer Science and Technology, Tsinghua University. It contains 86,000 utterances and 4,500 dialogues, covering three domains: movies, music and tourism, with an average of 19 turns per dialogue. Dialogues in the dataset thoroughly explore relevant topics and naturally transition across multiple topics. During its creation, dialogues were collected via crowdsourcing, and annotators were required to generate utterances based on knowledge triples in the knowledge graph. KdConv aims to address the problem of multi-turn knowledge-driven dialogue modeling, supports researches including knowledge planning, knowledge grounding and knowledge adaptation, and is applicable to exploring the interactive role of knowledge in multi-turn human-machine dialogues.
提供机构:
清华大学
创建时间:
2020-04-09
搜集汇总
数据集介绍

构建方式
在知识驱动对话研究领域,高质量多轮对话数据的稀缺制约了相关模型的深入探索。KdConv数据集的构建采用了系统化的双阶段方法:首先,研究团队从豆瓣电影、音乐榜单及去哪儿旅行等权威网站爬取热门实体作为种子,并基于XLORE双语知识图谱扩展构建了涵盖电影、音乐、旅行三个领域的领域特定知识图谱,共包含超过1.3万个实体和1.5万条三元组。随后,通过众包方式招募标注者,在双方均可访问知识图谱的条件下,围绕种子实体展开无预设目标的自由多轮对话,并要求标注每轮对话所依据的知识三元组,最终经过质量过滤,形成了包含4500个对话、8.6万条语句的高质量语料库。
特点
KdConv数据集在知识驱动对话领域展现出鲜明的特色。其核心优势在于对话轮次显著多于同类数据集,平均每轮对话达19.0轮,为深入探讨话题提供了充足空间。数据集涵盖了电影、音乐与旅行三个不同领域,不仅包含相似领域(电影与音乐),也包含差异领域(音乐与旅行),为研究领域适应与迁移学习提供了天然实验场。尤为重要的是,每条语句均标注了与之对应的知识图谱三元组,提供了句子级别的知识关联监督信号,且对话话题可在知识图谱的实体间自然转换,每个对话平均涉及2.3个话题,模拟了真实人类对话中话题的多样性与连贯性。
使用方法
该数据集为知识驱动对话生成与理解研究提供了标准化的评估平台。研究者可利用其句子级别的知识标注,训练和评估模型在知识规划、知识落地及多轮对话建模等方面的能力。数据集已按8:1:1的比例划分为训练集、验证集和测试集,支持生成式与检索式两类模型的基准测试。使用时可加载提供的知识图谱文件与对话文本,将知识三元组以键值对记忆网络等形式融入模型编码或解码过程,通过优化结合了交叉熵损失与知识注意力损失的联合目标函数,促使模型生成与知识一致且连贯的回复。此外,跨领域的数据划分使得研究者能够系统探索模型在不同领域间的泛化与迁移性能。
背景与挑战
背景概述
在人工智能领域,实现类人对话是长期追求的目标,其中背景知识对于对话系统的成功至关重要。然而,知识驱动对话系统的研究长期受限于缺乏包含多轮、多主题且具备知识标注的对话数据。为填补这一空白,清华大学人工智能实验室的周昊、郑楚杰、黄凯丽、黄民烈和朱小燕等人于2020年提出了KdConv数据集。该数据集旨在构建一个面向中文多领域、多轮次的知识驱动对话语料库,其核心研究问题聚焦于如何基于知识图谱进行多轮对话的建模,包括知识规划、知识落地与知识适应等关键任务。KdConv涵盖了电影、音乐和旅游三个领域,包含4,500个对话和86,000条话语,平均对话轮次达到19.0,显著长于同期其他数据集。该数据集的发布为知识驱动对话生成、领域适应与迁移学习等研究方向提供了重要的基准资源,推动了中文对话人工智能的发展。
当前挑战
KdConv数据集所针对的知识驱动对话生成领域面临多重挑战。首要挑战在于如何使模型在长程、多主题的对话中,连贯且自然地规划与利用背景知识,以生成信息丰富且逻辑一致的回复,这超越了传统单轮或目标导向对话的范畴。其次,数据构建过程本身亦存在显著困难:一方面,需从大规模开放域知识中筛选并构建高质量、领域特定的知识图谱,确保知识的准确性与覆盖度;另一方面,通过众包方式收集多轮对话时,需设计有效机制引导标注者基于给定知识进行深入讨论并实现自然的话题转换,同时严格过滤存在语法错误或知识不一致的低质量对话,以保障语料的自然度与可靠性。此外,为对话中的每一条话语精确标注其所关联的知识三元组,也是一项耗时且需要严谨设计的标注挑战。
常用场景
经典使用场景
在知识驱动对话系统研究中,KdConv数据集常被用于构建多轮、多主题的中文对话生成模型。其典型应用场景包括模拟人类自然对话中的知识规划与话题转移过程,研究者利用该数据集训练模型在电影、音乐和旅行三个领域内进行深度话题讨论,并实现基于知识图谱的连贯对话生成。
解决学术问题
该数据集有效解决了开放域对话系统中知识融合不足的学术难题,为多轮知识驱动对话提供了高质量的标注资源。通过句子级别的知识三元组标注,它使得模型能够学习如何将结构化知识自然融入对话流,显著提升了生成回复的知识相关性与话题连贯性,推动了知识规划、知识适配等核心研究方向的发展。
衍生相关工作
KdConv的发布催生了一系列经典研究工作,包括基于记忆网络的知识增强对话模型、跨领域迁移学习框架以及知识感知的预训练语言模型适配。这些工作深入探索了多领域知识适配、动态话题转移建模等方向,显著提升了中文知识对话系统的性能,并为后续如知识图谱增强的生成式对话模型提供了重要基准。
以上内容由遇见数据集搜集并总结生成



