CI-ToD
收藏arXiv2021-09-23 更新2024-06-21 收录
下载链接:
https://github.com/yizhen20133868/CI-ToD
下载链接
链接失效反馈官方服务:
资源简介:
CI-ToD是由哈尔滨工业大学社会计算与信息检索研究中心创建的一个面向任务导向对话系统的新型数据集,旨在解决对话系统中的不一致性问题。该数据集包含318条对话,通过人工标注确保每条对话的质量。数据集不仅标注了单一的不一致性标签,还提供了更细粒度的标签,如对话历史不一致性、用户查询不一致性和知识库不一致性,以帮助模型分析不一致性的来源。CI-ToD的应用领域主要集中在提高任务导向对话系统的一致性识别能力,解决现有模型在处理复杂对话时产生的不一致问题。
CI-ToD is a novel dataset for task-oriented dialogue systems, developed by the Social Computing and Information Retrieval Research Center of Harbin Institute of Technology, which aims to resolve inconsistency issues in dialogue systems. This dataset comprises 318 dialogues, with the quality of each dialogue guaranteed via manual annotation. Rather than only providing a single inconsistency label, the dataset offers more fine-grained tags including dialogue history inconsistency, user query inconsistency, and knowledge base inconsistency, to assist models in analyzing the sources of inconsistencies. The main application scenarios of CI-ToD focus on improving the consistency recognition capability of task-oriented dialogue systems and addressing the inconsistency problems arising when existing models handle complex dialogues.
提供机构:
哈尔滨工业大学社会计算与信息检索研究中心
创建时间:
2021-09-23
搜集汇总
数据集介绍

构建方式
在任务型对话系统领域,一致性问题较开放域更为紧迫。为填补这一研究空白,CI-ToD数据集基于KVRET对话语料库构建。其构建流程包含四个步骤:首先进行数据预处理,将多轮对话拆分为子对话并过滤通用回复;其次通过自动替换知识库实体值构建知识库不一致(KBI)样本;随后由人工标注员改写系统回复,生成与对话历史或用户查询相矛盾的内容,以构建对话历史不一致(HI)和用户查询不一致(QI)样本;最后经由三人独立校验与专家审核,确保标注质量,获得近三月的精细化标注成果。
特点
CI-ToD数据集具有两大显著特点。其一,它是首个聚焦于任务型对话系统一致性识别的基准数据集,弥补了该领域长期缺乏公开评测资源的缺憾。其二,数据集不仅提供单一标签用于判断系统回复是否存在矛盾,更引入了细粒度标签,即对话历史不一致(HI)、用户查询不一致(QI)和知识库不一致(KBI),使模型能够深入分析不一致性的源头。数据集中不一致样本占比超过64%,且各类型分布均衡,构成极具挑战性的评测基准。
使用方法
CI-ToD将一致性识别形式化为一个多标签分类任务。给定多轮对话历史、当前用户查询、对应知识库以及待判定的系统回复,模型需输出三维向量,分别指示回复是否与对话历史、用户查询或知识库存在矛盾。研究采用多任务学习框架,同时预测HI、QI和KBI三种标签。输入时通过特殊分隔符区分知识库、用户和系统角色。实验表明,即便最优的预训练模型(BART)整体准确率仅达51.3%,远低于人类表现的93.2%,揭示了该任务蕴含的巨大提升空间。
背景与挑战
背景概述
任务导向型对话系统旨在协助用户完成诸如酒店预订或餐厅预约等具体目标,近年来在学术界与工业界均获得了广泛关注。然而,基于神经网络的生成模型在产生回复时,常因缺乏显式控制而出现与对话历史、用户查询或知识库相矛盾的不一致现象,严重破坏对话的连贯性与用户体验。尽管开放域对话领域已针对一致性问题开展了诸多研究,但任务导向型对话中的矛盾检测却鲜有探索。为填补这一空白,哈尔滨工业大学社会计算与信息检索研究中心的秦丽波等人于2021年提出了CI-ToD数据集,首次将一致性检测任务引入任务导向型对话领域。该数据集基于KVRET语料库构建,通过众包方式对系统回复进行改写以引入矛盾,并提供了细粒度的标注,包括对话历史不一致、用户查询不一致和知识库不一致三类标签,为评估和提升对话系统的一致性识别能力奠定了重要基础。
当前挑战
CI-ToD数据集所面临的挑战主要源于任务导向型对话中一致性检测的独特复杂性。首先,如何有效建模结构化知识库是一个核心难题,传统方法简单将知识库展平为序列会丢失其内在的图结构信息,且当知识库规模较大时,冗余信息会引入噪声,干扰模型对相关知识的聚焦。其次,对话历史可能包含长距离依赖,其中部分上下文信息对判断当前回复的一致性并无裨益,如何精准过滤无关信息并建模有效历史成为关键。此外,对话中频繁出现的指代消解问题增加了歧义性,模型需正确解析隐式或显式指代才能准确判断矛盾来源。最后,尽管多任务学习框架被用于联合建模三类不一致标签,但现有方法仅依赖共享参数隐式建模任务关联,未能显式刻画三者间的相互作用关系,限制了信息交互的效果。
常用场景
经典使用场景
在任务型对话系统的研究版图中,一致性检测是保障对话流畅性与可信赖性的关键环节。CI-ToD数据集应运而生,填补了该领域在任务导向场景下缺乏专用基准的空白。其最经典的用途是作为一致性识别任务的标准化测试平台,研究者可基于该数据集训练模型,判断系统生成的回复是否与对话历史、用户查询或知识库产生矛盾。通过提供多轮对话的细粒度标注,CI-ToD使得模型不仅能够识别矛盾是否存在,还能定位矛盾的源头,从而推动对话系统从“生成正确”迈向“生成一致”的更高层次。
实际应用
在工业级任务型对话系统的部署中,CI-ToD数据集具有直接的应用价值。基于该数据集训练的一致性检测器可作为自动化评估指标,实时监控对话机器人输出质量,避免因生成矛盾信息导致用户误解或任务失败。例如,在酒店预订、餐厅推荐等场景中,系统若错误地推荐了与历史对话或知识库冲突的地点,检测器能够及时拦截并触发纠正机制。此外,该数据集还可用于对话系统的鲁棒性测试,帮助开发者发现模型在长对话历史、大规模知识库或隐式指代情境下的脆弱性,从而针对性地优化模型结构或引入外部推理模块。
衍生相关工作
CI-ToD数据集的发布催生了一系列富有启发性的后续研究。围绕其提出的三类矛盾检测任务,研究者开始探索如何显式建模对话历史、用户查询与知识库之间的交互关系,例如设计基于图神经网络的KB表示方法以替代简单的扁平化输入。在模型架构方面,多任务学习范式被广泛采用,通过共享编码层同时预测三种矛盾类型,实验证实联合训练优于独立建模。此外,CI-ToD还被用作自动评估指标,用于比较不同端到端对话模型(如Mem2Seq、GLMP、DF-Net)生成回复的一致性,其评估结果与人工评判呈现高达0.9的皮尔逊相关系数,验证了该数据集作为一致性度量的可靠性。
以上内容由遇见数据集搜集并总结生成



