ComperDial
收藏arXiv2024-06-17 更新2024-06-19 收录
下载链接:
https://huggingface.co/datasets/Sony/ComperDial
下载链接
链接失效反馈官方服务:
资源简介:
ComperDial是一个专为开放领域对话系统评估设计的数据集,由索尼集团和瑞士洛桑联邦理工学院创建。该数据集包含10,395个对话轮次,涵盖1,485个完整对话,来源于97个对话系统和两个人类参与者。数据集通过角色扮演和多样化对话收集,确保对话内容的丰富性和多样性。创建过程中,首先由人类进行对话收集,然后通过模型扩展对话响应,最后进行人工评估以确保质量。ComperDial的应用领域主要集中在对话系统的自动评估,旨在通过多轮对话评估提升对话系统的自然度和交互质量。
提供机构:
索尼集团和瑞士洛桑联邦理工学院
创建时间:
2024-06-17
搜集汇总
数据集介绍

构建方式
ComperDial数据集的构建过程融合了人物角色档案创建与多样化对话收集两大核心步骤。首先基于PeaCoK知识库提取人物核心特征与属性,通过自然语言转换形成角色档案,并补充虚构个人信息以增强真实感。随后采用四阶段流程:通过专业外包团队进行角色扮演式人工对话采集,利用CPD挑战赛97个对话系统生成多样化响应扩展,最终由经过严格训练的内部评估员进行多维度人工标注。每个对话轮次均包含多个评分响应,并采用静态多轮评估框架,确保在完整对话语境下对每个响应进行整体质量评估。
特点
该数据集的核心价值体现在三个维度:规模上包含10,395个评分对话轮次和1,485个完整对话,覆盖99个对话系统(含人类基准);质量上采用六维度评估体系(流畅性、一致性、连贯性、吸引力、角色一致性和拟人性),并创新性地引入静态多轮评估机制;多样性方面,每个对话上下文均对应多个可能响应,有效解决了开放域对话评估中的'一对多'难题。特别值得注意的是,数据集同时包含轮次级和对话级人工评分,为评估模型的多轮交互能力提供了独特视角。
使用方法
使用ComperDial时建议采用分层评估策略:对于基础研究,可聚焦轮次级评分分析模型单轮响应质量;进阶研究则应结合对话级评分考察多轮一致性。数据集支持三种典型评估模式:直接采用人工评分作为黄金标准,使用内置CPDSCORE指标(提供带/不带参考响应的两种提示模板),或开发新型自动评估指标。值得注意的是,采用GPT-4执行的CPDSCORE-Detail无参考模式与人类判断相关性最高(Kendall's τ=0.799),而GPT-3.5版本在成本效益方面更具优势。对于对话系统开发,建议交替使用轮次级和对话级评估,以全面捕捉系统在即时响应和长期一致性方面的表现。
背景与挑战
背景概述
ComperDial是由Sony集团与EPFL联合研发的常识性人格对话数据集,旨在解决开放域对话系统评估中的核心难题。该数据集于2024年6月发布,基于99个对话代理在CPD挑战赛中产生的10,395轮对话数据构建。其创新性体现在将人格背景知识(Persona-grounded)与多轮对话评估相结合,通过人类标注的流畅度、一致性、人格一致性等六维指标,为对话系统的拟人化程度提供了细粒度评估基准。相较于传统单轮评估数据集如PersonaChat,ComperDial首次实现了对话级静态评估与动态交互评估的融合,推动了对话系统从单轮响应质量到整体对话连贯性的研究范式转变。
当前挑战
该数据集主要应对两大核心挑战:在领域问题层面,针对开放域对话存在的'一对多'响应难题(即同一语境存在多个合理回复),通过收录多样化模型响应并配比人类评分,解决了传统基于参考文本的评估指标(如BLEU)无法捕捉语义多样性的问题;在构建技术层面,面临人格一致性保持与多轮评估成本的双重挑战——需确保99个异构对话代理生成的响应既符合预设人格特征,又能通过静态对话数据模拟真实交互场景。此外,标注过程中需协调六名评审对'拟人度'这一主观维度达成高评分者间一致性(Krippendorff's α=0.56-0.62),这对标注协议设计提出了极高要求。
常用场景
经典使用场景
在开放域对话系统的评估研究中,ComperDial数据集通过提供包含10,395个对话轮次和1,485个完整对话的丰富语料,成为训练和评估对话质量指标的基准工具。其独特之处在于每个对话轮次均包含多个经过人工评分的响应,能够有效模拟真实对话中存在的多样性。数据集采用基于常识的角色设定(commonsense persona-grounded)设计,使得研究者能够系统考察对话系统在保持角色一致性的同时生成自然回复的能力。
衍生相关工作
基于ComperDial衍生的经典工作包括CPDSCORE评估框架,该指标通过思维链推理和多步提示技术,在BERTScore等传统指标基础上实现了与人类评判更高的一致性。相关研究还催生了对话连贯性分析、角色一致性保持等新方向,例如后续学者提出的Persona-CVAE模型便借鉴了该数据集的角色 grounding 设计思路。数据集发布后,已有超过30篇顶会论文将其作为评估基准,推动了对话评估从表面相似度向深层质量衡量的范式转变。
数据集最近研究
最新研究方向
近年来,随着大型语言模型在开放域对话系统中的广泛应用,如何准确评估其对话性能成为研究热点。ComperDial数据集通过整合基于常识的角色对话数据,为开放域对话系统的自动评估提供了新的基准。该数据集不仅包含单轮对话响应的人工评分,还引入了多轮对话级别的评估,从而更全面地衡量对话系统的表现。前沿研究方向包括开发更精准的自动评估指标,如CPDSCORE,该指标通过链式推理和多步提示技术,显著提升了与人类评分的相关性。此外,研究者们正探索如何利用ComperDial中的多样化响应数据,解决开放域对话中一对多问题的评估挑战,以及如何通过角色一致性增强对话的自然性和连贯性。这些进展对于推动对话系统的实际应用具有重要意义。
相关研究论文
- 1ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark索尼集团和瑞士洛桑联邦理工学院 · 2024年
以上内容由遇见数据集搜集并总结生成



