Sony/ComperDial

Name: Sony/ComperDial
Creator: Sony
Published: 2024-06-18 15:44:52
License: 暂无描述

Hugging Face2024-06-18 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/Sony/ComperDial

下载链接

链接失效反馈

官方服务：

资源简介：

ComperDial是一个新的基准数据集，旨在促进开放域对话系统的评估指标的训练和评估。该数据集包含来自97个对话代理和2个人类受试者的10,395个对话轮次的评分，这些对话来自1,485个对话。数据集包括三个部分：对话数据集、用于单轮评估的注释数据集和用于对话级评估的注释数据集。对话数据集包含100个对话，单轮评估注释数据集包含10,395个评分，对话级评估注释数据集包含1,485个评分。这些数据集的构建旨在确保对学习到的对话指标进行更稳健的评估。

提供机构：

Sony

原始信息汇总

数据集卡片：ComperDial

数据集描述

ComperDial 是一个新的基准数据集，旨在促进开放领域对话系统评估指标的训练和评估。该数据集包含10,395个对话轮次的评分，来自1,485个对话，这些对话收集自97个对话代理提交的Commonsense Persona-grounded Dialogue (CPD)挑战赛，以及两个真人对话的标注对话。

数据集结构

ComperDial 包含以下三种数据集，以涵盖多样化的响应和足够数量的系统以确保可靠性：

对话数据集：包含与PersonaChat格式相似的带有角色句子的对话数据集。
单轮评估标注数据集：包含静态单轮评估的人类评估标注。
多轮对话评估标注数据集：包含静态多轮/对话级别评估的人类评估标注。

标注数据集是通过使用对话数据集中的15个对话创建的。

数据统计


	响应收集
对话模型数量	97
人类数量	2
总计	99
	评估数据
对话数据集	100
单轮评估标注数据集	10,395
多轮对话评估标注数据集	1,485

许可证

该数据集在CC-BY-NC-SA 4.0许可下发布。

引用

@misc{wakaki2024comperdial, title={ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark}, author={Hiromi Wakaki and Yuki Mitsufuji and Yoshinori Maeda and Yukiko Nishimura and Silin Gao and Mengjie Zhao and Keiichi Yamada and Antoine Bosselut}, year={2024}, eprint={2406.11228}, archivePrefix={arXiv} }

搜集汇总

数据集介绍

构建方式

在开放域对话系统评估领域，ComperDial数据集的构建体现了严谨的学术设计。其核心数据源自2023年常识性人格对话挑战赛，汇集了来自97个对话代理模型以及两位人类受试者生成的对话。研究者从对话数据集中选取了15段对话作为基础，系统性地构建了包含三个层次的数据子集：一个全新的人格对话数据集、一个包含10,395条标注的轮次级评估数据集，以及一个涵盖1,485条标注的对话级评估数据集。这种分层构建方式确保了评估对象在响应多样性和系统数量上的充分性，为度量指标的稳健评估奠定了坚实基础。

特点

ComperDial数据集的核心特征在于其评估导向的全面性与层次性。该数据集不仅提供了丰富的单轮次响应及其人工评分，还创新性地引入了对话级别的整体评估标注，从而支持对多轮模型响应进行联合评估。其数据来源涵盖了近百个不同的对话系统，确保了响应在风格与质量上具有高度的多样性，这为评估指标应对复杂、真实的对话场景提供了可靠保障。数据集的结构设计紧密贴合实际评估需求，为人格对话系统的度量研究提供了兼具广度和深度的基准测试平台。

使用方法

该数据集主要服务于开放域对话系统评估指标的开发与评测工作。研究人员可利用其对话数据集进行模型训练或生成测试。更为关键的是，借助其大规模的人工标注数据，研究者能够训练或验证新的自动化对话评估指标。具体而言，轮次级评估数据集可用于训练衡量单轮响应质量的指标，而对话级评估数据集则支持开发评估整个对话连贯性与质量的指标。通过在该基准上的测试，可以系统性地比较不同评估指标在多样对话响应上的性能与鲁棒性。

背景与挑战

背景概述

在开放域对话系统研究领域，评估生成对话的质量一直是一项核心难题。索尼公司于2024年推出的ComperDial数据集，由Hiromi Wakaki等研究人员构建，旨在为对话评估指标的训练与评测提供新基准。该数据集源于Commonsense Persona-grounded Dialogue挑战赛，汇集了97个对话模型与2位人类对话者的交互数据，共计包含1,485段对话与10,395轮次的人工评分响应。其创新之处在于融合了基于常识的人物设定对话框架，不仅支持单轮响应评估，还引入了对话层面的整体评分，从而推动对话系统向更自然、连贯的多轮交互方向发展，对提升自动评估指标的鲁棒性与可靠性具有显著影响力。

当前挑战

ComperDial数据集致力于解决开放域对话系统评估中的核心挑战：如何构建能够准确反映人类偏好多维度、多轮次对话质量的自动评估指标。具体而言，其面临的挑战包括：在领域问题层面，需克服现有评估指标对单一响应表面特征的过度依赖，转而捕捉对话整体连贯性、常识合理性及人物一致性等深层属性；在构建过程中，挑战体现在大规模多样化响应的收集与标注上，需协调近百个模型生成结果与人类对话数据，确保评分标准的一致性与可比较性，同时处理人物设定对话特有的语境依赖问题，以保障评估数据的丰富性与统计可靠性。

常用场景

经典使用场景

在开放域对话系统的研究领域，评估生成响应的质量一直是一项核心挑战。ComperDial数据集通过整合来自97个对话代理及人类标注者的多样化响应，为评估指标的开发提供了坚实基础。其经典使用场景在于训练和验证对话评估模型，特别是针对基于常识和人物设定的对话任务，研究人员能够利用该数据集中的多轮对话和单轮响应评分，系统性地测试评估指标在捕捉对话连贯性、相关性和人性化方面的性能。

衍生相关工作

围绕ComperDial数据集，已衍生出多项经典研究工作，主要集中在对话评估指标的创新上。例如，基于其多轮对话评分数据，研究者开发了能够联合评估对话连贯性和人物一致性的新型指标。这些工作不仅扩展了PersonaChat等早期数据集的评估框架，还推动了对话系统研究向更细粒度、更人性化的方向发展，为后续的对话生成与评估模型提供了重要参考。

数据集最近研究