DUO

Name: DUO
Creator: 东北大学, CyberAgent, 日本国立国语研究所, 日本理化学研究所
Published: 2025-07-15 10:19:52
License: 暂无描述

arXiv2025-07-15 更新2025-07-17 收录

下载链接：

https://github.com/ikuminumaya/duo-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DUO数据集是一个开放域对话数据集，包含用户的主观评价和第三方评估者的客观评价，涵盖了对话偏好和风格相似性。数据集基于EmpatheticDialogues和Wizard of Wikipedia两个场景，旨在分析对话偏好和风格相似性之间的关系。DUO数据集揭示了用户主观感知的风格相似性与用户偏好之间存在强烈的正相关关系，强调了区分主观和客观风格相似性的重要性。

The DUO Dataset is an open-domain conversational dataset that contains users' subjective evaluations and objective evaluations from third-party assessors, covering conversational preferences and style similarity. It is built upon two conversational scenarios sourced from EmpatheticDialogues and Wizard of Wikipedia, and aims to investigate the relationship between conversational preferences and style similarity. The DUO Dataset demonstrates that there exists a strong positive correlation between users' subjectively perceived style similarity and user preferences, emphasizing the significance of distinguishing between subjective and objective style similarity.

提供机构：

东北大学, CyberAgent, 日本国立国语研究所, 日本理化学研究所

创建时间：

2025-07-15

原始信息汇总

DUO: 带有用户主观和客观评估的对话数据集

数据集概述

数据集名称：DUO (Dialogue Dataset with User subjective and Objective evaluations)
发布会议：SIGDIAL 2025
当前状态：数据和许可证即将发布

数据集特点

包含用户主观和客观评估的对话数据

注意事项

实际数据和许可证尚未发布，需等待后续更新

搜集汇总

数据集介绍

构建方式

DUO数据集的构建基于开放域对话环境，采用两种广泛研究的对话设置：EmpatheticDialogues（情感交流）和Wizard of Wikipedia（知识驱动对话）。通过招募39名英语母语者与GPT-4o和Llama-3.1-70B-Instruct模型进行多轮对话，并引入三种风格控制条件（匹配用户风格、差异化风格和无风格指令）。每段对话后收集用户的主观评价（偏好、一致性、风格相似性等），并邀请第三方标注者对随机选取的对话进行客观风格相似性标注，最终形成包含314段对话的平衡语料库。

特点

该数据集的核心特点在于同时包含主观与客观双维度评价：用户自身对风格相似性的感知（主观）与第三方标注者的客观评估形成对比。数据覆盖情感交流和知识探索两种对话类型，且通过控制生成模型的风格指令，呈现风格相似性的连续分布。统计分析显示，用户偏好（PREF.sb）与主观风格相似性（STYL.sb）存在强相关性（ED: r=0.75；WoW: r=0.67），而主客观风格评价间却呈现显著差异，揭示了对话评估中视角差异的重要性。

使用方法

研究者可利用DUO数据集多角度探究风格相似性对对话质量的影响：通过主观评价分析用户真实偏好与风格感知的关系；借助客观标注研究外部观察者视角的评估标准；对比主客观差异可深化对对话评估机制的理解。具体使用时，可分别提取ED和WoW子集研究情感共鸣或知识传递场景，或整合分析跨场景规律。数据提供的五级李克特量表评分支持定量分析，而原始对话文本支持细粒度语言特征研究。

背景与挑战

背景概述

DUO数据集由日本东北大学（Tohoku University）的研究团队于2025年发布，旨在探索开放域对话系统中风格相似性对用户偏好的影响。该数据集创新性地整合了用户主观评价与第三方客观标注，包含314组人机对话数据，覆盖共情对话（EmpatheticDialogues）和知识对话（Wizard of Wikipedia）两种典型场景。其核心研究在于揭示主观风格相似性与用户偏好间的强相关性（r=0.75），同时发现主客观评价间的显著差异，为对话系统个性化研究提供了新的评估维度。该成果发表于计算语言学顶级会议，推动了对话系统从语义正确性向用户体验优化的范式转变。

当前挑战

DUO数据集面临双重挑战：在领域问题层面，需解决开放域对话中风格相似性度量标准不统一的问题，传统第三方标注与用户主观感知存在高达40%的评分差异（如案例中主观2分vs客观4.33分）；在构建层面，需克服多模态数据对齐的复杂性，包括协调GPT-4o与Llama-3.1两种模型的风格控制策略，以及处理低至0.25的Krippendorff's α标注一致性。此外，数据采集需平衡12种实验条件（2场景×2模型×3风格条件），同时确保314组对话在话语长度（14-19词/句）和主题多样性（133个知识话题）上的代表性。

常用场景

经典使用场景

DUO数据集在对话系统研究中具有重要价值，尤其在探讨风格相似性对用户偏好的影响方面。该数据集通过收集用户与对话系统之间的多轮开放域对话，并结合用户主观评价与第三方客观评价，为研究风格对齐与用户满意度之间的关系提供了丰富的数据支持。经典使用场景包括分析用户主观感知的风格相似性与客观评价之间的差异，以及探究这些差异如何影响用户对对话系统的整体偏好。

实际应用

在实际应用中，DUO数据集为开发更符合用户偏好的对话系统提供了数据支持。例如，在客服对话系统或社交聊天机器人中，系统可以通过学习用户的语言风格，生成更符合用户主观偏好的响应，从而提升用户体验。此外，该数据集还可用于评估不同对话模型在风格对齐方面的表现，帮助开发者优化模型生成策略。

衍生相关工作

DUO数据集衍生了一系列相关研究，尤其是在风格对齐和对话评估领域。例如，基于DUO的研究可能探索如何利用大型语言模型（如GPT-4o和Llama-3）更好地捕捉和适应用户风格。此外，该数据集还启发了对主观与客观评价差异的深入分析，推动了对话系统评估方法的多样化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集