hhu-dsml/emowoz
收藏Hugging Face2023-06-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hhu-dsml/emowoz
下载链接
链接失效反馈官方服务:
资源简介:
EmoWOZ数据集基于MultiWOZ,是一个包含超过11,000个任务导向对话和83,000个情感标注的大规模数据集。该数据集主要用于情感识别和情感分析任务,包含两个子集:MultiWOZ(人-人对话)和DialMAGE(人-机对话)。数据集提供了7种情感标签,包括中性、满意、不满意、兴奋、道歉、恐惧和辱骂。EmoWOZ的创建目的是帮助开发能够感知人类情感并避免滥用行为的任务导向对话系统。
EmoWOZ数据集基于MultiWOZ,是一个包含超过11,000个任务导向对话和83,000个情感标注的大规模数据集。该数据集主要用于情感识别和情感分析任务,包含两个子集:MultiWOZ(人-人对话)和DialMAGE(人-机对话)。数据集提供了7种情感标签,包括中性、满意、不满意、兴奋、道歉、恐惧和辱骂。EmoWOZ的创建目的是帮助开发能够感知人类情感并避免滥用行为的任务导向对话系统。
提供机构:
hhu-dsml
原始信息汇总
数据集概述
数据集名称: EmoWOZ
数据集大小: 10K<n<100K
语言: 英语
许可: CC-BY-NC-4.0
任务类别: 文本分类
多语言性: 单语
源数据集: MultiWOZ, Original (human-machine interaction dialogues)
数据集配置: emowoz, multiwoz, dialmage
数据集结构
数据实例:
dialogue_id: 对话的唯一标识符log: 包含对话文本和情感标签的序列text: 对话文本,类型为字符串emotion: 情感标签,类型为整数
数据字段:
dialogue_id: 对话ID,字符串类型text: 对话文本,列表类型,包含字符串emotion: 情感标签,列表类型,包含整数
数据分割:
train: 9233个示例,10661603字节validation: 1100个示例,1391634字节test: 1100个示例,1409633字节
数据集创建
注释创建者: 众包
语言创建者: 众包
注释过程: 每个用户话语由三位注释者标注,最终标签通过多数投票决定,若无共识则手动解决。
注释者: 亚马逊Mechanical Turk平台的众包工作者
搜集汇总
数据集介绍

构建方式
在任务导向对话系统研究领域,情感识别是提升人机交互自然度的关键。EmoWOZ数据集的构建以经典的多领域任务导向对话数据集MultiWOZ为基础,通过众包方式对超过一万一千个对话中的用户话语进行了情感标注。为丰富情感表达的多样性,研究团队额外收集了人类与机器交互的DialMAGE对话。标注过程严谨,每条用户话语由三位标注者独立完成,采用多数投票机制确定最终情感标签,对于无法达成一致的案例则进行人工裁决,确保了标注质量与可靠性。
特点
该数据集的核心特点在于其规模与标注的精细度。它囊括了超过八万三千条情感标注,覆盖了基于OCC情感模型适配的七种情感类别,包括中性、满意、不满、兴奋、歉意、恐惧和辱骂性情感。数据集由人类间对话(MultiWOZ子集)和人机对话(DialMAGE子集)两部分构成,这种双源结构为研究不同交互情境下的情感模式提供了宝贵资源。然而,数据也呈现出情感分布不均衡及子集间存在风格差异等固有特性。
使用方法
EmoWOZ数据集主要服务于对话系统中的情感识别任务。研究人员可通过加载其标准化的训练、验证和测试集划分,直接用于训练和评估情感分类模型。数据集支持将细粒度情感标签映射为情感极性,从而扩展至情感分析等任务。鉴于其包含人-人和人-机两种对话类型,该数据集特别适用于跨领域情感识别模型的开发与鲁棒性测试,为构建更具同理心的任务导向对话系统提供了坚实的数据基础。
背景与挑战
背景概述
在任务导向对话系统研究领域,情感识别作为提升人机交互自然度与共情能力的关键环节,长期面临标注数据稀缺的挑战。EmoWOZ数据集由德国杜塞尔多夫大学对话系统与机器学习教席团队于2022年构建,其核心研究目标在于填补任务对话中细粒度情感标注资源的空白。该数据集以经典多领域对话数据集MultiWOZ为基础,通过众包标注方式对超过1.1万段对话中的8.3万余条用户话语进行了七维情感标注,并创新性地融合了人机对话子集DialMAGE以扩展情感表达多样性。该资源的发布为对话情感分析、情感感知状态跟踪等研究方向提供了重要基准,推动了任务对话系统向更具情感智能的方向演进。
当前挑战
EmoWOZ数据集致力于解决任务导向对话中情感识别的核心难题,其首要挑战在于如何精准捕捉对话动态演进过程中的复杂情感状态,特别是在多轮交互背景下情感信号的稀疏性与上下文依赖性。数据构建过程中面临双重困难:在标注层面,需要设计适用于任务对话场景的情感分类体系,克服传统离散情感模型与任务语境适配度不足的问题;在数据质量层面,众包标注带来的主观差异需要通过多轮标注与仲裁机制进行调和,且原始MultiWOZ数据划分导致训练集与测试集存在情感分布偏移现象。此外,数据集中情感类别呈现显著不均衡分布,中性、满意与不满三类情感占比超过95%,这对模型训练的泛化能力提出了严峻考验。
常用场景
经典使用场景
在任务导向对话系统研究领域,EmoWOZ数据集为情感识别任务提供了关键资源。该数据集基于MultiWOZ构建,融合了人机交互对话,其核心应用场景在于训练和评估对话系统中的情感分类模型。研究者利用其丰富的对话轮次与精细的情感标注,能够深入探索用户在与系统交互过程中所表达的情感动态变化,从而推动对话系统在理解用户情绪状态方面的能力提升。
解决学术问题
EmoWOZ数据集有效解决了任务导向对话中情感识别研究的数据稀缺问题。传统研究多集中于开放域闲聊,而该数据集填补了任务场景下情感分析的空白。它基于OCC情感模型构建了七类情感标签,使得学者能够系统探究情感对对话成功的影响、情感状态的跟踪建模以及跨领域情感迁移等关键学术议题,为构建更具同理心的智能对话系统奠定了实证基础。
衍生相关工作
围绕EmoWOZ数据集,已衍生出多项经典研究工作。例如,有研究重新评估了其在MultiWOZ子集上的数据划分与情感分布偏移问题,提出了更稳健的评估方案。此外,该数据集也被广泛用于基于Transformer的对话情感识别模型训练、跨领域情感迁移学习探索,以及结合情感状态进行对话策略优化的联合建模,持续推动着任务对话情感计算的前沿进展。
以上内容由遇见数据集搜集并总结生成



