UTEP Corpus of Dissatisfaction in Spoken Dialog

github2023-06-03 更新2024-05-31 收录

下载链接：

https://github.com/joneavila/utep-dissatisfaction-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

我们提供了一个口语对话语料库，旨在支持不满情绪自动检测的研究。收集了191个模拟客户与商家对话，分为两种情况：一种是引导参与者达成满意、双方同意的结果，另一种是预先排除达成共识的可能性。大多数对话长度为1至5分钟。该语料库及其元数据可自由用于研究目的。

We present a spoken dialogue corpus designed to support research in automatic detection of dissatisfaction. The corpus comprises 191 simulated customer-merchant dialogues, categorized into two scenarios: one where participants are guided to reach a satisfactory and mutually agreed outcome, and another where the possibility of consensus is precluded. Most dialogues range from 1 to 5 minutes in length. This corpus and its metadata are freely available for research purposes.

创建时间：

2021-03-03

原始信息汇总

UTEP Corpus of Dissatisfaction in Spoken Dialog

数据集概述

目的：支持自动检测不满时刻的研究。
对话类型：收集了191个模拟客户-商家对话，分为两种情况：一种是引导至满意、双方同意的结果，另一种是预先排除达成一致的可能性。
时长：大多数对话时长为1至5分钟。
可用性：数据集及其元数据免费提供用于研究目的。

数据集内容

annotations：客户发言的不满标签（见annotation-guide.txt）
calls：191个英语对话，WAV格式
calls-non-English：3个日语对话，WAV格式
call-log.xlsx：包含每个对话的元数据，包括日期、场景ID、参与者ID、同谋者ID和备注
train-dev-test-sets.txt：用于实验的训练集、开发集和测试集中的对话列表
report.pdf：本报告的PDF文档

搜集汇总

数据集介绍

构建方式

UTEP Corpus of Dissatisfaction in Spoken Dialog数据集的构建基于191个模拟客户与商家之间的对话，这些对话在两种不同情境下进行：一种是引导参与者达成满意的共识，另一种则是预设无法达成一致。对话时长大多介于1至5分钟之间。此外，该数据集还包括一个双语平行话语语料库，进一步丰富了其研究价值。

特点

该数据集的特点在于其专注于口语对话中的不满情绪检测，提供了详细的标注信息，包括客户话语的不满标签。数据集不仅包含191个英语对话的WAV格式文件，还收录了3个日语对话，以及每个对话的元数据，如日期、场景ID、参与者ID等。这些多元化的数据为研究提供了丰富的素材。

使用方法

UTEP Corpus of Dissatisfaction in Spoken Dialog数据集的使用方法包括利用提供的WAV格式对话文件进行语音分析，结合标注指南中的不满标签进行情绪检测研究。数据集还提供了训练集、开发集和测试集的划分，便于研究者进行模型训练和评估。此外，通过分析call-log.xlsx中的元数据，可以进一步探索对话背景对不满情绪的影响。

背景与挑战

背景概述

UTEP Corpus of Dissatisfaction in Spoken Dialog数据集由德克萨斯大学埃尔帕索分校的研究团队创建，旨在支持自动检测对话中不满情绪的研究。该数据集包含191个模拟客户与商家之间的对话，分为两种情境：一种导向双方满意的结果，另一种则预先设定无法达成一致。对话时长多为1至5分钟，涵盖了英语和少量日语对话。该数据集的发布为情感计算和自然语言处理领域提供了重要的研究资源，尤其在客户服务自动化和情感分析方面具有广泛的应用前景。

当前挑战

该数据集面临的挑战主要集中在两个方面。首先，自动检测对话中的不满情绪是一个复杂的任务，涉及情感识别、语境理解和语义分析等多重技术难题。其次，在数据集的构建过程中，研究人员需要设计合理的对话脚本，确保情境的真实性和多样性，同时还需进行精细的标注工作，以准确反映对话中的情感变化。这些挑战不仅要求高水平的语言学知识，还需要跨学科的技术支持，以提升数据集的实用性和研究价值。

常用场景

经典使用场景

UTEP Corpus of Dissatisfaction in Spoken Dialog数据集在语音对话系统研究领域中被广泛应用，尤其是在自动检测用户不满情绪的算法开发中。研究者通过分析该数据集中的对话内容，能够训练和验证模型以识别和分类用户在对话中的不满情绪，从而提升对话系统的用户体验。

衍生相关工作

基于UTEP Corpus of Dissatisfaction in Spoken Dialog数据集，研究者们开发了多种情感识别模型和对话管理系统。例如，一些研究利用该数据集训练深度学习模型，实现了对用户不满情绪的实时检测。此外，该数据集还催生了跨语言情感识别研究，推动了多语言对话系统的发展。

数据集最近研究