DiaASQ

Name: DiaASQ
Creator: 教育部航空航天信息安全与可信计算重点实验室
Published: 2023-05-22 18:49:20
License: 暂无描述

arXiv2023-05-22 更新2024-06-21 收录

下载链接：

https://github.com/unikcc/DiaASQ

下载链接

链接失效反馈

官方服务：

资源简介：

DiaASQ数据集是一个大规模高质量的对话情感四元分析数据集，包含1000个对话片段，总计7452个话语。数据集主要从中国社交媒体收集，专注于电子产品相关的评论和讨论。通过精心设计的标注流程，确保了数据集的高质量标注。DiaASQ数据集支持中文和英文两种语言，旨在为对话情感分析提供丰富的资源，特别是在跨话语情感四元提取方面。

The DiaASQ dataset is a large-scale, high-quality dataset for conversational emotion quaternary analysis. It contains 1,000 dialogue segments and a total of 7,452 utterances. Collected primarily from Chinese social media, this dataset focuses on reviews and discussions related to electronic products. A meticulously designed annotation workflow ensures the high-quality annotation of the dataset. The DiaASQ dataset supports both Chinese and English languages, aiming to provide rich resources for conversational emotion analysis, particularly in cross-utterance emotion quaternary extraction.

提供机构：

教育部航空航天信息安全与可信计算重点实验室

创建时间：

2022-11-11

搜集汇总

数据集介绍

构建方式

DiaASQ数据集的构建始于从中国社交媒体微博上收集大量与电子产品相关的评论和讨论，包括来自100位知名数码博主的历史推文和评论。通过构建关键词库，筛选出与手机领域相关的对话，并剔除无意义的回复分支，最终形成包含1000个对话片段的语料库。语料库中的对话片段以多线程和多轮对话的形式展开，形成了类似树状结构的回复关系。为了确保数据质量，研究人员采用众包技术，聘请经过培训的工作人员对数据进行标注，并进行了交叉验证和自动规则检查，最终实现了高水平的标注一致性。

使用方法

使用DiaASQ数据集时，首先需要了解数据集的标注格式和任务目标。数据集采用网格标记方案进行标注，包括实体边界标签、实体对标签和情感极性标签。任务目标是从对话文本中提取所有可能的（目标-方面-观点-情感）四元组。研究人员可以根据数据集的格式和任务目标，选择合适的模型进行训练和评估。例如，可以采用基于图、基于序列到序列或基于网格标记的模型进行端到端预测。此外，还可以利用数据集中的对话特定特征和跨句子特征，例如对话线程、说话者和回复关系，以及相对距离信息，来提高模型对对话语义的理解，从而更好地进行跨句子四元组提取。

背景与挑战

背景概述

随着细粒度情感分析（ABSA）在近几十年内的快速发展，其在现实社会中展现出巨大的潜力。然而，当前的ABSA研究大多局限于单个文本片段的场景，对话语境下的研究尚未得到充分探索。为了弥合细粒度情感分析与对话意见挖掘之间的差距，本研究引入了一个名为对话方面情感四元组分析（DiaASQ）的新型任务，旨在检测对话中的目标-方面-意见-情感四元组。研究人员构建了一个大规模、高质量的DiaASQ数据集，涵盖中文和英文两种语言。他们开发了一个神经模型来评估该任务，该模型能够有效地进行端到端四元组预测，并成功融入丰富的对话特定和语篇特征表示，以便更好地进行跨语句四元组提取。该数据集和代码已在 https://github.com/unikcc/DiaASQ 开放，旨在推动情感分析领域的更多进步。

当前挑战

与之前的基于单个文本的ABSA相比，DiaASQ在两个方面具有挑战性。首先，DiaASQ包括四个子任务。直接应用现有表现最佳的基于图的ABSA模型来枚举所有可能的目标、方面和意见项可能会导致组合爆炸。其次，四元组中的元素分散在整个对话中，由于复杂的回复结构，需要模型进行跨语句提取。为了解决这些挑战，研究人员提出了一种端到端的DiaASQ框架。具体来说，基于网格填充方法，他们重新设计了标记方案，以便有效地一次性完成四个子任务。此外，在对话文本编码过程中，他们额外地对对话特定表示进行建模，以便更好地进行语句交互，并编码相对距离作为跨语句特征。

常用场景

经典使用场景

在社交网络、在线论坛等场景中，用户常常通过多轮对话的形式对产品、服务或事件进行评价。DiaASQ数据集正是针对这一场景，旨在分析对话中针对特定目标的各个方面的情感倾向。例如，在社交媒体上，用户可能会讨论小米手机的不同方面，如电池续航、屏幕质量等。DiaASQ数据集可以帮助我们理解用户对这些方面的具体看法，以及这些看法背后的情感倾向，从而为产品改进、市场分析等提供数据支持。

解决学术问题

传统的情感分析研究主要集中在单个文本片段上，而DiaASQ数据集则填补了对话场景下情感分析的空白。该数据集挑战了传统情感分析的两个主要方面：首先，DiaASQ包括四个子任务，直接应用现有的基于图的ABSA模型可能导致组合爆炸；其次，一个四元组的元素分散在整个对话中，需要模型进行跨utterance提取。DiaASQ数据集及其模型的提出，为对话场景下的情感分析研究提供了新的思路和方法，推动了该领域的发展。

实际应用

DiaASQ数据集在实际应用中具有广泛的应用前景。例如，在社交网络平台中，可以利用DiaASQ数据集分析用户对产品的评价，从而为产品改进、市场分析等提供数据支持。此外，DiaASQ数据集还可以用于开发情感支持对话系统，帮助临床诊断和治疗。例如，在医疗场景中，可以通过DiaASQ数据集分析患者对治疗的看法，从而为医生提供更全面的信息。

数据集最近研究