chat-robot, cornell_chinese, english dialogue

github2019-05-31 更新2024-05-31 收录

下载链接：

https://github.com/sxhfut/EmotionalConversationDataSet

下载链接

链接失效反馈

官方服务：

资源简介：

我们收集了三个对话数据集：聊天机器人、康奈尔中文和英文对话。这些数据集来自网络，并被标注了五种情感标签，用于进一步的情感计算研究。这些对话被标记为五种情感：0: 中性；1: 快乐；2: 惊讶；3: 悲伤；4: 愤怒。

We have collected three dialogue datasets: chatbot dialogues, Cornell Chinese dialogues, and Cornell English dialogues. These datasets were sourced from the internet and annotated with five emotion labels for further research in affective computing. The dialogues are labeled with five emotions: 0: Neutral; 1: Happy; 2: Surprised; 3: Sad; 4: Angry.

创建时间：

2019-05-31

原始信息汇总

数据集概述

数据集名称

Conversational DataSet with Emotional Labelled

数据集来源

合肥工业大学计算机与信息学院情感计算研究所自然语言处理团队

数据集内容

chat-robot: 网络收集的对话数据集
cornell_chinese: 网络收集的对话数据集
english dialogue: 网络收集的对话数据集

情感标注

情感标签: 0: neutral; 1: happy; 2: surprised; 3: Grief; 4: angry
标注目的: 支持情感计算研究

数据集格式

chat-robot: 格式展示图链接
cornell_chinese: 格式展示图链接
english dialogue: 格式展示图链接

联系方式

孙晓 (Xiao Sun): E-mail: sunx@hfut.edu.cn
裴正蒙 (Emmons Pei): E-mail: 243633699@qq.com

数据集可用性

目前仅展示部分数据集，如需更多数据，请联系上述联系人。

搜集汇总

数据集介绍

构建方式

该数据集 chat-robot, cornell_chinese, english dialogue 旨在服务于情感计算领域的研究，由合肥工业大学计算机与信息学院情感计算研究所自然语言处理团队采集自网络对话，并根据五种情感标签进行标注，分别为：中性、快乐、惊讶、悲伤和愤怒。各数据集由不同人员在不同时间收集和标注，因此格式存在差异。

特点

数据集以情感标注对话的形式呈现，包含三种语言版本，即中文对话数据集 cornell_chinese，英语对话数据集 english dialogue 以及与聊天机器人交流的数据集 chat-robot。对话数据集均以五种情感类型进行标注，为情感识别与分类研究提供了丰富的标注资源。此外，由于数据收集和标注人员的多样性，数据集格式各异，增加了其实用性和研究价值。

使用方法

使用该数据集时，研究者可根据个人需求获取相应格式的数据。数据集的部分样例已通过图片形式展示其标注格式。若需获取完整数据集，可通过联系提供的数据集维护者孙晓和裴正蒙获取更多信息。数据集的使用应遵循科研伦理和相应的数据使用规范。

背景与挑战

背景概述

在自然语言处理领域，情感计算的研究正日益受到重视。合肥工业大学计算机与信息学院情感计算研究所自然语言处理团队，在此背景下，收集并标注了三个对话数据集：chat-robot、cornell_chinese和english dialogue。这些数据集的创建旨在为情感计算研究提供丰富的实验材料，收集时间跨度不同，由不同的人员完成标注，包含了五类情感标签，分别为：中性、快乐、惊讶、悲伤和愤怒。该数据集的构建，不仅为相关领域的研究提供了重要资源，也对推动情感计算技术的发展产生了深远影响。

当前挑战

尽管该数据集为情感计算研究提供了有力支持，但其在构建过程中也面临诸多挑战。首先，不同人员在不同时间进行数据收集和标注，可能导致数据标注的一致性和准确性存在偏差。其次，数据集的多样性和覆盖范围可能有限，这可能会影响其在实际应用中的泛化能力。此外，由于数据集构建的初衷是为了研究情感计算，因此在解决其他自然语言处理任务时可能面临适应性挑战。

常用场景

经典使用场景

在自然语言处理与情感计算领域，该数据集被广泛应用于构建情感识别模型。通过chat-robot, cornell_chinese, english dialogue三种语言的对话数据，研究者可以训练模型以识别对话中的情绪标签，从而实现对会话情感内容的深入理解。

衍生相关工作

基于该数据集，研究者已开展了一系列相关工作，如情感分类算法的研究、跨语言情感识别模型的构建，以及情感对话系统的开发等，这些研究进一步扩展了情感计算的应用范围，并推动了相关技术的进步。

数据集最近研究