EmotionLines

Name: EmotionLines
Creator: 中央研究院，台湾
Published: 2018-05-30 17:15:57
License: 暂无描述

arXiv2018-05-30 更新2024-06-21 收录

下载链接：

http://academiasinicanlplab.github.io/#download

下载链接

链接失效反馈

官方服务：

资源简介：

EmotionLines是一个包含多党对话情感标注的文本数据集，由台湾中央研究院创建。该数据集包含2,000个对话，总计29,245条发言，数据来源于《老友记》电视剧本和Facebook Messenger私人对话。每条发言由5名Amazon MTurkers标注，使用七种情感标签之一。创建过程包括数据收集、人工标注和隐私保护处理。该数据集主要用于情感检测和对话系统研究，旨在提升对话系统的情感理解和响应能力。

EmotionLines is a multi-party conversational sentiment-annotated text dataset developed by the Academia Sinica, Taiwan. It consists of 2,000 conversations totaling 29,245 utterances, sourced from the scripts of the TV series *Friends* and private Facebook Messenger conversations. Each utterance is annotated by 5 Amazon MTurkers using one of seven predefined emotion labels. The dataset creation workflow encompasses data collection, manual annotation, and privacy protection processing. Primarily applied to sentiment detection and dialogue system research, this dataset aims to enhance the sentiment comprehension and response generation capabilities of dialogue systems.

提供机构：

中央研究院，台湾

创建时间：

2018-02-23

搜集汇总

数据集介绍

构建方式

在情感计算领域，构建能够捕捉对话中情感动态的数据集至关重要。EmotionLines的构建过程体现了严谨的学术设计，其数据源融合了虚构剧本与真实聊天记录，以增强数据的多样性与生态效度。具体而言，研究人员从《老友记》电视连续剧的剧本中提取了对话，并同时从一款名为EmotionPush的应用程序中获取了私人的Facebook Messenger聊天日志。为确保数据的代表性与结构合理性，对话依据其包含的话语数量被划分为四个长度区间，并从每个区间中随机抽取了250段对话，最终从两个来源各获得1000段对话。每段对话中的每一个话语均通过亚马逊众包平台，由五位标注者根据埃克曼的六种基本情感及中性情感进行独立标注，最终通过多数投票确定每个话语的黄金情感标签，并对私人聊天记录进行了严格的两步去标识化处理以保护用户隐私。

特点

EmotionLines数据集的核心特点在于其开创性地为多轮对话中的每一个话语提供了基于文本内容的情感标注，这为研究对话中的情感流提供了宝贵的资源。与以往仅标注独立句子或文档的数据集不同，该数据集强调了情感在连续对话中的上下文依赖性，使得模型能够学习并捕捉情感的动态演变。数据集包含两个子集：源自《老友记》剧本的对话展现了较为丰富和戏剧化的情感表达，而源自真实私人聊天的EmotionPush子集则呈现了更贴近日常生活的、简短且情感分布更为集中的话语模式。数据集中情感标签的分布呈现出不均衡性，其中中性、喜悦和惊讶情感占比较高，这反映了真实对话中情感表达的自然特性。标注者间的一致性通过Fleiss‘ kappa系数进行评估，结果显示了标注任务具有可靠的主观一致性基础。

使用方法

EmotionLines数据集为情感检测模型的训练与评估提供了标准化的基准。数据集已预先按对话划分为训练集、开发集和测试集，确保了任何对话的完整性不被破坏，便于进行序列建模研究。研究者可以将其用于开发能够理解对话上下文的情感识别模型，例如论文中作为基线提供的卷积神经网络和结合了上下文信息的双向长短期记忆网络模型。这些模型利用数据集中每个话语的文本序列及其在对话中的位置信息，学习预测对应的七类情感标签。通过在该数据集上进行实验，可以量化模型在考虑对话上下文后对情感识别准确率的提升效果。此外，该数据集也可用于研究对话情感生成、 empathetic对话系统构建等更高级的自然语言处理任务，推动对话系统从单纯的信息理解向更具人性化的情感交互迈进。

背景与挑战

背景概述

在情感计算与自然语言处理领域，对话系统中的情感识别是提升人机交互自然度与共情能力的关键。EmotionLines数据集由台湾中央研究院与美国卡内基梅隆大学的研究团队于2018年共同创建，旨在解决传统文本情感数据集缺乏对话上下文信息的问题。该数据集首次对完整对话中的每一条语句进行情感标注，涵盖六种基本情感及中性情感，数据源包括《老友记》电视剧脚本与真实私人Facebook聊天记录，共计29,245条语句。其创新性在于捕捉对话中的情感流动，为构建更具人性化的社交对话系统提供了重要基础，推动了上下文感知情感识别模型的发展。

当前挑战

EmotionLines数据集致力于解决对话情感识别领域的核心挑战：如何在多轮对话中准确捕捉情感随上下文动态演变的模式。传统单语句情感分类方法忽略语境依赖，导致同一语句在不同对话情境中可能表达相异情感。在构建过程中，团队面临双重困难：一是标注一致性难题，需通过众包平台确保五名标注者在考虑完整对话上下文时达成可靠共识；二是数据隐私与真实性平衡，对私人聊天记录进行去标识化处理时，需在保护用户隐私的同时保留情感表达的自然性，避免信息失真影响模型学习效果。

常用场景

经典使用场景

在对话情感分析领域，EmotionLines数据集被广泛应用于研究多轮对话中的情感动态变化。该数据集通过标注每个话语的情感标签，为探索对话上下文中的情感流动提供了宝贵资源。研究者利用EmotionLines训练和评估情感检测模型，特别是在社交对话系统中，以捕捉说话者的情感状态变化，从而提升对话系统的自然性和人性化响应能力。

衍生相关工作

基于EmotionLines数据集，衍生了一系列经典研究工作，包括上下文感知的情感检测模型，如结合卷积神经网络和双向长短期记忆网络的架构。这些工作进一步推动了对话情感分析的算法创新，例如多模态情感融合方法和跨领域情感迁移学习。此外，该数据集还激发了针对情感不平衡问题的数据增强技术，以及面向特定情感类别的语料扩展研究。

数据集最近研究