five

DENS

收藏
arXiv2019-10-25 更新2024-07-25 收录
下载链接:
academic_dataset@wattpad.com
下载链接
链接失效反馈
官方服务:
资源简介:
DENS数据集是由瓦特帕德公司创建,专注于英语长篇叙事中的多类别情感分析。该数据集从Project Gutenberg的经典文学和Wattpad的现代在线叙事中收集,通过Amazon Mechanical Turk进行标注。数据集包含9710个样本,每个样本由9个情感类别之一标注,旨在超越现有的句子级情感分析技术,深入探索叙事中的情感复杂性。DENS数据集的应用领域包括情感分析、自然语言处理和叙事研究,旨在解决情感识别和理解中的挑战。

The DENS dataset was developed by Wattpad Corporation, focusing on multi-class sentiment analysis in long-form English narratives. It is collected from classic literary works on Project Gutenberg and modern online narratives on Wattpad, and annotated via Amazon Mechanical Turk. The dataset contains 9,710 samples, each annotated with one of nine sentiment categories. It aims to transcend existing sentence-level sentiment analysis technologies to deeply explore the emotional complexity within narratives. The application domains of the DENS dataset include sentiment analysis, natural language processing and narrative studies, and it is designed to address challenges in emotion recognition and understanding.
提供机构:
瓦特帕德
创建时间:
2019-10-25
搜集汇总
数据集介绍
构建方式
在叙事文本情感分析领域,DENS数据集的构建体现了对长篇幅叙事材料中复杂情感的系统性捕捉。该数据集从古登堡计划的经典文学作品及Wattpad平台的现代网络叙事中选取文本,通过解析将每部作品划分为包含40至200个单词的独立段落。为确保情感标注的多样性与平衡性,研究团队采用基于情感词汇的筛选策略,对部分段落进行修剪,以降低中性样本的比例。标注工作依托亚马逊众包平台Mechanical Turk完成,每位标注者需从基于普拉奇克情感轮修改的九类情感标签中选择主导情感,每段文本由三位标注者独立完成,并通过多数一致原则及内部专家复核确保标注质量。
特点
DENS数据集在情感分析领域展现出独特价值,其核心特点在于专注于长篇幅叙事文本中的多类别情感识别。该数据集涵盖9710个段落,平均每段包含6.24个句子,词汇量达28,000,覆盖超过1600部叙事作品,融合了经典文学与现代网络故事。情感标签体系基于普拉奇克情感轮调整,包含喜悦、悲伤、愤怒、恐惧、期待、惊讶、爱与厌恶八类基本情感及中性类别,其中惊讶与厌恶两类因数据量较小或噪声较多而被建议在分析中剔除。数据集的文本来源兼顾历时性与多样性,现代叙事包含成长主题、女性主导及LGBTQ+等当代元素,为探究叙事中的情感演变提供了丰富素材。
使用方法
DENS数据集适用于训练与评估多类别情感分类模型,尤其擅长考察模型对叙事语境中情感线索的捕捉能力。在使用前,建议移除惊讶与厌恶两类标签以提升数据质量,并可采用SpaCy工具进行文本预处理,如将命名实体替换为类型占位符以减少模型对特定实体的依赖。基准实验表明,基于预训练语言模型的方法表现优异,其中BERT微调策略取得了60.4%的平均微平均F1分数。研究者可依据任务需求选择词袋模型、序列模型或注意力机制等不同架构,并可通过五折交叉验证评估模型性能。该数据集为探索叙事情感分析中的上下文建模、少样本学习及常识知识融合提供了重要基础。
背景与挑战
背景概述
在自然语言处理领域,情感分析长期受限于短文本或特定领域数据,如产品评论或社交媒体推文,这些数据往往难以捕捉人类情感的复杂性与叙事深度。为突破这一局限,Chen Liu、Muhammad Osama与Anderson de Andrade于2019年联合推出了DENS数据集,专注于从长篇叙事文本中解析多类别情感。该数据集融合了古登堡计划中的经典文学作品与Wattpad平台的现代故事,通过亚马逊众包平台进行精细标注,涵盖喜悦、悲伤、愤怒等九类情感。DENS的创立不仅填补了叙事情感分析的数据空白,更为深度学习模型在上下文感知与主题理解方面的演进提供了关键资源,推动了情感计算向更细腻、更人性化的方向发展。
当前挑战
DENS数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,叙事情感分析需克服长文本中情感表达的隐含性、多义性与动态演变性,传统基于词汇或句子级的方法难以捕捉段落级的情感脉络与上下文依赖。在构建过程中,挑战包括:基于普拉奇克情感轮的标注体系需适配叙事特性,为此移除了‘信任’类别并引入‘爱’以贴近文学情感;众包标注需协调不同读者对情感强度与类别的认知差异,通过多数投票与专家复核确保标注一致性;数据平衡性处理要求剔除‘厌恶’与‘惊喜’等噪声标签以提升模型可靠性。这些挑战共同凸显了叙事情感分析在语义深度与标注规范上的复杂性。
常用场景
经典使用场景
在情感计算领域,DENS数据集为长叙事文本的多类情感分析提供了关键资源。该数据集通过整合经典文学与现代网络叙事,构建了包含九种情感类别的标注体系,其核心应用场景在于训练和评估深度学习模型,如BERT的微调,以识别叙事段落中复杂且连贯的情感表达。这一场景不仅推动了情感分析从短文本向长文本的扩展,还为理解叙事结构中的情感动态奠定了数据基础。
实际应用
在实际应用中,DENS数据集可服务于内容推荐系统、情感化叙事生成以及心理健康监测工具。例如,在数字出版平台中,基于该数据集的模型能自动分析用户生成故事的情感基调,实现个性化内容过滤或创作辅助。此外,在心理咨询领域,它有助于开发情感识别工具,用于追踪叙事疗法中的情绪变化,提升干预的精准性与效率。
衍生相关工作
围绕DENS数据集,衍生了一系列经典研究工作,主要集中在预训练语言模型的适配与优化上。例如,基于BERT的微调方法在该数据集上取得了最优性能,激发了后续研究如结合常识知识的情感分析模型。同时,该数据集也促进了分层循环神经网络与自注意力机制在长文本情感分类中的探索,为多情感交互建模提供了新的实验平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作