GoodNewsEveryone

Name: GoodNewsEveryone
Creator: 斯图加特大学机器语言处理研究所
Published: 2020-03-03 21:32:42
License: 暂无描述

arXiv2020-03-03 更新2024-06-21 收录

下载链接：

http://www.ims.uni-stuttgart.de/data/goodnewseveryone

下载链接

链接失效反馈

官方服务：

资源简介：

GoodNewsEveryone数据集由斯图加特大学机器语言处理研究所创建，包含5000条来自82个不同来源的英文新闻标题。数据集通过众包方式进行了情感类别、情感强度、语义角色（体验者、原因、目标、线索）以及读者视角的标注。该数据集旨在解决情感分析中的细粒度分析问题，支持情感分类、情感强度预测、情感原因检测等研究，并提供了一个两阶段的标注程序和基准模型结果。

The GoodNewsEveryone dataset was created by the Institute for Machine Language Processing at the University of Stuttgart, containing 5,000 English news headlines from 82 distinct sources. The dataset was annotated via crowdsourcing for sentiment categories, sentiment intensity, semantic roles (experiencer, cause, target, cue), and reader perspective. It aims to address fine-grained analysis problems in sentiment analysis, supporting research such as sentiment classification, sentiment intensity prediction, and sentiment cause detection, and provides a two-stage annotation procedure and benchmark model results.

提供机构：

斯图加特大学机器语言处理研究所

创建时间：

2019-12-06

搜集汇总

数据集介绍

构建方式

在新闻情感分析领域，GoodNewsEveryone数据集的构建采用了多阶段众包标注策略。该数据集从82个新闻源中收集了5000条英文新闻标题，这些新闻源主要选自媒体偏见图表，以确保内容的多样性和代表性。构建过程首先通过随机抽样、情感词典筛选、命名实体识别以及社交媒体影响力分析等多种策略进行标题采样，以覆盖广泛的政治和风格谱系。随后，标注分为两个阶段：第一阶段由三位标注者识别标题中的主导情感及读者感知；第二阶段则由五位标注者进行细粒度标注，包括情感强度、语义角色（如体验者、原因、目标和线索）以及读者情感。最后，通过自动启发式规则和人工裁决相结合的方式，将众包标注聚合为高质量的金标准数据集。

特点

GoodNewsEveryone数据集在情感分析资源中具有显著特点，其标注维度超越了传统的情感分类，涵盖了情感强度、语义角色和读者视角等多层次信息。该数据集基于扩展的Plutchik情感模型，包含了15种情感类别，如愤怒、厌恶、恐惧、喜悦等，并首次在新闻标题中系统标注了情感体验者、原因、目标和线索等语义角色。此外，数据集还引入了读者情感感知的标注，为研究文本情感的多视角理解提供了独特资源。这些特点使得该数据集能够支持情感原因检测、情感角色标注和读者情感分析等复杂任务，填补了现有情感分析数据在结构化学习方面的空白。

使用方法

GoodNewsEveryone数据集的使用方法主要围绕情感分析的结构化预测任务展开。研究者可利用该数据集进行情感分类、情感强度回归、情感原因检测以及语义角色标注等实验。数据集提供了原始众包标注和聚合后的金标准标注，建议在建模时考虑标注的分布特性而非单一金标准，以更好地处理情感标注的主观性。对于基线模型，可采用双向长短期记忆网络与条件随机场结合的序列标注方法，利用ELMo词嵌入进行输入表示。该数据集还可用于跨新闻源的情感分布分析，探索不同媒体在情感表达上的差异，或结合社交媒体元数据进行影响力研究。数据集的标注指南和完整标注已公开，便于复现和扩展研究。

背景与挑战

背景概述

GoodNewsEveryone数据集由斯图加特大学自然语言处理研究所的Laura Bostan、Evgeny Kim和Roman Klinger于2020年发布，旨在填补文本情感结构化分析领域的数据空白。该数据集包含5000条英语新闻标题，通过众包方式标注了情感类别、情感强度、语义角色（如情感体验者、诱因、目标及线索）以及读者感知情感。其核心研究问题聚焦于超越传统情感分类，探索情感在文本中的结构化表达，包括情感体验者、诱因与目标的识别，从而推动情感分析向细粒度、多维度发展。该资源为情感分类、情感强度预测、情感诱因检测等任务提供了重要支持，促进了计算语言学与社会科学在媒体情感表达研究中的交叉融合。

当前挑战

GoodNewsEveryone数据集面临的挑战主要体现在两方面：其一，在领域问题层面，情感分析需处理情感的多视角性（如作者、读者与文本视角的差异）以及情感语义角色的复杂标注，例如准确识别新闻标题中情感体验者、诱因与目标的边界，这要求模型具备深层语义理解能力；其二，在构建过程中，众包标注面临主观性强、标注一致性低的难题，尤其是情感类别多样（扩展自Plutchik模型的15类情感）与角色标注的模糊性导致较低的标注者间一致性，需设计多阶段标注流程与启发式裁决规则以提升数据质量。

常用场景

经典使用场景

在情感计算与自然语言处理领域，GoodNewsEveryone数据集为新闻标题的情感结构化分析提供了关键资源。该数据集通过众包标注了5000条英语新闻标题，涵盖了情感类别、强度、语义角色及读者感知，为研究者探索情感在文本中的复杂表达机制奠定了数据基础。其经典应用场景包括训练和评估模型以自动识别情感触发词、情感体验者、情感原因及目标，从而推动情感角色标注任务的发展。

衍生相关工作

基于GoodNewsEveryone数据集，多项经典研究工作得以衍生。例如，研究者利用该数据集开发了基于双向长短期记忆网络与条件随机场结合的基线模型，用于情感语义角色的序列标注任务。此外，该数据集启发了对跨视角情感分析的深入探索，如比较文本情感与读者感知的差异，并促进了情感原因检测、情感目标识别等子任务的方法创新，为后续情感结构化预测研究提供了重要基准与灵感源泉。

数据集最近研究