fhamborg/news_sentiment_newsmtsc

Name: fhamborg/news_sentiment_newsmtsc
Creator: fhamborg
Published: 2022-10-25 09:20:03
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fhamborg/news_sentiment_newsmtsc

下载链接

链接失效反馈

官方服务：

资源简介：

NewsMTSC是一个高质量的数据集，包含超过11k条从英文新闻文章中手动标注的句子。每条句子由五名人类编码者标注，且仅包含编码者评估相同或相似情感的示例。数据集分为两个子集（`rw`和`mt`），每个子集包含训练、验证和测试三个部分。数据集以JSONL格式存储，每个JSON对象包含多个属性，其中`polarity`、`from`、`to`和`sentence`是主要使用的属性。

NewsMTSC is a high-quality dataset comprising over 11k manually annotated sentences extracted from English news articles. Each sentence is annotated by five human coders, and the dataset only includes examples where the coders evaluated identical or similar sentiment. The dataset is split into two subsets, namely `rw` and `mt`, each of which contains three splits: training, validation, and test sets. The dataset is stored in JSONL format, where each JSON object includes multiple attributes, and `polarity`, `from`, `to` and `sentence` are the primary commonly used attributes.

提供机构：

fhamborg

原始信息汇总

数据集概述

名称: NewsMTSC

语言: 英语（en-US）

许可证: MIT

多语言性: 单语

规模: 10K<n<100K

来源: 原始数据

任务类别: 文本分类

具体任务: 情感分类

数据集创建者:

注释创建者: 众包, 专家生成
语言创建者: 专家生成

数据集详情

描述: NewsMTSC是一个包含超过11,000个手动标记的英语新闻文章句子的高质量数据集。每个句子由五个人类编码员标记，只包含五位编码员评估的情感相同或相似的例子。

子集与分割:

包含两个子集 (rw 和 mt)，每个子集包含三个分割（训练、验证、测试）。
推荐使用 rw 子集，该子集的验证和测试集反映了新闻文章中情感的实际分布。
mt 子集的验证和测试集仅包含每个句子有两个或更多不同目标的句子，每个目标的情感单独标记。

数据格式:

每个分割存储为JSONL文件，每行代表一个JSON对象。
关键属性包括：
1. polarity: 句子关于目标提及的情感（-1 = 负面, 0 = 中性, 1 = 正面）
2. from: 目标提及在句子中的起始位置（基于字符，0索引）
3. to: 目标提及的结束位置
4. sentence: 句子文本
5. id: 在NewsMTSC中唯一的标识符

引用信息:

如使用此数据集，请引用论文：

@InProceedings{Hamborg2021b, author = {Hamborg, Felix and Donnay, Karsten}, title = {NewsMTSC: (Multi-)Target-dependent Sentiment Classification in News Articles}, booktitle = {Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2021)}, year = {2021}, month = {Apr.}, location = {Virtual Event}, }

搜集汇总

数据集介绍

构建方式

NewsMTSC数据集通过精心设计，从英语新闻文章中手动标注了超过11,000个句子，确保了数据的高质量。每个句子均由五位人类编码员进行标注，且仅包含那些五位编码员对情感评估一致或相似的样本，从而确保了标注的一致性和可靠性。数据集的构建过程详见于EACL 2021的论文《NewsMTSC: (Multi-)Target-dependent Sentiment Classification in News Articles》。

特点

NewsMTSC数据集的显著特点在于其高质量的手动标注和多样的子集设计。数据集包含两个子集（`rw`和`mt`），每个子集又分为训练、验证和测试三个部分。`rw`子集的验证和测试集反映了新闻文章中情感的真实分布，而`mt`子集则专注于包含多个目标的句子，每个目标的情感都被单独标注。此外，数据集通过类增强技术确保了三个情感类别在训练集中的频率相似。

使用方法

使用NewsMTSC数据集时，用户可以利用其提供的JSONL格式文件，每行代表一个JSON对象，包含提及文本、情感极性、目标提及的起始和结束位置等信息。用户主要关注`polarity`、`from`、`to`和`sentence`等关键属性。数据集推荐使用`rw`子集，因其更贴近实际应用场景。用户可通过访问GitHub仓库或联系作者获取更多信息，并在使用时引用相关论文以确保学术规范。

背景与挑战

背景概述

NewsMTSC数据集是由Felix Hamborg和Karsten Donnay在2021年创建的高质量数据集，专门用于新闻文章中的多目标依赖情感分类。该数据集包含超过11,000条从英语新闻文章中手动标注的句子，每个句子由五名人工标注者进行标注，确保了标注的一致性和准确性。该数据集的发布伴随着一篇在EACL 2021会议上发表的论文，详细阐述了其构建过程和应用场景，对新闻情感分析领域产生了重要影响。

当前挑战

NewsMTSC数据集在构建过程中面临的主要挑战包括：首先，确保标注者之间的一致性，因为每个句子需要由五名标注者进行标注，且只有当他们的情感评估相似时才被纳入数据集。其次，处理新闻文章中多目标依赖的情感分类问题，这要求对每个目标的情感进行独立标注，增加了标注的复杂性。此外，数据集的子集划分和类别的平衡也是构建过程中的重要挑战，特别是在处理真实世界中情感分布不均的情况下。

常用场景

经典使用场景

NewsMTSC数据集在新闻文本的情感分类任务中展现了其经典应用价值。该数据集通过从英语新闻文章中抽取的11,000多条手动标注的句子，提供了高质量的情感标注，涵盖了正面、中性和负面三种情感类别。其设计特别适用于多目标依赖的情感分类，能够有效捕捉新闻文本中不同目标的情感倾向，为情感分析研究提供了丰富的资源。

衍生相关工作

基于NewsMTSC数据集，研究者们开展了一系列相关工作，推动了情感分析领域的技术进步。例如，有研究利用该数据集开发了更为精准的多目标情感分类模型，提升了情感分析的准确性和鲁棒性。此外，该数据集还被用于探索情感与语境之间的关系，为情感计算和自然语言处理领域提供了新的研究方向。

数据集最近研究