community-datasets/per_sent

Name: community-datasets/per_sent
Creator: community-datasets
Published: 2024-06-26 05:24:46
License: 暂无描述

Hugging Face2024-06-26 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/community-datasets/per_sent

下载链接

链接失效反馈

官方服务：

资源简介：

PerSenT数据集是一个用于情感分类的英文数据集，主要关注新闻文章中作者对主要实体的情感倾向。数据集包含5.3k文档和38k段落的标注，覆盖3.2k个独特实体。每个文档和段落都有情感标签（正面、中性、负面）。数据集的结构包括文档索引、标题、目标实体、文档内容、掩码文档、真实情感以及每个段落的情感标签。数据集分为训练集、验证集和两个测试集，确保每个实体只出现在一个集合中。数据集的创建过程包括从MPQA、KBP Challenge和Media Rank等来源选择文章，并通过Amazon Mechanical Turk进行标注。

提供机构：

community-datasets

原始信息汇总

数据集概述

基本信息

数据集名称: PerSenT
语言: 英语
数据集大小: 1K<n<10K
任务类别: 文本分类
任务ID: 情感分类
许可证: 未知

数据集结构

特征字段

DOCUMENT_INDEX: 文档索引，数据类型为int64
TITLE: 文章标题，数据类型为string
TARGET_ENTITY: 目标实体，数据类型为string
DOCUMENT: 文章文本，数据类型为string
MASKED_DOCUMENT: 目标实体被掩码的文章文本，数据类型为string
TRUE_SENTIMENT: 整个文档的情感标签，数据类型为class_label，包含三个类别：Negative, Neutral, Positive
Paragraph{0..15}: 每个段落的情感标签，数据类型为class_label，包含三个类别：Negative, Neutral, Positive

数据分割

train: 3355个样本，14595163字节
test_random: 579个样本，2629500字节
test_fixed: 827个样本，3881800字节
validation: 578个样本，2322922字节

数据集创建

数据来源

MPQA: 包含手动标注的新闻文章，用于意见、信念、情感、情绪、推测等。
KBP Challenge: 包含TAC 2014 KBP英语情感槽填充挑战数据集。
Media Rank: 用于对约50k新闻源进行排名，并用于对新闻文章的政治意识形态进行分类。

预处理步骤

使用Stanford NER和共指消解技术识别文章中的人物实体。
移除不符合条件的文章，如提及最频繁人物实体少于三次的文章。
过滤掉过长或过短的文章，保留至少有3个段落且最多有16个段落的文章。

标注过程

使用Amazon Mechanical Turk进行文档和段落级别的标注。
标注者首先验证目标实体是否为文档的主要实体，然后对包含目标实体提及或引用的每个段落进行评分。
最后，标注者根据整个文档对实体的情感进行评分，评分类别为Negative, Neutral, Positive。

许可证

许可证信息: Creative Commons Attribution 4.0 International License

引用信息

@inproceedings{bastan2020authors, title={Authors Sentiment Prediction}, author={Mohaddeseh Bastan and Mahnaz Koupaee and Youngseo Son and Richard Sicoli and Niranjan Balasubramanian}, year={2020}, eprint={2011.06128}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集