five

community-datasets/per_sent

收藏
Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/per_sent
下载链接
链接失效反馈
官方服务:
资源简介:
PerSenT数据集是一个用于情感分类的英文数据集,主要关注新闻文章中作者对主要实体的情感倾向。数据集包含5.3k文档和38k段落的标注,覆盖3.2k个独特实体。每个文档和段落都有情感标签(正面、中性、负面)。数据集的结构包括文档索引、标题、目标实体、文档内容、掩码文档、真实情感以及每个段落的情感标签。数据集分为训练集、验证集和两个测试集,确保每个实体只出现在一个集合中。数据集的创建过程包括从MPQA、KBP Challenge和Media Rank等来源选择文章,并通过Amazon Mechanical Turk进行标注。
提供机构:
community-datasets
原始信息汇总

数据集概述

基本信息

  • 数据集名称: PerSenT
  • 语言: 英语
  • 数据集大小: 1K<n<10K
  • 任务类别: 文本分类
  • 任务ID: 情感分类
  • 许可证: 未知

数据集结构

特征字段

  • DOCUMENT_INDEX: 文档索引,数据类型为int64
  • TITLE: 文章标题,数据类型为string
  • TARGET_ENTITY: 目标实体,数据类型为string
  • DOCUMENT: 文章文本,数据类型为string
  • MASKED_DOCUMENT: 目标实体被掩码的文章文本,数据类型为string
  • TRUE_SENTIMENT: 整个文档的情感标签,数据类型为class_label,包含三个类别:Negative, Neutral, Positive
  • Paragraph{0..15}: 每个段落的情感标签,数据类型为class_label,包含三个类别:Negative, Neutral, Positive

数据分割

  • train: 3355个样本,14595163字节
  • test_random: 579个样本,2629500字节
  • test_fixed: 827个样本,3881800字节
  • validation: 578个样本,2322922字节

数据集创建

数据来源

  • MPQA: 包含手动标注的新闻文章,用于意见、信念、情感、情绪、推测等。
  • KBP Challenge: 包含TAC 2014 KBP英语情感槽填充挑战数据集。
  • Media Rank: 用于对约50k新闻源进行排名,并用于对新闻文章的政治意识形态进行分类。

预处理步骤

  • 使用Stanford NER和共指消解技术识别文章中的人物实体。
  • 移除不符合条件的文章,如提及最频繁人物实体少于三次的文章。
  • 过滤掉过长或过短的文章,保留至少有3个段落且最多有16个段落的文章。

标注过程

  • 使用Amazon Mechanical Turk进行文档和段落级别的标注。
  • 标注者首先验证目标实体是否为文档的主要实体,然后对包含目标实体提及或引用的每个段落进行评分。
  • 最后,标注者根据整个文档对实体的情感进行评分,评分类别为Negative, Neutral, Positive。

许可证

  • 许可证信息: Creative Commons Attribution 4.0 International License

引用信息

@inproceedings{bastan2020authors, title={Authors Sentiment Prediction}, author={Mohaddeseh Bastan and Mahnaz Koupaee and Youngseo Son and Richard Sicoli and Niranjan Balasubramanian}, year={2020}, eprint={2011.06128}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作