community-datasets/per_sent
收藏Hugging Face2024-06-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/community-datasets/per_sent
下载链接
链接失效反馈官方服务:
资源简介:
PerSenT数据集是一个用于情感分类的英文数据集,主要关注新闻文章中作者对主要实体的情感倾向。数据集包含5.3k文档和38k段落的标注,覆盖3.2k个独特实体。每个文档和段落都有情感标签(正面、中性、负面)。数据集的结构包括文档索引、标题、目标实体、文档内容、掩码文档、真实情感以及每个段落的情感标签。数据集分为训练集、验证集和两个测试集,确保每个实体只出现在一个集合中。数据集的创建过程包括从MPQA、KBP Challenge和Media Rank等来源选择文章,并通过Amazon Mechanical Turk进行标注。
提供机构:
community-datasets
原始信息汇总
数据集概述
基本信息
- 数据集名称: PerSenT
- 语言: 英语
- 数据集大小: 1K<n<10K
- 任务类别: 文本分类
- 任务ID: 情感分类
- 许可证: 未知
数据集结构
特征字段
- DOCUMENT_INDEX: 文档索引,数据类型为int64
- TITLE: 文章标题,数据类型为string
- TARGET_ENTITY: 目标实体,数据类型为string
- DOCUMENT: 文章文本,数据类型为string
- MASKED_DOCUMENT: 目标实体被掩码的文章文本,数据类型为string
- TRUE_SENTIMENT: 整个文档的情感标签,数据类型为class_label,包含三个类别:Negative, Neutral, Positive
- Paragraph{0..15}: 每个段落的情感标签,数据类型为class_label,包含三个类别:Negative, Neutral, Positive
数据分割
- train: 3355个样本,14595163字节
- test_random: 579个样本,2629500字节
- test_fixed: 827个样本,3881800字节
- validation: 578个样本,2322922字节
数据集创建
数据来源
- MPQA: 包含手动标注的新闻文章,用于意见、信念、情感、情绪、推测等。
- KBP Challenge: 包含TAC 2014 KBP英语情感槽填充挑战数据集。
- Media Rank: 用于对约50k新闻源进行排名,并用于对新闻文章的政治意识形态进行分类。
预处理步骤
- 使用Stanford NER和共指消解技术识别文章中的人物实体。
- 移除不符合条件的文章,如提及最频繁人物实体少于三次的文章。
- 过滤掉过长或过短的文章,保留至少有3个段落且最多有16个段落的文章。
标注过程
- 使用Amazon Mechanical Turk进行文档和段落级别的标注。
- 标注者首先验证目标实体是否为文档的主要实体,然后对包含目标实体提及或引用的每个段落进行评分。
- 最后,标注者根据整个文档对实体的情感进行评分,评分类别为Negative, Neutral, Positive。
许可证
- 许可证信息: Creative Commons Attribution 4.0 International License
引用信息
@inproceedings{bastan2020authors, title={Authors Sentiment Prediction}, author={Mohaddeseh Bastan and Mahnaz Koupaee and Youngseo Son and Richard Sicoli and Niranjan Balasubramanian}, year={2020}, eprint={2011.06128}, archivePrefix={arXiv}, primaryClass={cs.CL} }



