MU-NLPC/Propaganda

Name: MU-NLPC/Propaganda
Creator: MU-NLPC
Published: 2024-05-14 14:32:22
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/MU-NLPC/Propaganda

下载链接

链接失效反馈

官方服务：

资源简介：

基准Propaganda数据集包含8,646篇2016年（5,500篇文档，270万词）、2017年（1,994篇文档，93万词）和2018年（1,152篇文档，50万词）的报纸文章。与其他资源相比，Propaganda数据集包含文档级属性和特定文本设备的细粒度注释。捷克共和国被选为代表前苏联影响范围内的国家，因此具有显著活跃的宣传来源。分析的新闻文本来自四个捷克语新闻媒体：Sputnik News、Parlamentní listy（议会信件）、AC24和Svět kolem nás（我们周围的世界）。

提供机构：

MU-NLPC

原始信息汇总

数据集概述

数据集基本信息

语言: 捷克语 (cs)
许可证: CC-BY-NC-SA-4.0
大小: 1K<n<10K

数据集特征

id: 字符串
text: 字符串
genre: 字符串
topic: 字符串
scope: 字符串
location: 字符串
argumentation: 字符串
emotions: 字符串
overall_sentiment: 字符串
russia: 字符串
opinion: 字符串
expert: 字符串
source: 字符串
fear-mongering: 字符串
blaming: 字符串
labeling: 字符串
demonization: 字符串
relativization: 字符串
fabulation: 字符串
ranges: 列表
- attribute: 字符串
- end: 整数
- start: 整数
- text: 字符串

数据集分割

训练集: 7642个样本，27173943字节
测试集: 1000个样本，3727325字节
下载大小: 19285049字节
数据集大小: 30901268字节

数据集配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 测试集: data/test-*

数据集描述

文档数量: 8,646篇
来源: 四个捷克新闻网站
时间范围: 2016至2018年
特点: 包含文档级属性和特定文本设备的精细标注

数据集属性

操纵技术:
- Argumentation: 是/否
- Blaming: 是/否
- Demonization: 是/否
- Emotions: 不满/仇恨/同情/恐惧/缺失
- Fabulation: 是/否
- Fear-mongering: 是/否
- Labeling: 是/否
- Relativization: 是/否
全局属性:
- Genre: 新闻/评论/采访
- Location: EU/捷克共和国/美国/俄罗斯/NATO/俄罗斯+美国/其他地点/其他/无法确定
- Overall Sentiment: 正面/负面/中性
- Topic: 多种主题
- Scope: 国外/国内/两者/无法确定
其他属性:
- Expert: 是/否
- Opinion: 是/否
- Russia: 正面例子/中性/受害者/负面例子/英雄/缺失
- Source: 是/否

5,000+

优质数据集

54 个

任务类型

进入经典数据集