MU-NLPC/Propaganda
收藏Hugging Face2024-05-14 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MU-NLPC/Propaganda
下载链接
链接失效反馈官方服务:
资源简介:
基准Propaganda数据集包含8,646篇2016年(5,500篇文档,270万词)、2017年(1,994篇文档,93万词)和2018年(1,152篇文档,50万词)的报纸文章。与其他资源相比,Propaganda数据集包含文档级属性和特定文本设备的细粒度注释。捷克共和国被选为代表前苏联影响范围内的国家,因此具有显著活跃的宣传来源。分析的新闻文本来自四个捷克语新闻媒体:Sputnik News、Parlamentní listy(议会信件)、AC24和Svět kolem nás(我们周围的世界)。
基准Propaganda数据集包含8,646篇2016年(5,500篇文档,270万词)、2017年(1,994篇文档,93万词)和2018年(1,152篇文档,50万词)的报纸文章。与其他资源相比,Propaganda数据集包含文档级属性和特定文本设备的细粒度注释。捷克共和国被选为代表前苏联影响范围内的国家,因此具有显著活跃的宣传来源。分析的新闻文本来自四个捷克语新闻媒体:Sputnik News、Parlamentní listy(议会信件)、AC24和Svět kolem nás(我们周围的世界)。
提供机构:
MU-NLPC
原始信息汇总
数据集概述
数据集基本信息
- 语言: 捷克语 (cs)
- 许可证: CC-BY-NC-SA-4.0
- 大小: 1K<n<10K
数据集特征
- id: 字符串
- text: 字符串
- genre: 字符串
- topic: 字符串
- scope: 字符串
- location: 字符串
- argumentation: 字符串
- emotions: 字符串
- overall_sentiment: 字符串
- russia: 字符串
- opinion: 字符串
- expert: 字符串
- source: 字符串
- fear-mongering: 字符串
- blaming: 字符串
- labeling: 字符串
- demonization: 字符串
- relativization: 字符串
- fabulation: 字符串
- ranges: 列表
- attribute: 字符串
- end: 整数
- start: 整数
- text: 字符串
数据集分割
- 训练集: 7642个样本,27173943字节
- 测试集: 1000个样本,3727325字节
- 下载大小: 19285049字节
- 数据集大小: 30901268字节
数据集配置
- 配置名称: default
- 数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
数据集描述
- 文档数量: 8,646篇
- 来源: 四个捷克新闻网站
- 时间范围: 2016至2018年
- 特点: 包含文档级属性和特定文本设备的精细标注
数据集属性
-
操纵技术:
- Argumentation: 是/否
- Blaming: 是/否
- Demonization: 是/否
- Emotions: 不满/仇恨/同情/恐惧/缺失
- Fabulation: 是/否
- Fear-mongering: 是/否
- Labeling: 是/否
- Relativization: 是/否
-
全局属性:
- Genre: 新闻/评论/采访
- Location: EU/捷克共和国/美国/俄罗斯/NATO/俄罗斯+美国/其他地点/其他/无法确定
- Overall Sentiment: 正面/负面/中性
- Topic: 多种主题
- Scope: 国外/国内/两者/无法确定
-
其他属性:
- Expert: 是/否
- Opinion: 是/否
- Russia: 正面例子/中性/受害者/负面例子/英雄/缺失
- Source: 是/否



