five

laugustyniak/political-advertising-pl

收藏
Hugging Face2023-03-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laugustyniak/political-advertising-pl
下载链接
链接失效反馈
官方服务:
资源简介:
Polish-Political-Advertising数据集是第一个公开的用于检测波兰语政治广告特定文本块和类别的数据集。它包含1,705条人工标注的推文,标注了九个类别,这些类别构成了波兰选举法下的竞选活动。数据集的创建者通过雇佣注释者进行标注,并达到了0.65的注释者间一致性(Cohens kappa分数)。数据集的任务类别为标记分类,具体任务包括命名实体识别和词性标注。数据集的输入是令牌序列,输出是标签序列,评估指标为F1分数(seqeval)。数据集分为训练集、测试集和验证集,分别包含1020、341和340条推文。数据集的类别分布也提供了详细信息。
提供机构:
laugustyniak
原始信息汇总

Polish-Political-Advertising 数据集概述

基本信息

  • 数据集名称: Polish-Political-Advertising
  • 语言: 波兰语
  • 许可: 其他
  • 多语言性: 单语种
  • 数据集大小: 10 < n < 10K
  • 任务类别:
    • 令牌分类
    • 命名实体识别
    • 词性标注
  • 数据集别名: Polish-Political-Advertising

数据集描述

政治广告是政治竞选活动中的基本形式,受到各种社会要求的影响。该数据集是首个公开的用于检测波兰语中特定文本块和政治广告类别的数据集。它包含1,705条人工标注的推文,标记了九个类别,这些类别构成了波兰选举法下的竞选活动。

任务描述

  • 输入: 令牌序列(tokens 列)
  • 输出: 标签序列(tags* 列)
  • 领域: 政治
  • 评估指标: F1-Score (seqeval)

数据分割

子集 数量
训练集 1020
测试集 341
验证集 340

类别分布

类别 训练集 验证集 测试集
B-HEALHCARE 0.237 0.226 0.233
B-WELFARE 0.210 0.232 0.183
B-SOCIETY 0.156 0.153 0.149
B-POLITICAL_AND_LEGAL_SYSTEM 0.137 0.143 0.149
B-INFRASTRUCTURE_AND_ENVIROMENT 0.110 0.104 0.133
B-EDUCATION 0.062 0.060 0.080
B-FOREIGN_POLICY 0.040 0.039 0.028
B-IMMIGRATION 0.028 0.017 0.018
B-DEFENSE_AND_SECURITY 0.020 0.025 0.028

许可

Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作