laugustyniak/political-advertising-pl
收藏Hugging Face2023-03-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laugustyniak/political-advertising-pl
下载链接
链接失效反馈官方服务:
资源简介:
Polish-Political-Advertising数据集是第一个公开的用于检测波兰语政治广告特定文本块和类别的数据集。它包含1,705条人工标注的推文,标注了九个类别,这些类别构成了波兰选举法下的竞选活动。数据集的创建者通过雇佣注释者进行标注,并达到了0.65的注释者间一致性(Cohens kappa分数)。数据集的任务类别为标记分类,具体任务包括命名实体识别和词性标注。数据集的输入是令牌序列,输出是标签序列,评估指标为F1分数(seqeval)。数据集分为训练集、测试集和验证集,分别包含1020、341和340条推文。数据集的类别分布也提供了详细信息。
提供机构:
laugustyniak
原始信息汇总
Polish-Political-Advertising 数据集概述
基本信息
- 数据集名称: Polish-Political-Advertising
- 语言: 波兰语
- 许可: 其他
- 多语言性: 单语种
- 数据集大小: 10 < n < 10K
- 任务类别:
- 令牌分类
- 命名实体识别
- 词性标注
- 数据集别名: Polish-Political-Advertising
数据集描述
政治广告是政治竞选活动中的基本形式,受到各种社会要求的影响。该数据集是首个公开的用于检测波兰语中特定文本块和政治广告类别的数据集。它包含1,705条人工标注的推文,标记了九个类别,这些类别构成了波兰选举法下的竞选活动。
任务描述
- 输入: 令牌序列(tokens 列)
- 输出: 标签序列(tags* 列)
- 领域: 政治
- 评估指标: F1-Score (seqeval)
数据分割
| 子集 | 数量 |
|---|---|
| 训练集 | 1020 |
| 测试集 | 341 |
| 验证集 | 340 |
类别分布
| 类别 | 训练集 | 验证集 | 测试集 |
|---|---|---|---|
| B-HEALHCARE | 0.237 | 0.226 | 0.233 |
| B-WELFARE | 0.210 | 0.232 | 0.183 |
| B-SOCIETY | 0.156 | 0.153 | 0.149 |
| B-POLITICAL_AND_LEGAL_SYSTEM | 0.137 | 0.143 | 0.149 |
| B-INFRASTRUCTURE_AND_ENVIROMENT | 0.110 | 0.104 | 0.133 |
| B-EDUCATION | 0.062 | 0.060 | 0.080 |
| B-FOREIGN_POLICY | 0.040 | 0.039 | 0.028 |
| B-IMMIGRATION | 0.028 | 0.017 | 0.018 |
| B-DEFENSE_AND_SECURITY | 0.020 | 0.025 | 0.028 |
许可
Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)



