clarin-pl/polemo2-official
收藏Hugging Face2022-08-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/clarin-pl/polemo2-official
下载链接
链接失效反馈官方服务:
资源简介:
PolEmo2.0是一个包含四个领域(医药、酒店、产品和大学)的在线消费者评论数据集。该数据集在完整评论和单个句子级别上进行了人工注释。当前版本(PolEmo 2.0)包含8,216条评论,共计57,466个句子。每个文本和句子都手动注释了情感,采用2+1方案,总共有197,046个注释。大约85%的评论来自医药和酒店领域。每条评论都注释了四个标签:正面、负面、中性或模糊。
提供机构:
clarin-pl
原始信息汇总
数据集概述
名称: Polemo2
语言: 波兰语 (pl)
许可证: CC-BY-SA-4.0
多语言性: 单语种
大小: 8,216条评论,包含57,466个句子,总计197,046个情感标注
来源: 原始数据
任务类别: 文本分类
具体任务: 情感分类
数据集描述
Polemo2.0是一个包含四个领域(医药、酒店、产品、大学)的在线消费者评论数据集。数据集中的每条评论和句子都由人工标注了情感,采用2+1情感标注方案,即正、负、中性或模糊。约85%的评论来自医药和酒店领域。
任务详情
输入: 句子
输出: 句子情感标签(zero: 中性, minus: 负, plus: 正, amb: 模糊)
评估指标: 准确率, F1 Macro
数据分割
| 子集 | 数量 |
|---|---|
| 训练 | 6573 |
| 验证 | 823 |
| 测试 | 820 |
类别分布
| 类别 | 训练 | 验证 | 测试 |
|---|---|---|---|
| minus | 0.3756 | 0.3694 | 0.4134 |
| plus | 0.2775 | 0.2868 | 0.2768 |
| amb | 0.1991 | 0.1883 | 0.1659 |
| zero | 0.1477 | 0.1555 | 0.1439 |



