pemotions
收藏Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/Tsegayesemere/pemotions
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含文本和标签的数据集,文本字段为字符串类型,标签字段为分类标签类型,包括三个类别:'0'对应 ጭንቀት,'1'对应 ታሕጋስ,'2'对应 ንቡር。数据集分为训练集、验证集和测试集,分别包含24、9和9个样本。
创建时间:
2025-05-29
原始信息汇总
数据集概述
基本信息
- 许可证: Apache 2.0
- 数据集名称: pemotions
- 存储库地址: https://huggingface.co/datasets/Tsegayesemere/pemotions
数据集结构
- 配置名称: default
- 数据文件:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
特征
- 文本特征:
- 名称: text
- 数据类型: string
- 标签特征:
- 名称: label
- 数据类型: class_label
- 类别名称:
- 0: ጭንቀት
- 1: ታሕጋስ
- 2: ንቡር
数据集统计
- 训练集:
- 字节数: 2992
- 样本数: 24
- 验证集:
- 字节数: 845
- 样本数: 9
- 测试集:
- 字节数: 907
- 样本数: 9
- 下载大小: 8141
- 数据集总大小: 4744
搜集汇总
数据集介绍

构建方式
pemotions数据集的构建过程体现了对情感文本分类任务的精细设计。该数据集通过严谨的标注流程,将文本数据划分为训练集、验证集和测试集三部分,分别包含24、9和9个样本。数据以Apache 2.0协议开源,特征字段包含文本内容和情感标签,其中情感标签采用阿姆哈拉语标注,对应焦虑、快乐和中性三种情感状态。
特点
该数据集最显著的特点是采用低资源语言阿姆哈拉语进行情感标注,为跨语言情感分析研究提供了宝贵资源。数据集规模虽小但结构完整,包含4744字节的文本数据,特征设计简洁明了,仅包含文本和标签两个字段。三种情感类别的平衡分布确保了模型评估的可靠性,特别适合用于小样本学习场景下的算法验证。
使用方法
使用pemotions数据集时,研究者可通过HuggingFace平台直接加载预处理好的训练、验证和测试分片。数据加载后可直接用于文本分类模型的训练与评估,其中阿姆哈拉语标签需转换为数值格式进行处理。鉴于数据集规模较小,建议采用交叉验证或迁移学习策略,以充分发挥其在小样本情感分类任务中的基准作用。
背景与挑战
背景概述
pemotions数据集是一个专注于情感分类任务的数据集,由研究人员构建以支持阿姆哈拉语(Amharic)文本的情感分析研究。该数据集创建于Apache 2.0许可下,包含三类情感标签:焦虑(ጭንቀት)、快乐(ታሕጋስ)和中性(ንቡር)。数据集的构建旨在填补低资源语言情感分析研究的空白,为自然语言处理领域提供重要的跨语言研究资源。尽管规模较小,但该数据集为阿姆哈拉语的情感计算奠定了基础,并对多语言情感分析模型的开发具有潜在推动作用。
当前挑战
pemotions数据集面临的挑战主要体现在两方面:领域问题的挑战和构建过程的挑战。在领域问题方面,情感分类任务本身具有主观性和文化依赖性,阿姆哈拉语作为低资源语言,其情感表达的独特性增加了模型准确分类的难度。构建过程中,数据收集面临低资源语言的标注者稀缺问题,小规模样本可能导致模型过拟合,多类别情感标签的不平衡分布也影响了分类性能。这些挑战限制了数据集在复杂情感分析任务中的应用潜力。
常用场景
经典使用场景
在情感计算领域,pemotions数据集为研究者提供了一个多语言情感分类的基准测试平台。该数据集特别适用于探索阿姆哈拉语等低资源语言的情感分析任务,通过其标注的三种基本情感状态(焦虑、快乐、平静),为跨语言情感模型的性能评估提供了重要依据。
解决学术问题
该数据集有效解决了低资源语言情感分析研究中数据匮乏的核心难题。通过提供精确标注的阿姆哈拉语情感样本,不仅填补了非洲语言情感数据集的空白,更为研究语言类型学对情感表达的影响提供了实证基础,推动了语言学与人工智能的交叉研究。
衍生相关工作
基于pemotions数据集,学术界已衍生出多项跨语言情感迁移学习研究。最具代表性的是采用多任务学习框架的AfroXLMR模型,该工作通过联合训练策略显著提升了低资源语言的情感分类性能,后续研究在此基础上进一步发展了语言对抗训练方法。
以上内容由遇见数据集搜集并总结生成



