indonesian-multilabel-emotion-dataset
收藏github2024-07-16 更新2024-07-17 收录
下载链接:
https://github.com/Haruray/indonesian-multilabel-emotion-dataset
下载链接
链接失效反馈官方服务:
资源简介:
印度尼西亚多标签情感数据集。文本来自Lin等人的研究,并重新标注。数据集包含3519行数据,分为训练/开发/测试集,使用Plutchik的情感轮作为标签集。
Indonesian multi-label sentiment dataset. The texts are sourced from the study by Lin et al. and were re-annotated. The dataset contains 3519 rows of data, divided into train, development, and test splits, using Plutchik's Wheel of Emotions as the label set.
创建时间:
2024-07-16
原始信息汇总
印度尼西亚多标签情感数据集
概述
印度尼西亚多标签情感数据集,文本来源于Lin等人的研究,并进行了重新标注。
数据集改进
- 由一组印度尼西亚母语者重新标注
- 移除了讽刺、模糊、重复及非印度尼西亚语的文本
- 使用
Plutchiks Wheel of Emotions的情感标签集
数据集信息
数据集包含3519条数据,分为训练集、开发集和测试集,比例为0.55/0.15/0.3。各集合的情感和标签基数分布相同。
数据集大小
| 数据集 | 大小 |
|---|---|
| 训练集 | 1915 |
| 开发集 | 525 |
| 测试集 | 1079 |
标签基数
标签基数为1.35。
| 标签数量 | 大小 |
|---|---|
| 1个标签 | 2333 |
| 2个标签 | 1155 |
| 3个标签 | 31 |
情感标签
| 情感 | 大小 |
|---|---|
| Antisipasi | 1510 |
| Senang | 1204 |
| Percaya | 758 |
| Sedih | 544 |
| Jijik | 267 |
| Marah | 187 |
| Terkejut | 142 |
| Takut | 124 |
搜集汇总
数据集介绍

构建方式
该数据集源自Lin等人的研究成果,经过重新标注以适应多标签情感分析的需求。具体而言,数据集由一组印度尼西亚本土标注者进行重新标注,剔除了讽刺、模糊、重复及非印度尼西亚语的文本。标签集采用了Plutchik的情感轮中的情感类别,确保了情感标签的全面性和系统性。数据集最终包含3519条记录,并按照55%、15%、30%的比例划分为训练集、开发集和测试集,确保各部分在情感标签和标签基数分布上的一致性。
特点
此数据集的显著特点在于其多标签情感标注的精细化和本土化。首先,数据集的情感标签基于Plutchik的情感轮,涵盖了广泛且系统的情感类别。其次,通过重新标注和筛选,数据集确保了文本的高质量和情感标注的准确性。此外,数据集的标签基数为1.35,表明大多数文本具有一个或两个情感标签,这为多标签情感分析提供了丰富的数据支持。
使用方法
该数据集适用于多标签情感分析任务,可用于训练和评估情感分类模型。用户可以通过加载数据集的训练集、开发集和测试集进行模型训练和验证。数据集的情感标签分布均匀,适合用于评估模型在不同情感类别上的表现。此外,数据集的标签基数分布提供了对模型处理多标签情感任务能力的全面评估。用户应根据具体任务需求,合理划分和使用数据集的各个部分。
背景与挑战
背景概述
印尼多标签情感数据集(Indonesian Multi-label Emotion Dataset)是由一组印尼本土标注者重新标注的情感数据集。该数据集源自Lin等人的研究成果,并进行了进一步的优化和调整。其核心研究问题在于通过多标签分类方法,准确识别和分类印尼语文本中的多种情感。数据集的创建旨在提升情感分析技术在印尼语环境中的应用效果,对推动跨文化情感分析研究具有重要意义。
当前挑战
该数据集在构建过程中面临多项挑战。首先,重新标注过程中需确保标注者对情感标签的一致性和准确性,这要求标注者具备高度的专业性和文化敏感性。其次,数据集的多样性和代表性问题,如去除讽刺、模糊和非印尼语文本,确保数据集的质量和适用性。此外,多标签情感分类的复杂性,特别是标签基数为1.35,意味着每条文本平均包含1.35个情感标签,这对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
在情感分析领域,印度尼西亚多标签情感数据集被广泛用于训练和评估多标签情感分类模型。该数据集通过重新标注和筛选,确保了文本的高质量和情感标签的准确性。研究者们利用这一数据集,开发出能够同时识别多种情感的模型,从而提高了情感分析的精度和覆盖范围。
实际应用
在实际应用中,印度尼西亚多标签情感数据集被用于开发情感分析工具,这些工具广泛应用于社交媒体监控、客户反馈分析和情感驱动的市场研究。通过准确识别和分析用户的情感状态,企业能够更好地理解客户需求,优化产品和服务,从而提升用户体验和市场竞争力。
衍生相关工作
基于该数据集,研究者们开展了多项相关工作,包括情感分类模型的优化、跨文化情感分析的比较研究以及情感驱动的推荐系统开发。这些工作不仅丰富了情感分析的理论基础,还为实际应用提供了技术支持,推动了情感分析在多个领域的深入应用和发展。
以上内容由遇见数据集搜集并总结生成



