PRDECT-ID
收藏arXiv2026-04-28 更新2026-04-29 收录
下载链接:
https://www.kaggle.com/datasets/jocelyndumlao/prdect-id-indonesian-emotion-classification
下载链接
链接失效反馈官方服务:
资源简介:
PRDECT-ID是由Sutoyo等人构建的印尼电商评论数据集,包含5,400条来自29个商品类别的用户评论,每条评论均标注了二元情感标签(正面/负面)和五类情绪标签(快乐、悲伤、恐惧、喜爱、愤怒)。该数据集采用分层抽样策略确保类别均衡,原始数据包含非正式用语、区域借词、数字简写和表情符号等真实语言现象。数据预处理涉及14个清洗步骤和140条俚语词典的构建,主要应用于印尼语情感分析与多任务学习研究,为解决低资源语言中混合词汇信号分类问题提供基准资源。
提供机构:
苏门答腊理工学院·数据科学系
创建时间:
2026-04-28
原始信息汇总
数据集概述:PRDECT-ID (Indonesian Emotion Classification)
基本信息
- 数据集名称:PRDECT-ID: Indonesian Emotion Classification
- 发布者:Jocelyn Dumlao
- 更新时间:3年前
- 许可证:CC0: Public Domain
- 预期更新频率:从不
- 可用性评分:10.00
数据集描述
PRDECT-ID 数据集是一个标注了情绪和情感标签的印尼语产品评论数据集合。数据来源于印尼大型电商平台 Tokopedia,涵盖 29 个产品类别。每条产品评论都被标注为以下五种单一情绪之一:
- Love(喜爱)
- Happiness(快乐)
- Anger(愤怒)
- Fear(恐惧)
- Sadness(悲伤)
标注过程由一组标注者根据临床心理学专家制定的情绪标注标准完成。数据集还提取了其他与产品评论相关的属性,例如:地点(Location)、价格(Price)、总体评分(Overall Rating)、销量(Number Sold)、总评论数(Total Review)和客户评分(Customer Rating),以支持进一步的研究。
数据文件
- 文件名称:
PRDECT-ID Dataset.csv - 文件大小:1.26 MB
- 文件数量:1 个文件
- 列数:11 列
数据类别与标签
- 类别:Natural Language Processing, Text Processing, Consumer Emotion, Text Mining, Sentiment Analysis
- 标签:Online Communities, NLP, Text Mining, Neural Networks
致谢与来源
- 致谢:Rhio Sutoyo
使用情况
- 用途统计:学习(6)、研究(2)、应用(0)、LLM 微调(0)
- 数据描述:数据干净(1)、其他(0)
- 总浏览量:12.2K
- 总下载量:2598
- 评论数:0
搜集汇总
数据集介绍

构建方式
PRDECT-ID数据集由Sutoyo等人于2022年构建,旨在弥补印尼电子商务评论领域情感与情绪标注数据的稀缺。该数据集从29个商品类别中采集了5,400条产品评论,采用分层抽样策略以确保各类别样本分布的均衡性。每条评论均经过双重标注:二值情感标签(正面/负面)和五类情绪标签(快乐、悲伤、恐惧、喜爱、愤怒)。数据以UTF-8编码的分号分隔CSV文件形式存储,在Kaggle平台公开发布。构建过程中,研究者通过清洗流程去除噪声,并整合了包含140条俚语词汇的词典,以应对印尼电商评论中常见的非正式表达、数字缩写和表情符号等语言现象。
使用方法
PRDECT-ID支持多任务学习框架,适用于联合情感与情绪分类建模。典型使用方法包括:首先应用14步预处理流程进行文本清洗,包括俚语替换和分词归一化;随后可选用TF-IDF向量化结合传统分类器(如逻辑回归、支持向量机)的AutoML管道,或采用基于PyTorch的深度学习方法(如双向LSTM、TextCNN)进行建模。模型训练建议采用80/10/10的分层划分策略,并应用类别加权交叉熵损失函数以缓解情绪标签不平衡问题。完整代码及预训练模型已在GitHub和Hugging Face Spaces平台开源,支持快速部署与复现。
背景与挑战
背景概述
PRDECT-ID数据集由Sutoyo等人于2022年创建,旨在应对印度尼西亚电子商务评论中情感与情绪分类的迫切需求。该数据集包含5400条标注样本,覆盖29个产品类别,每条评论同时具备二值情感标签(正面/负面)和五类情绪标签(快乐、悲伤、恐惧、喜爱、愤怒)。研究团队来自印尼苏门答腊理工学院,旨在解决印尼语市场评论中夹杂俚语、区域借词、数字缩写及表情符号等非规范文本带来的分析困难。该数据集通过分层采样设计,有效缓解了类别分布偏差,为印尼语自然语言处理领域提供了标准化的评测基准,推动了深度序列模型与自动化机器学习方法在该领域的比较研究。
当前挑战
PRDECT-ID数据集所面临的挑战首先源自印度尼西亚电商评论的语言复杂性:评论中频繁出现俚语、发音缩写、重复拼写(如'bagussss')以及价格字符串等非标准词汇,使得传统基于词典的情感工具难以奏效。构建过程中,研究者需要解决14步预处理的繁琐流程,并汇编包含140条词条的俚语词典,以规范化非正式表达。此外,情绪分类任务面临显著的不平衡问题,'快乐'类别样本占比32.8%而'愤怒'仅占13.0%,模型需采用类别加权损失函数来缓解偏差。在领域问题层面,五类情绪识别比二值情感分类更具挑战性,相邻情绪(如恐惧与悲伤)之间容易混淆,导致宏平均F1分数普遍偏低,亟需更精细的特征表示与多任务学习策略。
常用场景
经典使用场景
在印度尼西亚电商评论的自然语言处理研究中,PRDECT-ID数据集因其包含5,400条来自29个产品类别的评论,并同时标注了二分类情感(正面/负面)与五类情绪(快乐、悲伤、恐惧、喜爱、愤怒)而成为多任务学习的标杆资源。其经典使用场景集中于构建和评估能够同时捕捉情感极性与细粒度情绪状态的双输出模型。研究者常利用该数据集验证共享编码器配合独立任务头的架构有效性,例如双向长短期记忆网络(BiLSTM)与文本卷积神经网络(TextCNN)在联合预测任务上的表现。此外,该数据集也为传统机器学习方法(如TF-IDF结合AutoML)提供了与深度模型公平对比的基准,从而系统性地揭示印尼电商评论中非正式语言、俚语与情感信号之间的复杂映射关系。
解决学术问题
PRDECT-ID数据集核心解决了印尼电商评论领域长期存在的标注数据稀缺问题,尤其填补了同时涵盖情感与情绪双重标签的语料空白。此前,印尼语情绪分析研究多局限于Twitter等社交媒体文本,缺乏针对电商场景中产品评论的细粒度情绪标注资源。该数据集通过分层抽样来自29个品类,有效降低了类别分布偏差,使研究者能够探究情感与情绪任务之间的共性与差异。它推动了多任务学习框架在低资源语言下的验证,证明了共享表示能否同时提升两项任务的泛化能力。此外,其类别不平衡特性为研究者提供了探索加权损失函数、重采样策略等处理类别倾斜方法的理想试验床,并揭示了情绪相邻类别(如悲伤与恐惧)之间的分类混淆难题。
实际应用
PRDECT-ID数据集的真实应用场景紧密嵌入印尼主流电商平台(如Tokopedia与Shopee)的运营生态中。基于该数据集训练的情感与情绪分类模型可直接部署为自动化评论分析系统,帮助商家快速洞察用户对产品的满意程度与情感倾向。例如,通过识别“barang rusak”(商品损坏)等负面情绪,平台可以主动触发客服介入或退换货流程。情绪标签中的“喜爱”与“快乐”类别还可用于筛选优质评论并推荐为商品页面的“精选评价”。更实际的是,研究团队已将训练好的模型封装为Gradio交互式应用并托管于Hugging Face Spaces,使得不具备编程能力的运营人员也能实时输入评论文本、获取情绪分析结果,从而将学术成果转化为可落地的商业决策辅助工具。
数据集最近研究
最新研究方向
在印尼语电商评论的情感与情绪分类研究中,PRDECT-ID数据集正推动多任务学习与自动化机器学习(AutoML)的深度融合。前沿方向聚焦于结合双向长短期记忆网络(BiLSTM)与TextCNN架构,通过共享编码器与双任务输出头实现情感极性与五类情绪(快乐、悲伤、恐惧、爱、愤怒)的联合预测。研究热点涵盖基于PyCaret的传统分类器自动调优与基于PyTorch的深度学习基准对比,特别关注印尼语中俚语、数字缩写及表情符号等非规范词汇的预处理流水线。该数据集在Tokopedia、Shopee等主流平台的真实评论场景中,显著提升了多任务框架对低资源语言的泛化能力,其提供的分层采样与双重标注机制为后续跨领域情感分析奠定了标准化评估基础。
相关研究论文
- 1Sentiment and Emotion Classification of Indonesian E-Commerce Reviews via Multi-Task BiLSTM and AutoML Benchmarking苏门答腊理工学院·数据科学系 · 2026年
以上内容由遇见数据集搜集并总结生成



