Indonesian Sentiment Text Data

github2025-11-01 更新2025-11-11 收录

下载链接：

https://github.com/Serly-Eldina/LSTM-LearningRate-Indonesia-Sentiment

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含印尼语情感文本数据，涵盖应用评论（Sirekap - Google Play商店）和新闻标题（主题：免费营养食品/MBG）两个领域，数据格式为.xlsx文件

This dataset contains Indonesian sentiment text data spanning two domains: app reviews (Sirekap - Google Play Store) and news headlines themed on free nutritional food/MBG, with all data stored in .xlsx file format.

创建时间：

2025-10-19

原始信息汇总

数据集概述

基本信息

数据集名称：Evaluating Learning Rate Effects on Long Short-Term Memory for Indonesian Sentiment Classification
研究领域：自然语言处理/情感分析
语言：印度尼西亚语
数据格式：.xlsx（Microsoft Excel）

数据集内容

数据类型：印度尼西亚语情感文本数据
数据领域：
- 领域内数据：应用评论（Sirekap - Google Play Store）
- 跨领域数据：新闻标题（主题：Makanan Bergizi Gratis / MBG）

数据访问权限

访问状态：非公开
访问条件：仅限研究人员用于非商业学术或研究目的
申请方式：通过电子邮件联系作者（serlyeldina03@gmail.com）
申请要求：
- 提供全名和机构隶属关系
- 说明数据集使用目的
- 承诺不重新分发或用于商业目的

可用数据集版本

数据集类型	描述	访问权限
完整数据集（领域内）	Sirekap应用评论数据集在训练/测试分割前的完整版本	申请获取
完整数据集（领域内，欠采样）	经过欠采样处理的Sirekap应用评论数据集	申请获取
测试数据集（领域内）	从Sirekap应用评论数据集分割得到的测试集	申请获取
测试数据集（跨领域）	来自新闻标题领域的测试集（MBG主题）	申请获取

实验设置

模型架构：LSTM
优化器：Adam
训练轮数：50（应用早停）
批次大小：32
测试学习率：0.0001, 0.001, 0.002, 0.005, 0.01, 0.02
嵌入维度：64
LSTM单元数：32
密集层单元数：3
Dropout率：0.2
评估指标：混淆矩阵

实验方法

验证方法：10折交叉验证
统计分析方法：单因素方差分析（ANOVA）
事后检验：Tukey HSD检验

实验结果摘要

最佳学习率：0.0001和0.001表现最佳
统计显著性：学习率对模型性能有显著影响
效应大小：大效应（η² = 0.3250）
显著差异：在0.0001 vs 0.02、0.001 vs 0.02、0.002 vs 0.02学习率之间存在显著差异

版权声明

数据集受作者版权保护，限制访问的目的是保护数据原创性、防止滥用和确保用户生成数据的伦理处理。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，印度尼西亚语情感分析数据集的构建具有重要研究价值。该数据集采用多领域采集策略，主要包含应用评论和新闻标题两大来源。其中域内数据源自Google Play商店的Sirekap应用评论，通过用户生成内容获取真实情感表达；跨域数据则选取营养食品免费计划相关新闻标题，形成领域迁移研究基础。数据预处理阶段应用了欠采样技术以平衡类别分布，最终以Excel格式系统整理，构建过程注重数据来源的多样性和标注质量。

特点

该数据集展现出鲜明的多维度特征。在领域覆盖方面，同时包含应用评论的域内数据和新闻标题的跨域数据，为模型泛化能力评估提供了丰富场景。数据分布经过精心设计，原始数据集与欠采样版本并存，便于研究类别不平衡问题。实验设计采用严格的十折交叉验证，涵盖六个不同学习率的系统比较，每个学习率下均包含完整的训练和验证指标记录。数据集还附有详细的统计分析和可视化结果，为深入研究提供全面支持。

使用方法

针对该数据集的使用，研究人员需遵循特定访问流程。由于数据保护考虑，数据集不公开提供，研究者需通过邮件向作者提交正式申请，说明个人身份、所属机构及研究用途，并承诺不将数据用于商业目的或二次分发。获批后可根据研究需求选择不同版本数据集，包括完整域内数据集、欠采样版本以及域内外测试集。实验设置建议参考原研究的LSTM架构和超参数配置，重点关注学习率对模型性能的影响机制，充分利用提供的训练曲线和统计分析结果指导模型优化。

背景与挑战

背景概述

印尼情感文本数据集由Serly Eldina等研究人员于2025年创建，隶属于印尼玛利丁拉贾阿里哈吉大学。该数据集聚焦于印尼语自然语言处理领域的情感分析任务，涵盖应用评论和新闻标题两大领域，旨在探索长短时记忆网络在不同学习率下的情感分类性能。其创新性体现在跨领域情感分析的研究范式，为低资源语言的情感计算提供了重要实验平台，推动了东南亚地区语言技术的基础设施建设。

当前挑战

在情感分析领域，该数据集面临领域适应性的核心挑战，即模型从应用评论迁移至新闻领域时的性能衰减问题。构建过程中需应对数据采集的伦理约束，包括用户生成内容的版权保护与敏感信息处理。同时，印尼语作为形态丰富的语言，其语法结构复杂性和词汇多样性给特征工程带来显著难度，而受限的数据访问机制虽然保障了学术伦理，但也限制了数据集的广泛验证与应用拓展。

常用场景

衍生相关工作

围绕该数据集衍生的研究主要集中在多语言预训练模型的适应性改进领域。后续工作探索了基于BERT架构的迁移学习方法在印尼语情感分类任务中的有效性，同时也有研究将该数据集的标注框架扩展至其他东盟语言。这些衍生工作不仅深化了对低资源语言处理特性的理解，还推动了面向东南亚语言的多模态情感分析模型的发展，形成了以印尼语为核心的区域性自然语言处理研究体系。

数据集最近研究