twitter-sentiment-analysis
收藏Hugging Face2025-04-13 更新2025-04-14 收录
下载链接:
https://huggingface.co/datasets/KidzRizal/twitter-sentiment-analysis
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含印尼总统Prabowo Subianto上任前100天相关推文的数据集。推文被标记为积极、中立或消极情感。数据集包含训练集、验证集和测试集,适用于情感分析任务。
创建时间:
2025-04-13
原始信息汇总
Twitter Sentiment Analysis: Prabowos First 100 Days 数据集概述
基本描述
- 语言: 印尼语 (id)
- 许可证: CC-BY-4.0
- 标签:
- sentiment-analysis
- indonesian
- politics
- prabowo
数据集详情
- 来源: Twitter/X
- 内容: 包含与总统Prabowo Subianto上任前100天相关的推文
- 情感标签:
- 0: 负面
- 1: 中性
- 2: 正面
数据结构
-
特征:
- text (string): 文本内容
- sentiment (string): 情感标签
- original_text (string): 原始文本
-
数据分割:
- train: 7,026个样本,2,611,085字节
- validation: 1,506个样本,555,983字节
- test: 1,506个样本,549,477字节
-
大小:
- 下载大小: 2,140,695字节
- 数据集大小: 3,716,545字节
使用方法
python from datasets import load_dataset
dataset = load_dataset("KidzRizal/twitter-sentiment-analysis") print(dataset["train"][0])
引用
@misc{twitter_prabowo_sentiment, title={Twitter Sentiment Analysis of Prabowos First 100 Days}, author={Rizal Wicaksono, Muhammad}, year={2025} }
搜集汇总
数据集介绍

构建方式
该数据集聚焦于印度尼西亚政治领域,通过采集社交媒体平台Twitter上关于总统Prabowo Subianto执政初期100天的相关推文,构建了一个具有情感标注的语料库。数据收集采用关键词检索策略,确保内容与主题高度相关,随后通过人工或半自动方式对每条推文进行情感极性标注,划分为积极、中性和消极三类,形成结构化数据集。
特点
作为政治情感分析领域的专业数据集,其显著特点在于语言纯度为印度尼西亚语,主题集中反映特定政治人物的公众评价。数据集包含9,038条标注样本,严格划分训练集、验证集和测试集,确保模型开发与评估的科学性。每条数据不仅保留预处理后的文本,还提供原始推文内容,为研究社交媒体的语言特征提供双重参照。
使用方法
研究者可通过Hugging Face数据集库直接加载该资源,调用标准接口即可获取分片数据。典型应用场景包括政治舆情分析模型的训练与测试,使用时需注意数据特有的印尼语语言特征。数据集遵循CC-BY-4.0许可协议,允许修改和商业用途,但要求使用者按规定进行学术引用,以维护学术伦理。
背景与挑战
背景概述
随着社交媒体的普及,情感分析在政治舆情监测中扮演着越来越重要的角色。twitter-sentiment-analysis数据集由Muhammad Rizal Wicaksono于2025年创建,专注于分析印度尼西亚总统Prabowo Subianto上任初期100天内的公众情绪。该数据集采集自Twitter平台,采用基于关键词的方法对印尼语政治推文进行情感标注(积极、中立、消极),为研究东南亚地区政治传播与公众情绪互动提供了重要实证基础。其多标签分类架构特别适合探索政治人物形象构建与网络舆论动态的复杂关联。
当前挑战
该数据集面临双重挑战:在领域问题层面,印尼语复杂的形态结构和政治推文中常见的讽刺隐喻现象,显著增加了情感极性判定的难度;数据构建过程中,网络俚语与地域方言的混杂、话题相关推文的稀疏性,以及快速演变的网络新词,都对标注一致性和数据代表性提出严峻考验。此外,基于关键词的标注方法可能无法充分捕捉语境依赖的情感表达,需要更精细的语义理解模型来提升分类精度。
常用场景
经典使用场景
在社交媒体分析领域,twitter-sentiment-analysis数据集为研究印尼政治舆论提供了重要资源。该数据集聚焦于 Prabowo 总统上任初期的公众情绪,通过标注推文的情感极性,成为分析政治人物公众形象演变的典型案例。研究人员可基于时间序列追踪特定政策发布前后的民意波动,或比较不同社会群体对同一事件的情感差异。
衍生相关工作
基于该数据集衍生的研究包括《印尼语政治文本数据增强技术》,解决了标注数据稀缺问题;《多模态政治情感分析》结合了文本与表情符号特征;《东南亚语言BERT变体》显著提升了区域语言理解性能。这些工作推动了东盟数字人文研究的发展进程。
数据集最近研究
最新研究方向
近年来,社交媒体情感分析在政治舆情监测领域展现出显著的应用价值。twitter-sentiment-analysis数据集聚焦于印尼总统Prabowo执政初期的公众情绪演变,为研究者提供了珍贵的多维度分析素材。该数据集的最新研究主要围绕跨文化语境下的情感计算模型优化展开,结合印尼语特有的语言特征,探索政治人物支持率与社会议题的关联性。随着大语言模型在低资源语言处理中的突破,该数据集正被用于评估多语言Transformer模型在东南亚政治文本中的迁移学习效果,相关成果对理解新兴民主国家的数字政治参与模式具有启示意义。
以上内容由遇见数据集搜集并总结生成



