indonesian-flood-text-mining

github2025-12-08 更新2025-12-28 收录

下载链接：

https://github.com/Hardikasetiyawann/indonesian-flood-text-mining

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在从YouTube、Twitter和TikTok等社交媒体平台收集和分类与印尼洪水问题相关的公开评论。数据集经过清洗和标注，用于分析公众对环境和社会问题的看法。

This project endeavors to collect and categorize public comments concerning Indonesian flood issues from social media platforms including YouTube, Twitter, and TikTok. The cleaned and annotated dataset is developed to analyze public perceptions of environmental and social issues.

创建时间：

2025-12-08

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Media Comments Scraping & Classification — Indonesia Flood Topic
主要目的: 收集并分类与印度尼西亚洪水议题相关的社交媒体公开评论，用于公众舆论分析及环境与社会议题研究。
核心主题: 印度尼西亚洪水灾害相关的公众评论。

数据来源与内容

数据来源平台: YouTube, Twitter (现称X), TikTok。
数据内容: 来自上述社交媒体平台的用户评论。
语言: 印度尼西亚语。
数据规模: 包含数千条与洪水议题相关的评论。

数据结构与文件

数据集文件位于 SCRAPING DATA/Output/ 目录下，包含三个独立的CSV文件：

Comment_YT_Banjir.csv：来自YouTube的评论数据。
Comment_Tweet_Banjir.csv：来自Twitter的评论数据。
Comment_TikTok_Banjir.csv：来自TikTok的评论数据。

数据格式：

predicted_label | Komentar

数据类别（标签）

评论被分类为以下6个类别：

标签	描述
Kebijakan Pemerintah	与政府法规及行动相关的意见
Pembalakan Liar	非法砍伐森林议题
Alih Fungsi Hutan	引发洪水的土地用途变更
Perubahan Iklim	与全球环境议题相关的意见
Sosial Kemanusiaan	对受害者的同情与援助
Komentar Biasa	与洪水议题不相关

数据处理流程

数据采集: 从YouTube、Twitter、TikTok平台抓取评论。
文本预处理: 进行数据清洗与文本标准化。
数据标注: 根据议题主题对评论进行标注。
数据存储: 将结果存储为CSV格式文件。

预期用途

公众舆论分析。
文本分类模型训练。
数据可视化与仪表板构建。

技术栈

编程语言: Python
主要工具/平台: Google Colab, Pandas, Sastrawi (用于文本处理)
采集工具:
- YouTube: YouTube Comment API
- Twitter: tweet-harvest (Node.js)
- TikTok: Apify API

贡献者与许可

贡献者: Hardika Setiyawan (信息学 — 自然语言处理课程)
年份: 2025
许可: 本数据集仅供研究与教育目的使用。未经许可不得用于商业用途。

搜集汇总

数据集介绍

构建方式

在自然灾害与社会舆情交叉研究领域，印尼洪水文本挖掘数据集通过系统化的社交媒体数据采集流程构建而成。项目团队运用Python编程语言，在Google Colab平台上整合了YouTube Comment API、基于Node.js的tweet-harvest工具以及Apify API，分别从YouTube、Twitter和TikTok三大平台抓取与印尼洪水议题相关的公众评论。数据采集后，经过文本清洗与归一化处理，并依据预设的六大主题类别进行人工或半自动标注，最终以结构化CSV格式存储，形成适用于文本挖掘的语料库。

特点

该数据集聚焦于环境灾害与公共舆论的交互分析，其核心特点体现在多源性与主题特异性上。数据集囊括了来自不同社交媒体平台的印尼语评论，覆盖了洪水事件的政策响应、森林砍伐、土地用途变更、气候变化、人道关怀及无关内容等多个维度。每条评论均附有明确的分类标签，支持细粒度的舆情挖掘与情感分析。数据规模达到数千条，为研究印尼地区灾害沟通与社会反应提供了高质量、场景化的语言资源。

使用方法

在应用层面，该数据集为自然语言处理与社会计算研究提供了直接支持。研究人员可加载CSV格式的数据文件，利用Pandas等工具进行探索性分析，或结合Sastrawi等印尼语文本处理库进行更深层的语言特征提取。数据集适用于训练文本分类模型，以自动识别公众评论中的议题倾向；也可用于舆情可视化、灾害响应策略评估等跨学科研究。使用时应遵循非商业研究及教育用途的许可协议，确保数据应用的合规性与伦理性。

背景与挑战

背景概述

随着社交媒体在灾害管理与公共舆论分析中的角色日益凸显，针对特定灾害事件的文本挖掘数据集成为自然语言处理与社会科学交叉研究的重要资源。'indonesian-flood-text-mining'数据集由印度尼西亚的研究者Hardika Setiyawan于2025年创建，作为其自然语言处理课程项目的一部分。该数据集聚焦于印度尼西亚洪水议题，通过爬取YouTube、Twitter和TikTok三大平台的公众评论，旨在系统收集并分类与洪水相关的公众意见。其核心研究问题在于如何从多源社交媒体数据中提取结构化信息，以支持洪水灾害的舆论分析、政策评估及环境议题研究，为灾害响应与公共沟通策略提供数据驱动的见解。

当前挑战

该数据集致力于解决社交媒体文本在灾害语境下的多类别情感与主题分类挑战，具体涉及从非结构化评论中识别政府政策、非法砍伐、森林转化、气候变化、社会人道及无关内容等六类主题。在构建过程中，面临多平台数据采集的技术异构性挑战，例如需协调YouTube Comment API、Node.js驱动的tweet-harvest工具以及Apify API等多种技术栈。同时，印度尼西亚语文本的预处理与归一化要求处理特定语言特征，如使用Sastrawi工具进行词干提取，而人工或半自动标注过程中确保类别一致性与语境相关性亦构成显著挑战。

常用场景

经典使用场景

在自然灾害与社会治理交叉领域，该数据集为研究印度尼西亚洪水事件中的公众舆论提供了关键语料。通过整合来自YouTube、Twitter和TikTok三大社交媒体平台的评论数据，研究者能够深入挖掘民众对洪水成因、政府应对措施及环境议题的多元观点，进而支撑文本分类、情感分析及话题演化等经典自然语言处理任务。

实际应用

在实践层面，该数据集可服务于政府机构与非营利组织的灾害管理决策。通过实时监测社交媒体舆论，相关部门能够精准识别公众关切焦点，优化应急响应策略，并针对性地开展环境教育宣传。此外，数据驱动的舆论分析工具也有助于提升灾害预警系统的社会感知能力。

衍生相关工作

围绕该数据集，已衍生出多项聚焦于灾害文本挖掘的经典研究。例如，基于多平台评论的对比分析探讨了媒介特性对舆论表达的影响；结合预训练语言模型的分类研究提升了印尼语灾害文本的识别精度；还有工作利用该数据构建了可视化仪表盘，实现了灾害舆论的动态追踪与呈现。

以上内容由遇见数据集搜集并总结生成