dataset-ner-pesan-singkat-laporan-bencana

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/utomomuhammadpriyo/dataset-ner-pesan-singkat-laporan-bencana

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是用于比较Jaro-Winkler、BERT和Spacy算法在提取WhatsApp简短消息以减轻灾害方面的表现的毕业论文项目的一部分。包含检测结果文件、SQL文件以及用于BERT训练的数据。

创建时间：

2025-07-07

原始信息汇总

数据集概述

基本信息

数据集名称: dataset-ner-pesan-singkat-laporan-bencana
许可证: MIT
开发背景: 作为毕业论文的一部分开发，论文标题为“PERBANDINGAN ALGORITMA JARO-WINKLER, BERT DAN SPACY PADA EKSTRAKSI PESAN SINGKAT WHATSAPP UNTUK MITIGASI BENCANA”
作者: Muhammad Priyo Utomo (NIM: M0518036)
所属机构: Program Studi Informatika, Fakultas Teknologi Informasi dan Sains Data, Universitas Sebelas Maret – Tahun 2025
论文链接: https://digilib.uns.ac.id/dokumen/detail/125086/PERBANDINGAN-ALGORITMA-JARO-WINKLER-BERT-DAN-SPACY-PADA-EKSTRAKSI-PESAN-SINGKAT-WHATSAPP-UNTUK-MITIGASI-BENCANA

数据集内容

包含文件:
- 检测结果文件
- 程序生成的SQL文件
训练数据说明: 用于BERT训练的数据可从数据库表"data_create_model"中获取，其中"bert_train_used"列的值为1。

搜集汇总

数据集介绍

构建方式

在灾害信息处理领域，该数据集作为本科毕业论文的核心成果被精心构建，旨在比较Jaro-Winkler、BERT和Spacy算法在WhatsApp短消息灾害报告中的实体识别性能。研究者通过结构化数据库采集原始消息，采用三重标注机制确保数据质量，其中专门设置'bert_train_used'字段标识模型训练数据子集，并通过SQL文件完整保存数据预处理流程。数据集构建过程严格遵循学术规范，相关代码已在GitHub平台开源。

特点

该数据集聚焦灾害应急通信场景，其独特价值在于捕获真实WhatsApp短消息的语义特征与灾害实体表达模式。数据包含多维度标注结果，支持算法性能的横向对比研究，特别针对印尼语非正式文本的实体识别挑战进行优化。配套提供的SQL数据库架构和模型训练标识字段，为研究复现提供了完整的元数据支持，体现了灾害信息处理领域对数据可追溯性的高标准要求。

使用方法

研究者可通过GitHub仓库获取完整的处理管道代码，按照SQL架构文件重建数据库环境后，利用'bert_train_used'字段筛选特定子集进行模型训练。HuggingFace平台提供的预训练模型可直接用于灾害实体识别任务，而原始检测结果文件支持进行深入的错误分析。该数据集特别适合用于比较传统字符串匹配算法与深度学习模型在低资源语言应急文本处理中的表现差异。

背景与挑战

背景概述

该数据集由Muhammad Priyo Utomo在2025年作为其本科毕业论文的一部分开发，隶属于印度尼西亚塞贝拉斯马尔特大学信息学专业。研究聚焦于通过比较Jaro-Winkler、BERT和Spacy三种算法，从WhatsApp短消息中提取灾害报告的关键信息，旨在提升灾害应急响应中的信息处理效率。作为首个针对印尼语灾害短信的命名实体识别数据集，其构建填补了非英语多模态灾害信息处理的空白，为后续研究提供了重要的基准数据支持。

当前挑战

在算法层面，该研究需解决印尼语形态复杂性和非正式文本特征带来的实体识别困难，特别是WhatsApp消息中常见的缩写、拼写错误和方言变体。数据构建过程中，标注一致性维护面临挑战，灾害领域专业术语的界定需要语言学专家参与。跨算法比较需设计公平的评估框架，BERT模型在低资源语言上的微调策略亦需特殊考量。

常用场景

经典使用场景

在自然灾害应急响应领域，该数据集为研究人员提供了宝贵的WhatsApp短消息文本资源，专门用于命名实体识别（NER）任务的模型训练与评估。通过对比Jaro-Winkler、BERT和Spacy等算法在灾害相关实体抽取中的表现，该数据集成为优化灾害信息提取流程的重要基准工具，尤其在处理非结构化即时通讯数据方面展现出独特价值。

实际应用

在实际灾害响应场景中，该数据集支撑的系统可实时解析受灾群众通过WhatsApp发送的求助信息，自动提取关键要素生成结构化报告。这种技术显著缩短了应急团队的响应时间，在印度尼西亚等高频灾害地区，能快速定位受灾位置和灾情严重程度，辅助救援资源的高效调配。

衍生相关工作

基于该数据集衍生的研究已拓展至多语言灾害文本处理领域，包括开发混合架构的NER模型以处理方言变体，以及结合地理信息系统（GIS）的时空实体可视化分析。相关成果被应用于联合国开发计划署的区域灾害管理平台，启发了后续关于社交媒体灾害信息挖掘的系列研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

dataset-ner-pesan-singkat-laporan-bencana

数据集概述

基本信息

相关资源

数据集内容