melisekm/natural-disasters-from-social-media
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/melisekm/natural-disasters-from-social-media
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为斯洛伐克技术大学信息学院硕士论文《从社交媒体中检测灾难事件》创建的。包含来自社交媒体的帖子,这些帖子被分为两类:与自然灾害相关的信息性和非信息性。其他元数据包括事件类型、来源数据集等。为了平衡类别,添加了2017-2022年间的5万条推文。数据集来源于多个公开数据集,包括Kaggle、Zahra et al.、CrisisMMD等。数据集的大小在10万到100万之间,包含训练、验证和测试集。
该数据集是为斯洛伐克技术大学信息学院硕士论文《从社交媒体中检测灾难事件》创建的。包含来自社交媒体的帖子,这些帖子被分为两类:与自然灾害相关的信息性和非信息性。其他元数据包括事件类型、来源数据集等。为了平衡类别,添加了2017-2022年间的5万条推文。数据集来源于多个公开数据集,包括Kaggle、Zahra et al.、CrisisMMD等。数据集的大小在10万到100万之间,包含训练、验证和测试集。
提供机构:
melisekm
原始信息汇总
数据集概述
基本信息
- 任务类别: 文本分类
- 语言: 英语
- 标签: 自然灾害, 推文, 分类, 灾难事件
- 数据集名称: Natural Disasters from Social Media
- 数据规模: 100K<n<1M
- 标注创建者: 众包, 专家生成
数据来源
- Kaggle 1: jannesklaas/disasters-on-social-media
- Kaggle 2: vstepanenko/disaster-tweets
- Kaggle 3: sidharth178/disaster-response-messages
- Zahra et al.: doi: 10.1016/j.ipm.2019.102107
- CrisisMMD: arxiv: 1805.00713
- Alam et al.: arxiv: 1805.05151
- CrisisLexT26: doi: 10.1145/2675133.2675242
- Imran et al.: aclanthology: L16-1259
- CrisisLexT6: doi: 10.1609/icwsm.v8i1.14538
- HumAID: doi: 10.1609/icwsm.v15i1.18116
- CrisisBench: doi: 10.1609/icwsm.v15i1.18115
配置信息
- 默认配置:
- 文件路径:
- 训练集: train.csv
- 验证集: validation.csv
- 测试集: test.csv
- 文件路径:
- 完整配置:
- 文件路径: meta/natural-disasters-from-social-media.csv
- 元数据配置:
- 文件路径: meta/distributions/*.csv
数据集详情
- 默认配置:
- 训练集:
- 字节数: 39817704
- 样本数: 169109
- 验证集:
- 字节数: 4977163
- 样本数: 21139
- 测试集:
- 字节数: 4981112
- 样本数: 21139
- 数据集总大小: 49775824
- 训练集:
数据集内容
- 类别:
- 信息性: 与自然灾害相关且具有信息性
- 非信息性: 与自然灾害无关
- 其他元数据: 事件类型, 来源数据集等
- 类别平衡: 2017-2022年Twitter存档中的50k推文被添加以平衡类别
数据分布
- 事件类型统计:
- 未知:
- 非信息性: 61880
- 信息性: 14740
- 总计: 76620
- 风暴:
- 非信息性: 20944
- 信息性: 47301
- 总计: 68245
- 洪水:
- 非信息性: 13104
- 信息性: 14637
- 总计: 27741
- 地震:
- 非信息性: 7844
- 信息性: 15549
- 总计: 23393
- 火灾:
- 非信息性: 2343
- 信息性: 8595
- 总计: 10938
- 山体滑坡:
- 非信息性: 2392
- 信息性: 384
- 总计: 2776
- 陨石:
- 非信息性: 193
- 信息性: 545
- 总计: 738
- 雾霾:
- 非信息性: 51
- 信息性: 503
- 总计: 554
- 火山:
- 非信息性: 243
- 信息性: 139
- 总计: 382
- 未知:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于检测自然灾害的社交媒体文本分类数据集,包含211,387条帖子,分为信息性和非信息性两类。数据集覆盖多种自然灾害类型(如风暴、洪水、地震等),并包含丰富的元数据信息。
以上内容由遇见数据集搜集并总结生成



