five

melisekm/natural-disasters-from-social-media

收藏
Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/melisekm/natural-disasters-from-social-media
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为斯洛伐克技术大学信息学院硕士论文《从社交媒体中检测灾难事件》创建的。包含来自社交媒体的帖子,这些帖子被分为两类:与自然灾害相关的信息性和非信息性。其他元数据包括事件类型、来源数据集等。为了平衡类别,添加了2017-2022年间的5万条推文。数据集来源于多个公开数据集,包括Kaggle、Zahra et al.、CrisisMMD等。数据集的大小在10万到100万之间,包含训练、验证和测试集。

该数据集是为斯洛伐克技术大学信息学院硕士论文《从社交媒体中检测灾难事件》创建的。包含来自社交媒体的帖子,这些帖子被分为两类:与自然灾害相关的信息性和非信息性。其他元数据包括事件类型、来源数据集等。为了平衡类别,添加了2017-2022年间的5万条推文。数据集来源于多个公开数据集,包括Kaggle、Zahra et al.、CrisisMMD等。数据集的大小在10万到100万之间,包含训练、验证和测试集。
提供机构:
melisekm
原始信息汇总

数据集概述

基本信息

  • 任务类别: 文本分类
  • 语言: 英语
  • 标签: 自然灾害, 推文, 分类, 灾难事件
  • 数据集名称: Natural Disasters from Social Media
  • 数据规模: 100K<n<1M
  • 标注创建者: 众包, 专家生成

数据来源

  • Kaggle 1: jannesklaas/disasters-on-social-media
  • Kaggle 2: vstepanenko/disaster-tweets
  • Kaggle 3: sidharth178/disaster-response-messages
  • Zahra et al.: doi: 10.1016/j.ipm.2019.102107
  • CrisisMMD: arxiv: 1805.00713
  • Alam et al.: arxiv: 1805.05151
  • CrisisLexT26: doi: 10.1145/2675133.2675242
  • Imran et al.: aclanthology: L16-1259
  • CrisisLexT6: doi: 10.1609/icwsm.v8i1.14538
  • HumAID: doi: 10.1609/icwsm.v15i1.18116
  • CrisisBench: doi: 10.1609/icwsm.v15i1.18115

配置信息

  • 默认配置:
    • 文件路径:
      • 训练集: train.csv
      • 验证集: validation.csv
      • 测试集: test.csv
  • 完整配置:
    • 文件路径: meta/natural-disasters-from-social-media.csv
  • 元数据配置:
    • 文件路径: meta/distributions/*.csv

数据集详情

  • 默认配置:
    • 训练集:
      • 字节数: 39817704
      • 样本数: 169109
    • 验证集:
      • 字节数: 4977163
      • 样本数: 21139
    • 测试集:
      • 字节数: 4981112
      • 样本数: 21139
    • 数据集总大小: 49775824

数据集内容

  • 类别:
    • 信息性: 与自然灾害相关且具有信息性
    • 非信息性: 与自然灾害无关
  • 其他元数据: 事件类型, 来源数据集等
  • 类别平衡: 2017-2022年Twitter存档中的50k推文被添加以平衡类别

数据分布

  • 事件类型统计:
    • 未知:
      • 非信息性: 61880
      • 信息性: 14740
      • 总计: 76620
    • 风暴:
      • 非信息性: 20944
      • 信息性: 47301
      • 总计: 68245
    • 洪水:
      • 非信息性: 13104
      • 信息性: 14637
      • 总计: 27741
    • 地震:
      • 非信息性: 7844
      • 信息性: 15549
      • 总计: 23393
    • 火灾:
      • 非信息性: 2343
      • 信息性: 8595
      • 总计: 10938
    • 山体滑坡:
      • 非信息性: 2392
      • 信息性: 384
      • 总计: 2776
    • 陨石:
      • 非信息性: 193
      • 信息性: 545
      • 总计: 738
    • 雾霾:
      • 非信息性: 51
      • 信息性: 503
      • 总计: 554
    • 火山:
      • 非信息性: 243
      • 信息性: 139
      • 总计: 382
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于检测自然灾害的社交媒体文本分类数据集,包含211,387条帖子,分为信息性和非信息性两类。数据集覆盖多种自然灾害类型(如风暴、洪水、地震等),并包含丰富的元数据信息。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作