Natural Hazards Twitter Dataset

Name: Natural Hazards Twitter Dataset
Creator: 德州州立大学英格拉姆工程学院
Published: 2020-05-28 13:01:22
License: 暂无描述

arXiv2020-05-28 更新2024-06-21 收录

下载链接：

https://github.com/Dong-UTIL/Natural-Hazards-Twitter-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Natural Hazards Twitter Dataset是由德州州立大学英格拉姆工程学院创建的数据集，包含49,816条关于美国不同自然灾害（如飓风、洪水、野火等）的推特数据。数据集通过关键词过滤技术收集，涵盖了灾害发生前后一周的时间范围，主要收集英语推文。创建过程中，研究人员使用了Python的TwitterScraper进行数据收集和Beautifullsoup4进行内容解析。该数据集主要用于分析公众在自然灾害期间的态度和基本需求，如食物、住房、交通和医疗供应，旨在通过情感分析提高灾难响应的效率和针对性。

The Natural Hazards Twitter Dataset was created by the Ingram College of Engineering at Texas State University. It contains 49,816 Twitter posts related to various natural disasters (e.g., hurricanes, floods, wildfires, etc.) across the United States. Collected using keyword filtering techniques, the dataset covers a one-week time window spanning before and after the occurrence of each disaster, and mainly includes English-language tweets. During its development, researchers employed Python's TwitterScraper for data collection and Beautiful Soup 4 for content parsing. This dataset is primarily used to analyze public attitudes and basic needs such as food, housing, transportation, and medical supplies during natural disasters, aiming to improve the efficiency and targeting of disaster response via sentiment analysis.

提供机构：

德州州立大学英格拉姆工程学院

创建时间：

2020-04-30

搜集汇总

数据集介绍

构建方式

Natural Hazards Twitter Dataset的构建基于对美国多种自然灾害期间Twitter数据的收集与标注。研究团队首先选择了五种不同类型的自然灾害，包括龙卷风、洪水、暴风雪、飓风和野火，并进一步聚焦于飓风这一常见且致命的自然灾害。通过使用TwitterScraper和Beautifullsoup4工具，研究团队利用关键词过滤技术，结合灾害名称和基本需求（如食物、住房、交通和医疗用品）作为关键词，收集了灾害发生前后一周内的推文。此外，为了确保数据的完整性，研究团队还扩展了跟踪时间框架，最终收集了49,816条推文。

使用方法

Natural Hazards Twitter Dataset可用于多种自然语言处理任务，特别是情感分析和灾害响应研究。研究者可以通过该数据集训练机器学习模型，以识别和分类公众在灾害期间的情感态度和基本需求。此外，该数据集还可用于开发自动化情感发现和总结系统，帮助人道主义组织和政府机构更有效地进行灾害响应。数据集的访问和使用需遵守Twitter的使用条款，并可通过GitHub平台获取。

背景与挑战

背景概述

随着互联网的发展，社交媒体已成为发布灾害相关信息的重要渠道。情感分析，即分析隐藏在这些文本中的态度，对于政府或救援机构提高灾害响应效率至关重要，但这一领域尚未得到充分关注。Natural Hazards Twitter Dataset由Texas State University的Lingyu Meng和Zhijie (Sasha) Dong于2020年创建，旨在填补这一空白。该数据集包含近50,000条关于美国不同自然灾害（如2011年的龙卷风、2012年的飓风桑迪等）的Twitter数据，并带有情感标签。该数据集的发布旨在促进灾害响应中的情感分析研究，帮助政府和救援机构更有效地理解和应对公众在灾害中的情感需求。

当前挑战

Natural Hazards Twitter Dataset在构建过程中面临多项挑战。首先，数据收集的限制，如Twitter API的请求限制和免费版本的数据获取限制，使得数据收集过程复杂且耗时。其次，情感分析的准确性问题，由于情感标签的确定依赖于主观判断，不同研究者可能会有不同的情感分类标准，这可能导致分析结果的偏差。此外，数据集的多样性问题，尽管涵盖了多种自然灾害，但仍需进一步扩展以覆盖更多类型的灾害和更广泛的地理区域。最后，数据隐私和伦理问题，处理社交媒体数据时需严格遵守相关法律法规，确保用户隐私不被侵犯。

常用场景

经典使用场景

Natural Hazards Twitter Dataset 主要用于自然灾害响应中的情感分析。通过分析社交媒体上关于自然灾害的推文，研究者可以识别公众对灾害响应的态度，从而帮助政府和救援机构优化应急响应策略。该数据集特别适用于开发和验证机器学习模型，以自动分类和分析灾害相关推文的情感倾向，进而提取公众在灾害期间的关键需求，如食物、住房、交通和医疗供应。

解决学术问题

该数据集解决了在自然灾害响应中情感分析的学术研究空白。传统上，情感分析主要集中在商业和政治领域，而自然灾害领域的情感分析研究相对较少。通过提供带有情感标签的推文数据，该数据集使得研究者能够深入探讨公众在灾害期间的情感变化和需求，从而为灾害管理和应急响应提供科学依据。这不仅丰富了情感分析的研究领域，还为灾害响应策略的优化提供了新的视角和方法。

实际应用

在实际应用中，Natural Hazards Twitter Dataset 被广泛用于灾害管理和应急响应。政府和救援机构可以利用该数据集进行实时情感分析，快速了解公众的需求和情绪状态，从而更有效地分配救援资源和制定应急策略。此外，该数据集还可用于培训和验证灾害响应中的自动化系统，提高灾害预警和信息传播的效率。通过分析社交媒体上的公众反馈，相关机构能够更及时地调整和优化灾害响应措施，减少灾害带来的损失。

数据集最近研究