five

TweetDIS

收藏
arXiv2022-07-11 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.6628961
下载链接
链接失效反馈
官方服务:
资源简介:
TweetDIS是由乔治亚州立大学计算机科学系的Ramya Tekumalla和Juan M. Banda创建的一个大型Twitter数据集,专注于自然灾害。该数据集包含846,927条经过弱监督方法筛选的推文,涵盖地震、飓风和洪水等多种自然灾害。数据集的创建过程涉及从公开数据集中提取双字和三字信号,以及使用自定义的启发式方法进行数据过滤。TweetDIS旨在为机器学习模型提供训练数据,以实时识别和分类自然灾害相关的社交媒体内容,从而在灾害响应和管理中发挥作用。

TweetDIS is a large-scale Twitter dataset focused on natural disasters, developed by Ramya Tekumalla and Juan M. Banda from the Department of Computer Science at Georgia State University. It contains 846,927 tweets screened via weakly supervised methods, covering a variety of natural disasters including earthquakes, hurricanes and floods. The dataset construction process involves extracting bigram and trigram signals from public datasets, as well as filtering data using custom heuristic approaches. TweetDIS aims to provide training data for machine learning models to identify and classify natural disaster-related social media content in real time, thus supporting disaster response and management efforts.
提供机构:
乔治亚州立大学计算机科学系
创建时间:
2022-07-11
搜集汇总
数据集介绍
main_image_url
构建方式
在社交媒体分析领域,特别是自然灾害监测方面,传统的人工标注方法面临效率与规模的瓶颈。TweetDIS数据集的构建采用了弱监督策略,通过设计启发式规则从大规模Twitter数据流中自动筛选相关推文。具体而言,研究团队首先从历史自然灾害数据集中提取高频二元词组,形成包含155个关键词的启发式词表,涵盖飓风、洪水和地震三类灾害。随后,利用该词表对从Twitter流采集的约71.5亿条推文及34个公开数据集中筛选的推文进行过滤,最终通过去重和噪声清洗,得到包含846,927条推文的银标准数据集。整个过程避免了人工标注,实现了程序化的大规模数据标注。
特点
TweetDIS数据集的核心特点在于其规模性与弱监督构建的独特性。作为专注于自然灾害的Twitter数据集,它覆盖了飓风、洪水和地震三类灾害事件,时间跨度从2018年至2021年,确保了数据的时效性与代表性。数据集通过启发式规则自动生成标签,虽存在一定噪声,但凭借大规模训练数据补偿了标注的不精确性,体现了噪声学习理论的应用价值。此外,数据集的构建充分考虑了泛化能力,避免使用特定事件名称,增强了模型对未来灾害的适应能力。数据以推文ID形式发布,遵循FAIR原则,支持研究复现与跨平台使用。
使用方法
该数据集主要应用于自然灾害相关的机器学习模型训练与评估。研究人员首先需通过Twitter开发者账号,使用提供的推文ID进行数据水合,还原原始推文内容。在模型训练阶段,可将银标准数据集作为正样本,并搭配等量的非灾害推文作为负样本,构建平衡训练集。数据预处理包括去除表情符号、URL及文本标准化等步骤。实验表明,基于该数据集训练的朴素贝叶斯、随机森林及深度学习模型,在分类金标准测试集时F1值超过90%,验证了其有效性。数据集还可用于迁移学习、灾害响应模式分析等下游任务,推动自然灾害监测领域的算法创新。
背景与挑战
背景概述
在自然语言处理与社交媒体分析领域,自然灾害期间的社交媒体数据已成为关键研究资源。TweetDIS数据集由佐治亚州立大学计算机科学系的Ramya Tekumalla与Juan M. Banda团队于2022年构建,旨在通过弱监督方法大规模标注推特数据,以支持自然灾害相关信息的自动识别。该数据集聚焦于地震、飓风和洪水三类灾害,核心研究问题在于克服传统人工标注在规模、实时性与成本上的局限,推动高效且可扩展的灾害响应分析。其发布为自然灾害监测、危机信息提取及机器学习模型训练提供了重要基准,显著促进了社交媒体数据在应急管理领域的应用研究。
当前挑战
TweetDIS数据集面临的挑战主要体现在两方面:其一,在领域问题层面,自然灾害推特数据的分类需应对文本的噪声性、动态性与语义多样性,例如用户表达的随意性、多语言混杂及灾害术语的上下文依赖,这增加了模型准确区分灾害相关信息的难度;其二,在构建过程中,数据收集与标注遭遇了大规模处理的技术瓶颈,包括从数十亿推特中过滤有效数据所需的高计算与存储资源、公开数据集的异构与噪声干扰,以及弱监督启发式规则的设计需平衡泛化能力与标注精度,避免因术语重叠或事件特异性导致的偏差。
常用场景
经典使用场景
在自然灾害应急管理领域,社交媒体数据已成为实时信息获取的关键渠道。TweetDIS数据集通过弱监督方法构建,其经典使用场景在于为机器学习模型提供大规模训练数据,以自动识别和分类Twitter平台上与自然灾害相关的推文。该数据集特别聚焦于地震、飓风和洪水三类灾害事件,研究人员利用其海量标注数据训练分类器,实现对灾害推文的高效筛选与内容分析,从而支持灾害响应中的信息提取任务。
解决学术问题
传统上,自然灾害推文的标注依赖人工处理,存在耗时耗力、规模有限且难以实时应用的瓶颈。TweetDIS数据集通过弱监督启发式方法,从数十亿推文中自动过滤出灾害相关文本,构建了规模可观的银标准数据集。这一创新解决了标注数据稀缺性与模型泛化能力之间的核心矛盾,为自然语言处理领域提供了可扩展的监督学习范式,显著提升了灾害信息检测任务的效率与准确性,推动了弱监督理论在真实场景中的应用验证。
衍生相关工作
TweetDIS数据集的发布促进了自然灾害计算社会科学的多项衍生研究。例如,部分工作基于该数据集的启发式框架,扩展至台风、海啸等其他灾害类型的推文识别;另有研究利用其银标准数据训练领域自适应BERT模型,提升了对灾害相关隐喻与情感倾向的解析能力。此外,该数据集常被用作基准,用于评估新型弱监督算法或跨语言灾害检测模型的性能,形成了以社交媒体灾害分析为核心的方法论生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作