CrisisMMD

arXiv2025-09-30 收录

下载链接：

https://crisisnlp.qcri.org/crisismmd.html

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个从推特上收集的大型多模态自然灾害数据集，涵盖了多种类型的注释信息。它不仅包含了丰富的信息性注释，还对灾害造成的损害严重程度进行了评估。该数据集的任务是进行与灾害相关的情感分析。

This dataset is a large-scale multimodal natural disaster dataset collected from Twitter, covering multiple types of annotation information. It not only contains rich informative annotations, but also evaluates the severity of damage caused by disasters. The task of this dataset is disaster-related sentiment analysis.

搜集汇总

数据集介绍

构建方式

在灾害信息学领域，CrisisMMD数据集的构建体现了对多模态社交媒体数据的系统性采集与标注。该数据集通过Twitter平台，针对2017年全球发生的七次重大自然灾害（包括飓风、地震、野火和洪水），使用事件相关的关键词和标签进行数据收集。为确保数据质量，研究团队实施了多步过滤策略：仅保留包含至少一张图片的推文，剔除非英语内容，移除单字或单一标签的推文，并基于余弦相似度去重。随后，通过随机抽样获得约1.6万条推文及其关联图像，并借助Figure Eight众包平台，由三名标注者独立完成三类人道主义任务的标注：信息性判断、人道主义类别分类以及基础设施损坏严重性评估。

特点

CrisisMMD数据集的核心特征在于其多模态性质与精细的人道主义标注体系。作为首个公开的大规模多模态灾害推特数据集，它同步提供了文本与图像内容，并涵盖七种灾害类型，确保了数据的多样性与代表性。标注框架设计科学，包含信息性筛选、七类人道主义信息（如基础设施损坏、伤亡报告、救援行动等）以及损坏严重性分级（严重、轻度、无损坏），这些标注直接支持灾害响应中的关键决策任务。数据集中图像标注揭示了视觉内容在传达损坏信息方面的独特价值，例如车辆损坏类别仅在图像标注中出现，突显了多模态分析的必要性。

使用方法

CrisisMMD数据集为计算机视觉与自然语言处理的跨模态研究提供了丰富资源。研究者可利用该数据集开发联合嵌入模型，实现文本与图像的跨模态检索，或构建图像描述生成系统，自动从灾害图像中提取文本摘要。在人道主义应用层面，该数据集支持构建信息过滤模型，帮助救援机构从海量社交媒体中识别高价值信息，减轻信息过载。此外，基于精细类别标注，可训练分类器以自动提取伤亡、基础设施损坏等关键信息，辅助灾情评估与资源调配。数据集的损坏严重性标注还可用于训练视觉评估模型，为基础设施修复优先级决策提供依据。

背景与挑战

背景概述

在自然灾害与人为危机频发的背景下，社交媒体平台如Twitter已成为信息传播与应急响应的关键渠道。2018年，卡塔尔计算研究所的Firoj Alam、Ferda Ofli与Muhammad Imran团队推出了CrisisMMD数据集，旨在填补多模态危机信息分析领域的空白。该数据集聚焦于从Twitter收集的文本与图像内容，覆盖了2017年全球七起重大自然灾害事件，包括飓风、地震、野火与洪水等。其核心研究问题在于如何通过融合文本与视觉信息，提升人道主义组织在灾情态势感知、关键信息提取与损害评估等方面的效率。CrisisMMD的发布推动了危机信息学从单一文本分析向多模态智能处理的演进，为计算机视觉与自然语言处理的交叉研究提供了重要基础。

当前挑战

CrisisMMD数据集所应对的领域挑战在于多模态危机信息的高效解析与利用。传统研究多依赖于文本内容，但图像数据蕴含的丰富视觉线索对于灾情评估、基础设施损害判定等任务至关重要。然而，图像内容的噪声干扰、低质量媒体泛滥以及文本与图像间的语义对齐困难，均为自动化信息提取带来了显著障碍。在数据集构建过程中，研究人员面临数据过滤与标注的双重挑战：一方面需从海量推文中筛选出包含图像且具信息价值的样本，并克服多语言、重复内容与无关信息的干扰；另一方面，通过众包平台进行人工标注时，需确保标注者对不同灾害情境下信息类别与损害严重性的一致理解，以维持标注质量与可靠性。

常用场景

经典使用场景

在灾害信息学领域，CrisisMMD数据集为多模态社交媒体分析提供了关键资源。该数据集整合了推特平台在七次重大自然灾害期间发布的文本与图像内容，并标注了信息价值、人道主义类别及损害严重性等级。研究者常利用这些标注数据训练机器学习模型，以自动识别灾害事件中的关键信息，例如基础设施损坏或救援需求，从而提升灾害响应系统的智能化水平。

实际应用

在实际灾害管理中，CrisisMMD数据集的应用显著增强了人道主义组织的态势感知能力。基于该数据集开发的系统可实时过滤社交媒体中的非信息性内容，精准提取伤员报告、基础设施损毁等关键信息，辅助救援资源调配。例如，损害严重性标注能优先引导救援力量至重灾区，而多模态摘要生成技术则可整合图文信息，为决策者提供全面的灾情概览，提升应急响应效率。

衍生相关工作

CrisisMMD数据集催生了多模态灾害分析领域的系列经典研究。例如，学者利用其训练跨模态检索模型，实现文本到灾害图像的精准匹配；基于人道主义类别标注，开发了细粒度信息分类框架；结合损害评估标签，构建了自动化基础设施损坏检测系统。这些工作不仅拓展了多模态机器学习在灾害场景的应用边界，也为后续数据集如CrisisMMD 2.0的构建提供了方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集