CrisisMMD

Name: CrisisMMD
Creator: 卡塔尔计算研究机构，HBKU，多哈
Published: 2018-05-02 18:29:43
License: 暂无描述

arXiv2018-05-02 更新2024-06-21 收录

下载链接：

https://dataverse.mpisws.org/dataverse/icwsm18

下载链接

链接失效反馈

官方服务：

资源简介：

CrisisMMD是由卡塔尔计算研究机构创建的大型多模态数据集，包含约1422万条推文和57.6万张图片，数据来源于2017年全球七次重大自然灾害。数据集通过特定的关键词和标签从Twitter收集，经过人工标注，用于支持人道主义援助中的多种任务，如信息分类、损害评估等。该数据集旨在通过提供丰富的文本和图像数据，帮助研究人员开发更有效的灾害响应和管理系统。

CrisisMMD is a large-scale multimodal dataset created by the Qatar Computing Research Institute. It encompasses roughly 14.22 million tweets and 576,000 images, with data sourced from seven major global natural disasters occurring in 2017. The dataset was collected from Twitter using specific keywords and tags, and underwent manual annotation. It is designed to support diverse tasks in humanitarian assistance, such as information classification and damage assessment. The primary objective of this dataset is to provide abundant textual and visual data to aid researchers in developing more effective disaster response and management systems.

提供机构：

卡塔尔计算研究机构，HBKU，多哈

创建时间：

2018-05-02

搜集汇总

数据集介绍

构建方式

CrisisMMD数据集的构建方式涉及从Twitter上收集自然灾害期间发布的文本和多媒体内容。数据收集使用特定事件的关键词和标签，并通过Twitter的API进行。收集的数据经过过滤和抽样，以确保数据质量。首先，仅保留包含图像的推文，并排除非英语推文。其次，删除包含单个单词或标签的推文，以及通过余弦相似度测量识别的重复推文。最后，从每个数据集中随机抽取一定数量的推文进行人工标注。人工标注是通过 crowdsourcing 平台 Figure Eight 进行的，涉及三个任务：确定推文或图像的信息性、识别关键的人道主义信息和评估图像中基础设施的损坏程度。

特点

CrisisMMD数据集的特点在于其多模态性质，结合了文本和图像数据，为研究和开发更有效的人道主义援助系统提供了丰富的资源。该数据集包含了从七个不同的自然灾害事件中收集的数百万条推文和数十万张图像。数据集的特点包括三个类型的标注：信息性与否、人道主义类别和损坏程度。这些标注使得研究人员能够更好地理解灾难期间社交媒体上的信息，并为人道主义组织提供更准确和有用的信息。此外，该数据集是公开可用的，为研究人员提供了探索图像和文本处理方法的机会。

使用方法

使用CrisisMMD数据集的方法涉及多个步骤。首先，用户需要下载数据集，并根据其研究目的进行预处理。例如，可以根据需要选择特定的灾难事件、标注类型或数据子集。其次，用户可以使用数据集进行各种任务，例如信息分类、聚类、摘要和图像分类。此外，用户可以利用数据集开发多模态任务，例如文本到图像检索和图像描述。为了确保数据质量，建议使用多个标注者的结果，并根据标注者之间的协议来确定最终的标签或类别。最后，用户可以评估其模型或算法的性能，并与其他研究进行比较，以进一步改进其工作。

背景与挑战

背景概述

CrisisMMD数据集的创建旨在应对自然灾害和人为灾害期间，社交媒体平台如Twitter上发布的文本和多媒体内容进行分析的需求。该数据集由卡塔尔计算研究学院（Qatar Computing Research Institute, HBKU）的研究人员Firoj Alam、Ferda Oﬂi和Muhammad Imran于2018年发布。该数据集的核心研究问题是如何利用社交媒体上的图像和文本内容来提高人道主义组织对紧急情况的了解，并计划救援行动。CrisisMMD数据集的发布填补了这一领域在图像标注数据方面的空白，对相关领域的研究产生了重要影响，为图像和文本处理的研究提供了新的方向。

当前挑战

CrisisMMD数据集所面临的挑战主要包括：1) 解决领域问题的挑战：尽管已有大量研究关注社交媒体文本内容，但关于如何有效利用图像内容的研究相对较少。CrisisMMD数据集旨在解决这一挑战，通过提供具有真实标注的多模态Twitter数据集，促进图像内容在灾害响应中的作用研究。2) 构建过程中的挑战：数据集的构建过程中，研究人员需要解决如何从海量的社交媒体数据中筛选出有用的信息，以及如何确保标注质量的问题。为此，CrisisMMD数据集采用了数据过滤和抽样策略，并利用众包平台Figure Eight进行标注，确保了数据的质量和多样性。

常用场景

经典使用场景

CrisisMMD数据集的经典使用场景在于为研究者在灾难响应和管理领域提供了一种全新的数据资源。该数据集包含了来自不同自然灾害的Twitter数据，这些数据被标注为“有信息量”或“无信息量”，以及更细粒度的人类itarian类别和损坏严重程度类别。这些标注使得研究者能够开发更加精确的文本和图像处理模型，从而帮助救援组织更好地理解灾难情况，并为救援行动提供更有效的信息。此外，该数据集还支持多模态任务，例如文本到图像和图像到文本的检索任务，以及图像字幕任务，这些都为研究者提供了探索多模态数据处理的广阔空间。

衍生相关工作

CrisisMMD数据集的发布引发了学术界的一系列相关工作。例如，研究者可以利用该数据集来开发多模态事件摘要模型，自动生成灾难事件的多媒体摘要。此外，该数据集还可以用于训练联合嵌入空间模型，用于文本到图像和图像到文本的检索任务。还有研究者利用该数据集来开发图像字幕模型，将视觉内容映射到其文本描述。总之，CrisisMMD数据集为灾难响应和管理领域的研究开辟了新的方向，并为相关领域的研究者提供了宝贵的数据资源。

数据集最近研究