five

CrisisMMD|灾害响应数据集|多模态数据分析数据集

收藏
arXiv2018-05-02 更新2024-06-21 收录
灾害响应
多模态数据分析
下载链接:
https://dataverse.mpisws.org/dataverse/icwsm18
下载链接
链接失效反馈
资源简介:
CrisisMMD是由卡塔尔计算研究机构创建的大型多模态数据集,包含约1422万条推文和57.6万张图片,数据来源于2017年全球七次重大自然灾害。数据集通过特定的关键词和标签从Twitter收集,经过人工标注,用于支持人道主义援助中的多种任务,如信息分类、损害评估等。该数据集旨在通过提供丰富的文本和图像数据,帮助研究人员开发更有效的灾害响应和管理系统。
提供机构:
卡塔尔计算研究机构,HBKU,多哈
创建时间:
2018-05-02
AI搜集汇总
数据集介绍
构建方式
CrisisMMD数据集的构建方式涉及从Twitter上收集自然灾害期间发布的文本和多媒体内容。数据收集使用特定事件的关键词和标签,并通过Twitter的API进行。收集的数据经过过滤和抽样,以确保数据质量。首先,仅保留包含图像的推文,并排除非英语推文。其次,删除包含单个单词或标签的推文,以及通过余弦相似度测量识别的重复推文。最后,从每个数据集中随机抽取一定数量的推文进行人工标注。人工标注是通过 crowdsourcing 平台 Figure Eight 进行的,涉及三个任务:确定推文或图像的信息性、识别关键的人道主义信息和评估图像中基础设施的损坏程度。
特点
CrisisMMD数据集的特点在于其多模态性质,结合了文本和图像数据,为研究和开发更有效的人道主义援助系统提供了丰富的资源。该数据集包含了从七个不同的自然灾害事件中收集的数百万条推文和数十万张图像。数据集的特点包括三个类型的标注:信息性与否、人道主义类别和损坏程度。这些标注使得研究人员能够更好地理解灾难期间社交媒体上的信息,并为人道主义组织提供更准确和有用的信息。此外,该数据集是公开可用的,为研究人员提供了探索图像和文本处理方法的机会。
使用方法
使用CrisisMMD数据集的方法涉及多个步骤。首先,用户需要下载数据集,并根据其研究目的进行预处理。例如,可以根据需要选择特定的灾难事件、标注类型或数据子集。其次,用户可以使用数据集进行各种任务,例如信息分类、聚类、摘要和图像分类。此外,用户可以利用数据集开发多模态任务,例如文本到图像检索和图像描述。为了确保数据质量,建议使用多个标注者的结果,并根据标注者之间的协议来确定最终的标签或类别。最后,用户可以评估其模型或算法的性能,并与其他研究进行比较,以进一步改进其工作。
背景与挑战
背景概述
CrisisMMD数据集的创建旨在应对自然灾害和人为灾害期间,社交媒体平台如Twitter上发布的文本和多媒体内容进行分析的需求。该数据集由卡塔尔计算研究学院(Qatar Computing Research Institute, HBKU)的研究人员Firoj Alam、Ferda Ofli和Muhammad Imran于2018年发布。该数据集的核心研究问题是如何利用社交媒体上的图像和文本内容来提高人道主义组织对紧急情况的了解,并计划救援行动。CrisisMMD数据集的发布填补了这一领域在图像标注数据方面的空白,对相关领域的研究产生了重要影响,为图像和文本处理的研究提供了新的方向。
当前挑战
CrisisMMD数据集所面临的挑战主要包括:1) 解决领域问题的挑战:尽管已有大量研究关注社交媒体文本内容,但关于如何有效利用图像内容的研究相对较少。CrisisMMD数据集旨在解决这一挑战,通过提供具有真实标注的多模态Twitter数据集,促进图像内容在灾害响应中的作用研究。2) 构建过程中的挑战:数据集的构建过程中,研究人员需要解决如何从海量的社交媒体数据中筛选出有用的信息,以及如何确保标注质量的问题。为此,CrisisMMD数据集采用了数据过滤和抽样策略,并利用众包平台Figure Eight进行标注,确保了数据的质量和多样性。
常用场景
经典使用场景
CrisisMMD数据集的经典使用场景在于为研究者在灾难响应和管理领域提供了一种全新的数据资源。该数据集包含了来自不同自然灾害的Twitter数据,这些数据被标注为“有信息量”或“无信息量”,以及更细粒度的人类itarian类别和损坏严重程度类别。这些标注使得研究者能够开发更加精确的文本和图像处理模型,从而帮助救援组织更好地理解灾难情况,并为救援行动提供更有效的信息。此外,该数据集还支持多模态任务,例如文本到图像和图像到文本的检索任务,以及图像字幕任务,这些都为研究者提供了探索多模态数据处理的广阔空间。
衍生相关工作
CrisisMMD数据集的发布引发了学术界的一系列相关工作。例如,研究者可以利用该数据集来开发多模态事件摘要模型,自动生成灾难事件的多媒体摘要。此外,该数据集还可以用于训练联合嵌入空间模型,用于文本到图像和图像到文本的检索任务。还有研究者利用该数据集来开发图像字幕模型,将视觉内容映射到其文本描述。总之,CrisisMMD数据集为灾难响应和管理领域的研究开辟了新的方向,并为相关领域的研究者提供了宝贵的数据资源。
数据集最近研究
最新研究方向
CrisisMMD数据集的研究前沿主要集中在利用社交媒体中的文本和图像内容来提取对救灾工作有用的信息。该数据集的发布填补了灾害响应领域缺乏多模态标注数据的空白,使得研究人员能够结合文本和图像信息来提高灾害响应的效率。具体来说,该数据集的研究方向包括但不限于:利用文本和图像进行事件摘要,以帮助救援组织快速了解灾害情况;从图像中提取关于基础设施损坏程度的详细信息,以指导救援资源的分配;以及开发多模态信息检索系统,以便救援人员能够迅速找到有用的信息。此外,该数据集还可以用于研究如何通过社交媒体数据来提高公众的灾害意识,以及如何利用社交媒体数据来预测灾害的影响。
相关研究论文
  • 1
    CrisisMMD: Multimodal Twitter Datasets from Natural Disasters卡塔尔计算研究机构,HBKU,多哈 · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

FROM-GLC全球30米地表覆盖数据集(2017)

该数据集中的数据获取自清华大学宫鹏团队。全球土地覆盖数据是了解人类活动与全球变化之间复杂互动关系的关键信息来源。FROM-GLC(更精细的全球土地覆盖观测和监测)是利用大地卫星专题成像仪(TM)和增强型专题成像仪(ETM+)数据制作的第一个30米分辨率的全球土地覆盖图。

国家对地观测科学数据中心 收录

LSUI (Large Scale Underwater Image Dataset)

We released a large-scale underwater image (LSUI) dataset including 5004 image pairs, which involve richer underwater scenes (lighting conditions, water types and target categories) and better visual quality reference images than the existing ones.

Papers with Code 收录