Incidents1M Dataset
收藏arXiv2022-01-12 更新2024-06-21 收录
下载链接:
http://incidentsdataset.csail.mit.edu
下载链接
链接失效反馈官方服务:
资源简介:
Incidents1M数据集是由麻省理工学院计算机科学与人工智能实验室创建的大型多标签数据集,包含977,088张图像,涉及43种事故和49个地点类别。数据集通过从Google图像查询中下载图像,并使用Amazon Mechanical Turk进行手动标注,以确保图像与特定事故或地点标签相关。该数据集旨在通过自动化图像过滤技术,提高对自然灾害发生后情况的快速理解和响应,特别是在社交媒体图像分析方面。应用领域包括灾害分析、事故检测和实时监控,以支持人道主义援助和灾害响应。
Incidents1M is a large-scale multi-label dataset developed by the MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). It contains 977,088 images, covering 43 accident categories and 49 location categories. The dataset is constructed by downloading images from Google Image searches and conducting manual annotations via Amazon Mechanical Turk, to ensure that each image is relevant to a specific accident or location label. This dataset aims to improve rapid understanding and response to post-disaster situations through automated image filtering technologies, with a particular focus on social media image analysis. Its application areas include disaster analysis, accident detection, and real-time monitoring, to support humanitarian aid and disaster response work.
提供机构:
麻省理工学院计算机科学与人工智能实验室
创建时间:
2022-01-12
搜集汇总
数据集介绍

构建方式
Incidents1M 数据集的构建采用了多标签标注方法,收集了 977,088 张包含自然灾害、损害和事件的图像,分为 43 个事件类别和 49 个地点类别。数据集的构建过程包括从 Google 图像搜索中下载图像,使用 Amazon Mechanical Turk 平台进行人工标注,并引入了类负标签以提高模型的鲁棒性。
特点
Incidents1M 数据集的特点在于其规模庞大、多标签标注和包含类负标签。数据集包含了多种自然灾害和事件的图像,以及相应的地点类别,使得模型可以更好地理解事件的上下文。此外,数据集中的类负标签可以帮助模型在现实世界中更好地检测事件,减少误报。
使用方法
Incidents1M 数据集可用于训练事件检测模型、条件生成模型等。用户可以使用数据集中的图像和标签来训练模型,并通过模型对新的图像进行事件检测。此外,数据集中的类负标签可以帮助模型更好地处理现实世界中的数据,减少误报。
背景与挑战
背景概述
在地球经历全球变暖的过程中,自然灾害如洪水、龙卷风或野火日益普遍。由于难以预测事件发生的时间和地点,因此及时进行紧急响应对于挽救处于破坏性事件威胁下的生命至关重要。技术在这些情况下可以发挥作用。社交媒体帖子可以作为低延迟数据源,用于了解灾难的进展和后果,然而,如果没有自动化方法,解析这些数据是乏味的。先前的工作主要集中在基于文本的过滤,而基于图像和视频的过滤在很大程度上尚未探索。在这项工作中,我们提出了Incidents1M数据集,这是一个大型多标签数据集,包含977,088张图像,有43个事件类别和49个地点类别。我们提供了数据集构建的详细信息、统计数据和潜在的偏差;引入并训练了一个用于事件检测的模型;并在Flickr和Twitter上的数百万张图像上进行了图像过滤实验。我们还展示了事件分析的一些应用,以鼓励和促进计算机视觉在人道主义援助方面的未来工作。
当前挑战
构建Incidents1M数据集的挑战包括:1)从社交媒体帖子中自动化信息处理,因为这些数据源具有很高的噪声,并且大量发布的图像与人文需求无关;2)需要鲁棒的深度学习模型,这些模型需要使用大量标记的图像进行训练,而创建适合野外事件识别任务的合适大型标记数据集是昂贵的;3)数据集中可能存在的偏差,包括图像来源的地理分布偏差和模型在不同地区性能的偏差。
常用场景
经典使用场景
Incidents1M数据集被广泛应用于图像识别和场景理解领域。通过包含大量与自然灾害、损害和事件相关的图像,该数据集为研究人员提供了丰富的数据资源,用于训练和评估模型,以提高对自然灾害的自动检测能力。特别是在社交媒体平台上,该数据集可以用于实时监测和响应紧急事件,为救援组织提供及时的信息支持。
解决学术问题
Incidents1M数据集解决了以往研究中数据集规模小、类别单一的问题。通过提供大规模的多标签数据集,该数据集为研究人员提供了更多样化的数据资源,可以用于训练更鲁棒的模型,以提高对自然灾害的自动检测能力。此外,该数据集还引入了类负标签,有助于模型减少误报,提高检测的准确性。
衍生相关工作
Incidents1M数据集的发布推动了相关领域的研究进展。基于该数据集,研究人员开发了多种模型,用于自动检测自然灾害、损害和事件。此外,该数据集还被用于生成图像、创建交互式仪表板等应用,为研究人员提供了更多样化的研究工具。
以上内容由遇见数据集搜集并总结生成



