five

MITLL/LADI-v2-dataset

收藏
Hugging Face2024-06-25 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MITLL/LADI-v2-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
LADI-v2数据集是由美国民用空中巡逻队(CAP)拍摄并标注的航空灾害图像集合,图像包含地理标签(在EXIF元数据中)。每张图像由经过FEMA灾害评估过程培训的CAP志愿者进行三重标注,用于多标签分类。数据集包含约10k张图像,分为训练集、验证集和测试集。v2a数据集是v2数据集的一个子集,其中建筑物的损坏类别被压缩为两个类别。此外,LADI v1数据集由众包工人标注,包含约25k张图像,分为基础设施和损坏两个任务。

LADI-v2数据集是由美国民用空中巡逻队(CAP)拍摄并标注的航空灾害图像集合,图像包含地理标签(在EXIF元数据中)。每张图像由经过FEMA灾害评估过程培训的CAP志愿者进行三重标注,用于多标签分类。数据集包含约10k张图像,分为训练集、验证集和测试集。v2a数据集是v2数据集的一个子集,其中建筑物的损坏类别被压缩为两个类别。此外,LADI v1数据集由众包工人标注,包含约25k张图像,分为基础设施和损坏两个任务。
提供机构:
MITLL
原始信息汇总

数据集卡片:LADI-v2-dataset

数据集概述:v2

LADI-v2 数据集是由民用航空巡逻队(CAP)捕获并标记的一系列空中灾难图像。这些图像具有地理标记(在其 EXIF 元数据中)。每张图像都由经过 FEMA 损害评估流程培训的 CAP 志愿者进行多标签分类的三重标记;如果志愿者对某个类别的存在有分歧,则采取多数投票。类别包括:

  • bridges_any
  • bridges_damage
  • buildings_affected
  • buildings_any
  • buildings_destroyed
  • buildings_major
  • buildings_minor
  • debris_any
  • flooding_any
  • flooding_structures
  • roads_any
  • roads_damage
  • trees_any
  • trees_damage
  • water_any

v2 数据集包含大约 10,000 张图像,分为 8,000 张图像的训练集、1,000 张图像的验证集和 1,000 张图像的测试集。训练集和验证集来自同一分布(2015-2022 年联邦宣布的灾难的 CAP 图像),而测试集来自 2023 年的事件,这些事件的类型和地点分布不同。这是为了模拟每年新事件发生时的分布变化。

数据集 v2a

v2a 数据集呈现相同的图像,但标签子集已被压缩,建筑物的损坏类别被压缩为两个类别:buildings_affected_or_greaterbuildings_minor_or_greater。我们发现这项任务更容易,并且在分诊目的上具有类似的实际价值。由于数据集中正例数量较少,bridges_damage 标签也被移除。

  • bridges_any
  • buildings_any
  • buildings_affected_or_greater
  • buildings_minor_or_greater
  • debris_any
  • flooding_any
  • flooding_structures
  • roads_any
  • roads_damage
  • trees_any
  • trees_damage
  • water_any

数据集概述:v1

此数据集代码还支持加载 LADI v1 数据集的子集,该数据集包含大约 25,000 张图像,分为两个任务:“基础设施”和“损害”。LADI v1 数据集由众包工作者标记,标签不应被视为确定性的。该数据可能适用于在 LADI v2 上进行微调之前的预训练任务。

基础设施任务涉及识别图像中的基础设施,并具有类别 buildingroad。它分为 8,200 张图像的训练集和 2,000 张图像的测试集。

损害任务涉及识别损害,并具有类别 floodrubblemisc_damage。它分为 14,400 张图像的训练集和 3,600 张图像的测试集。

支持的任务

图像被标记为多标签分类,因为上述列表中的任何元素都可能出现在单个图像中。

数据结构

v2a 数据集中的单个示例如下:

json { image: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=1800x1200 at ...>, bridges_any: False, buildings_any: False, buildings_affected_or_greater: False, buildings_minor_or_greater: False, debris_any: False, flooding_any: False, flooding_structures: False, roads_any: False, roads_damage: False, trees_any: True, trees_damage: True, water_any: True }

v1 数据集中的示例类似,类别来自各自的任务(基础设施和损害)。

使用数据集

默认配置

数据集的 main 分支将加载 v2a 标签集,图像大小调整为 1800x1200。对于大多数用例,这应该足够了。

python from datasets import load_dataset ds = load_dataset("MITLL/LADI-v2-dataset")

高级用法

如果您需要访问全分辨率图像、v2 标签集或 v1 数据集,您应该从 script 修订版加载。这将使用自定义数据集加载器脚本,这需要您设置 trust_remote_code=True

脚本可用的配置有:v2v2av2_resizedv2a_resizedv1_damagev1_infra

您可以通过设置 download_ladi=True 下载数据集,该操作从 s3 存储桶获取压缩数据并将其解压到文件系统中的 base_dir

python from datasets import load_dataset

ds = load_dataset("MITLL/LADI-v2-dataset", "v2a_resized", revision="script",                 streaming=True, download_ladi=True,                 base_dir=./ladi_dataset, trust_remote_code=True)

我们建议尽可能使用 v2_resized 和 v2a_resized 数据集,因为下载量大约小 45 倍。我们尽量不下载您不需要的图像,因此这只会获取 v2_resized 图像,而不会获取 v1 和 v2 图像。

我们打算主要在从单个文件流模式下使用此数据集。虽然您可以将其转换为 parquet 表,但我们通常使用 streaming=True 的数据集,这允许您在文件系统上导航、检查和修改数据集。初始下载后,只需省略 download_ladi 参数或传递 download_ladi=False,将使用 base_dir 中已有的 LADI 版本:

python from datasets import load_dataset

ds = load_dataset("MITLL/LADI-v2-dataset", "v2a_resized", revision="script",                 streaming=True, base_dir=./ladi_dataset,                 trust_remote_code=True)

如前所述,LADI v1 没有单独的测试和验证集,因此 LADI v1 数据中的 val 和 test 拆分指向相同的标签!

数据集信息

  • 引用 - BibTeX:

@misc{ladi_v2, title={LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster Imagery}, author={Samuel Scheele and Katherine Picchione and Jeffrey Liu}, year={2024}, eprint={2406.02780}, archivePrefix={arXiv}, primaryClass={cs.CV} }

  • 开发人员: Jeff Liu, Sam Scheele
  • 资助方: 美国空军部,空军合同编号:FA8702-15-D-0001
  • 许可证: 代码为 MIT,数据为 CC-by-4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在遥感与灾害评估领域,LADI-v2数据集通过系统化流程构建而成。该数据集由美国民间空中巡逻队(CAP)在2015年至2022年间联邦宣布的灾害事件中采集航空影像,并利用经过联邦应急管理局(FEMA)损害评估流程培训的志愿者进行三重标注。每张图像均包含地理标签,并通过多数投票机制解决标注者之间的分歧,最终形成涵盖桥梁、建筑、碎片、洪水、道路、树木及水体等十五个类别的多标签分类数据集。数据被划分为训练集、验证集与测试集,其中测试集特意选自2023年事件,以模拟年度灾害事件分布的自然偏移,增强模型的泛化能力。
特点
LADI-v2数据集在灾害影像分析中展现出鲜明的特征。其核心在于精细的多标签分类体系,不仅区分基础设施的存在与否,还详细标注了损害程度,例如建筑被细分为受影响、轻微损害、重大损害及完全摧毁等层级。数据集特别提供了v2a变体,将建筑损害类别压缩为更具操作性的两级分类,并移除了样本稀少的桥梁损害标签,以提升模型在灾害分级响应中的实用价值。此外,数据集的图像均附带地理元数据,且通过划分不同年份的测试集,巧妙地引入了分布偏移的评估场景,为研究模型在真实灾害演变中的稳健性提供了宝贵资源。
使用方法
为高效利用该数据集,研究者可通过Hugging Face的`datasets`库便捷加载。默认配置将自动获取`v2a`标签集及经缩放至1800x1200像素的图像,适用于多数多标签分类任务。若需访问全分辨率图像、完整v2标签集或历史v1数据,则需指定`revision="script"`并启用`trust_remote_code=True`参数,从脚本修订版中加载相应配置。数据集支持流式读取模式,允许用户在初始下载后直接基于本地文件系统进行操作,从而优化存储与访问效率。值得注意的是,v1版本数据缺乏独立的验证与测试划分,使用时需留意其标签指向的一致性。
背景与挑战
背景概述
在遥感与计算机视觉交叉领域,灾害评估研究长期面临高质量标注数据的匮乏。由麻省理工学院林肯实验室主导、美国空军资助的LADI-v2数据集于2024年正式发布,旨在通过航空影像推动灾害场景的多标签分类研究。该数据集由美国民间空中巡逻队于2015年至2023年间采集,涵盖洪水、建筑损毁、道路损坏等十五类灾害要素,并由经过联邦应急管理局专业培训的志愿者进行三重标注与多数表决验证。其核心研究问题聚焦于从低空航拍图像中实现自动化、精细化的灾情要素识别与损害评估,为应急响应决策提供数据驱动支持,显著提升了灾害影像分析的标准化与可复现性。
当前挑战
该数据集致力于解决灾害影像多标签分类的复杂挑战,其核心难点在于灾害场景中多尺度目标共存、光照与视角多变、以及损毁程度判读的主观性。构建过程中,标注一致性成为主要障碍,尽管采用三重标注与多数表决机制,志愿者对‘轻微损坏’与‘重大损坏’等模糊类别仍存在分歧,导致部分标签信噪比降低。此外,数据分布偏移亦构成严峻考验:训练集与测试集分别来自不同年份的灾害事件,模拟了真实世界中灾害类型与地理分布的时序变化,对模型的泛化能力提出了更高要求。数据规模的限制,特别是‘桥梁损坏’等罕见类别的样本稀缺,进一步加剧了模型训练的难度。
常用场景
经典使用场景
在灾害遥感领域,LADI-v2数据集凭借其由美国民用空中巡逻队采集的航空影像,为多标签分类任务提供了精准的标注基础。该数据集最经典的应用场景在于训练和评估深度学习模型,以自动识别灾害图像中的关键要素,如建筑物、桥梁、道路、洪水、碎片和树木等。通过模拟年度事件分布变化,其测试集设计有效检验了模型在新型灾害场景下的泛化能力,为灾害响应中的自动化分析奠定了数据基石。
实际应用
在实际灾害管理中,LADI-v2数据集支撑的系统能够实现快速灾情评估与资源调配。例如,在飓风或洪水过后,应急响应团队可利用基于该数据集训练的模型,自动分析航拍图像,迅速定位受损建筑、被淹道路或桥梁损坏情况,从而优先安排救援力量。这种自动化损伤评估极大地提升了灾害响应的效率与准确性,为决策者提供了实时、客观的现场情报。
衍生相关工作
围绕LADI-v2数据集,已衍生出一系列经典研究工作,主要集中在提升多标签分类模型的性能与适应性上。例如,研究者利用其进行领域泛化方法的验证,以应对测试集中来自不同年份灾害事件的分布偏移。此外,该数据集也常被用于预训练-微调范式的研究,即先在规模较大的LADI v1数据上进行预训练,再在标注更精确的v2数据上微调,以改善模型在有限标注数据下的表现。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作