MITLL/LADI-v2-dataset
收藏数据集卡片:LADI-v2-dataset
数据集概述:v2
LADI-v2 数据集是由民用航空巡逻队(CAP)捕获并标记的一系列空中灾难图像。这些图像具有地理标记(在其 EXIF 元数据中)。每张图像都由经过 FEMA 损害评估流程培训的 CAP 志愿者进行多标签分类的三重标记;如果志愿者对某个类别的存在有分歧,则采取多数投票。类别包括:
- bridges_any
- bridges_damage
- buildings_affected
- buildings_any
- buildings_destroyed
- buildings_major
- buildings_minor
- debris_any
- flooding_any
- flooding_structures
- roads_any
- roads_damage
- trees_any
- trees_damage
- water_any
v2 数据集包含大约 10,000 张图像,分为 8,000 张图像的训练集、1,000 张图像的验证集和 1,000 张图像的测试集。训练集和验证集来自同一分布(2015-2022 年联邦宣布的灾难的 CAP 图像),而测试集来自 2023 年的事件,这些事件的类型和地点分布不同。这是为了模拟每年新事件发生时的分布变化。
数据集 v2a
v2a 数据集呈现相同的图像,但标签子集已被压缩,建筑物的损坏类别被压缩为两个类别:buildings_affected_or_greater 和 buildings_minor_or_greater。我们发现这项任务更容易,并且在分诊目的上具有类似的实际价值。由于数据集中正例数量较少,bridges_damage 标签也被移除。
- bridges_any
- buildings_any
- buildings_affected_or_greater
- buildings_minor_or_greater
- debris_any
- flooding_any
- flooding_structures
- roads_any
- roads_damage
- trees_any
- trees_damage
- water_any
数据集概述:v1
此数据集代码还支持加载 LADI v1 数据集的子集,该数据集包含大约 25,000 张图像,分为两个任务:“基础设施”和“损害”。LADI v1 数据集由众包工作者标记,标签不应被视为确定性的。该数据可能适用于在 LADI v2 上进行微调之前的预训练任务。
基础设施任务涉及识别图像中的基础设施,并具有类别 building 和 road。它分为 8,200 张图像的训练集和 2,000 张图像的测试集。
损害任务涉及识别损害,并具有类别 flood、rubble 和 misc_damage。它分为 14,400 张图像的训练集和 3,600 张图像的测试集。
支持的任务
图像被标记为多标签分类,因为上述列表中的任何元素都可能出现在单个图像中。
数据结构
v2a 数据集中的单个示例如下:
json { image: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=1800x1200 at ...>, bridges_any: False, buildings_any: False, buildings_affected_or_greater: False, buildings_minor_or_greater: False, debris_any: False, flooding_any: False, flooding_structures: False, roads_any: False, roads_damage: False, trees_any: True, trees_damage: True, water_any: True }
v1 数据集中的示例类似,类别来自各自的任务(基础设施和损害)。
使用数据集
默认配置
数据集的 main 分支将加载 v2a 标签集,图像大小调整为 1800x1200。对于大多数用例,这应该足够了。
python from datasets import load_dataset ds = load_dataset("MITLL/LADI-v2-dataset")
高级用法
如果您需要访问全分辨率图像、v2 标签集或 v1 数据集,您应该从 script 修订版加载。这将使用自定义数据集加载器脚本,这需要您设置 trust_remote_code=True。
脚本可用的配置有:v2、v2a、v2_resized、v2a_resized、v1_damage、v1_infra。
您可以通过设置 download_ladi=True 下载数据集,该操作从 s3 存储桶获取压缩数据并将其解压到文件系统中的 base_dir:
python from datasets import load_dataset
ds = load_dataset("MITLL/LADI-v2-dataset", "v2a_resized", revision="script", streaming=True, download_ladi=True, base_dir=./ladi_dataset, trust_remote_code=True)
我们建议尽可能使用 v2_resized 和 v2a_resized 数据集,因为下载量大约小 45 倍。我们尽量不下载您不需要的图像,因此这只会获取 v2_resized 图像,而不会获取 v1 和 v2 图像。
我们打算主要在从单个文件流模式下使用此数据集。虽然您可以将其转换为 parquet 表,但我们通常使用 streaming=True 的数据集,这允许您在文件系统上导航、检查和修改数据集。初始下载后,只需省略 download_ladi 参数或传递 download_ladi=False,将使用 base_dir 中已有的 LADI 版本:
python from datasets import load_dataset
ds = load_dataset("MITLL/LADI-v2-dataset", "v2a_resized", revision="script", streaming=True, base_dir=./ladi_dataset, trust_remote_code=True)
如前所述,LADI v1 没有单独的测试和验证集,因此 LADI v1 数据中的 val 和 test 拆分指向相同的标签!
数据集信息
- 引用 - BibTeX:
@misc{ladi_v2, title={LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster Imagery}, author={Samuel Scheele and Katherine Picchione and Jeffrey Liu}, year={2024}, eprint={2406.02780}, archivePrefix={arXiv}, primaryClass={cs.CV} }
- 开发人员: Jeff Liu, Sam Scheele
- 资助方: 美国空军部,空军合同编号:FA8702-15-D-0001
- 许可证: 代码为 MIT,数据为 CC-by-4.0




