five

pangaea2-vhr

收藏
Hugging Face2026-05-13 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/kshitijrajsharma/pangaea2-vhr
下载链接
链接失效反馈
官方服务:
资源简介:
PANGAEA-2 VHR数据集是一个非官方的镜像集合,旨在为研究可重复性提供基于哈希的版本控制。它整合了四个独立的高分辨率遥感数据集:PureForest、xView2、mpv4ger和SpaceNet 3 Roads,每个数据集作为一个独立的配置发布,包含分片的Parquet文件。PureForest专注于18类树种分类,包含135,569个250x250像素的四波段(NIR、R、G、B)图像样本。xView2用于建筑物损坏分割(0-4级),包含约10,101对灾前和灾后的1024x1024 RGB图像对。mpv4ger是一个二分类数据集,用于太阳能电池板检测,包含13,812个320x320的RGB图像。SN3 Roads用于道路网络提取,包含3,708个1300x1300的原始uint16 RGB图像(PS-RGB格式)。数据集涵盖了图像分类、图像分割和对象检测等多种计算机视觉任务,特别适用于地理空间分析、遥感、地球观测和变化检测等应用场景。数据以PNG或原始GeoTIFF格式存储,并保留了完整的地理参考信息(如CRS、边界框、地理变换)。

The PANGAEA-2 VHR dataset is an unofficial mirror collection designed to provide hash-based version control for research reproducibility. It integrates four independent high-resolution remote sensing datasets: PureForest, xView2, mpv4ger, and SpaceNet 3 Roads. Each dataset is released as an independent configuration and includes sharded Parquet files. PureForest focuses on 18-class tree species classification, containing 135,569 image samples of 250x250 pixels with four bands (NIR, R, G, B). xView2 is used for building damage segmentation (levels 0-4), containing approximately 10,101 pairs of pre- and post-disaster 1024x1024 RGB images. mpv4ger is a binary classification dataset for solar panel detection, containing 13,812 320x320 RGB images. SN3 Roads is used for road network extraction, containing 3,708 raw uint16 RGB images of 1300x1300 pixels (in PS-RGB format). The dataset covers various computer vision tasks such as image classification, image segmentation, and object detection, and is particularly suitable for applications in geospatial analysis, remote sensing, Earth observation, and change detection. Data is stored in PNG or raw GeoTIFF formats, with complete georeferencing information preserved (e.g., CRS, bounding boxes, geotransforms).
创建时间:
2026-05-12
搜集汇总
数据集介绍
main_image_url
构建方式
PANGAEA-2 VHR数据集是一个面向地理空间视觉任务的高分辨率遥感镜像集合,整合了PureForest、xView2、mpv4ger与SN3 Roads四个子数据集。每个子集均以独立的config配置形式存放于同一个HuggingFace仓库中,数据以分片Parquet格式存储。构建过程中,原始数据从官方来源获取,通过统一标准化流程转换格式:PureForest将GeoTIFF转为PNG并保留四波段NIR-R-G-B通道;xView2保持PNG格式并携带JSON标注;mpv4ger将HDF5转换为PNG;SN3 Roads则保留原始uint16 PS-RGB GeoTIFF,以确保图像信息无损失。各子集均未对像素值进行归一化处理,以保持原始遥感成像特性。
特点
该数据集的核心特点在于其多元性与高分辨率覆盖。PureForest提供13类树种分类任务,包含超过13万张250×250像素的四波段图像,并附带拉丁物种名与官方类别映射表,支持精细的生态分类研究。xView2收录约1万对1024×1024灾前/灾后RGB图像,专注于建筑损伤分割任务。mpv4ger聚焦于太阳能板二分类,包含13,812张320×320像素图像。SN3 Roads则面向道路网络提取,提供1,300×1,300像素的uint16完整色调图像及GeoJSON标注,同时公开了每区域统计信息以辅助标准化训练。每个子集都具有规范的标注体系和详尽的元数据列,便于下游任务调用。
使用方法
用户可通过HuggingFace的datasets库便捷加载各子集,只需调用load_dataset函数并指定config名称即可获取相应训练、验证或测试拆分。PureForest、mpv4ger图像以PIL Image形式读取;xView2则返回图像对与分割掩码;SN3 Roads因uint16位深需借助rasterio解码二进制图像字段。数据集整合了批量转换脚本,用户可运行just指令从源文件重新构建Parquet分片。各子集均压缩至10至100GB之间,适合在单机或多节点环境下开展遥感图像分类、语义分割与目标检测等深度学习的实验与基准测试。
背景与挑战
背景概述
PANGAEA-2 VHR数据集是由研究者构建的一个综合性地表覆盖分析基准数据集,整合了PureForest、xView2、mpv4ger和SN3 Roads四个极具代表性的遥感子数据集。该数据集创建于近年,旨在为极高分遥感影像的多种下游任务提供统一评估平台,涵盖树种分类、建筑物损毁分割、太阳能板检测及道路网络提取等核心研究问题。通过提供标准化Parquet格式及详尽数据模式,PANGAEA-2 VHR显著降低了多源遥感数据整合的门槛,为地球观测领域的迁移学习与多任务学习研究奠定了坚实基础。其衍生影响力已辐射至灾害响应、城市规划及生态监测等关键应用领域。
当前挑战
该数据集所面对的核心领域挑战在于如何从单一时相或双时相VHR影像中精准提取语义丰富的地物属性,例如区分13种树冠冠层、量化建筑物灾损等级以及提取亚米级道路拓扑结构。构建过程中,首先面临数据异构性难题:xView2的RGB-PNG图像与SN3 Roads的uint16 GeoTIFF影像之间存在波段深度与坐标投影差异,需设计无损转换管线。其次,标注一致性挑战突出,如PureForest的13类官方分类法需要将多种橡树物种归并为单一类别,而SN3 Roads的测试集缺失标签,迫使研究者发布按区域统计的标准化参数以支撑公平评测。
常用场景
经典使用场景
在遥感图像理解这一广袤领域,PANGAEA-2 VHR数据集凭借其对极高分遥感影像的丰富覆盖,成为研究多类经典视觉任务的理想基石。其设计精妙地融合了四项子任务:PureForest聚焦于高精度的树种分类,xView2针对建筑物灾后损毁程度进行像素级分割,mpv4ger致力于太阳能面板的二值化识别,而SN3 Roads则面向道路网络的拓扑提取。这些子任务共同勾勒出一幅从细粒度地物识别到复杂场景结构解析的完整画卷,使得该数据集成为评估和推动语义分割、目标检测及图像分类模型在真实遥感影像上鲁棒性与泛化能力的权威测试平台。
衍生相关工作
PANGAEA-2 VHR数据集所汇集的高质量基准,业已激励了一系列具有深远影响的衍生研究工作。以PureForest为蓝本,研究者们发展出大量面向遥感树种识别的轻量化卷积网络与视觉变换器模型,推动了细粒度植物学分类技术的进步。基于xView2,学术界涌现出众多结合时序分析与孪生网络架构的建筑物变化检测算法,并催生了多个聚焦于灾害响应的大规模学术竞赛与共享挑战。SN3 Roads作为道路提取领域的经典平台,衍生出众多结合图神经网络与顶底齐驱的拓扑约束优化方法,以及面向长距离道路连通性的评估体系。这些工作共同构建了遥感智能解译领域蓬勃发展的技术生态。
数据集最近研究
最新研究方向
该数据集整合了PureForest物种分类、xView2建筑损毁分割、mpv4ger太阳能板检测与SN3道路提取四大子集,为地理空间视觉模型的多任务泛化能力评估提供了标准化基准。当前研究前沿聚焦于利用超高分辨率遥感影像构建统一的预训练基础模型,并探索跨任务与跨地域的迁移学习范式,例如在灾害快速响应场景中,将xView2的灾后建筑损毁知识迁移至街道网络拓扑重建,或通过SolarNet的屋顶光伏分布辅助城市能源规划。数据集规范的Parquet分片格式与哈希版本控制,有效促进了结果复现与公平对比,其无归一化的原始像素存储策略更支持了模型对多传感器辐射特性的鲁棒性研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作