P3 dataset

Name: P3 dataset
Creator: LuxCarta Technology, Mouans-Sartoux, France; Centre Inria d’Université Côte d’Azur, Sophia Antipolis, France
Published: 2025-05-21 19:16:29
License: 暂无描述

arXiv2025-05-21 更新2025-05-24 收录

下载链接：

https://github.com/raphaelsulzer/PixelsPointsPolygons

下载链接

链接失效反馈

官方服务：

资源简介：

P3数据集是一个大规模的多模态建筑矢量化的基准数据集，由三个大陆的航空激光雷达点云、高分辨率航空影像和矢量化的二维建筑轮廓组成。该数据集包含超过100亿个激光雷达点，具有分米级精度，以及25厘米地面采样距离的RGB图像。与许多现有数据集主要关注图像模态不同，P3还提供了密集的3D信息。我们证明了激光雷达点云在混合和端到端学习框架中预测建筑多边形方面具有鲁棒性。此外，融合航空激光雷达和图像进一步提高了预测多边形的精度和几何质量。P3数据集是公开可用的，包括三个最先进的建筑多边形预测模型的代码和预训练权重。数据集旨在解决现有数据集在建筑矢量化问题上的局限性，如数据模态单一、地域和建筑风格多样性不足、缺乏精确的几何信息等。P3数据集的设计和应用为多模态建筑矢量化研究提供了重要的基础。

The P3 dataset is a large-scale benchmark dataset for multimodal building vectorization, composed of airborne LiDAR point clouds, high-resolution aerial imagery, and vectorized 2D building footprints from three continents. This dataset contains over 10 billion LiDAR points with decimeter-level accuracy, as well as RGB imagery with a ground sampling distance (GSD) of 25 centimeters. Unlike many existing datasets that primarily focus on image modalities, the P3 dataset also provides dense 3D information. We have demonstrated that LiDAR point clouds exhibit robustness in predicting building polygons within hybrid and end-to-end learning frameworks. Furthermore, fusing airborne LiDAR and imagery further improves the accuracy and geometric quality of the predicted polygons. The P3 dataset is publicly available, including the code and pre-trained weights for three state-of-the-art building polygon prediction models. This dataset is designed to address the limitations of existing datasets for building vectorization tasks, such as single data modality, insufficient diversity in regions and building styles, and lack of precise geometric information. The design and application of the P3 dataset provide a crucial foundation for multimodal building vectorization research.

提供机构：

LuxCarta Technology, Mouans-Sartoux, France; Centre Inria d’Université Côte d’Azur, Sophia Antipolis, France

创建时间：

2025-05-21

原始信息汇总

P³数据集概述

数据集简介

名称：P³数据集 (Pixels, Points and Polygons for Multimodal Building Vectorization)
类型：多模态建筑矢量化基准数据集
数据来源：航空LiDAR点云、高分辨率航空影像和矢量化2D建筑轮廓
覆盖范围：三大洲（瑞士、纽约、新西兰）
数据量：超过100亿个LiDAR点
精度：
- LiDAR点云：分米级精度
- RGB图像：地面采样距离25cm

数据集亮点

多模态数据：同时包含航空影像、LiDAR点云和建筑轮廓多边形
全球覆盖：采集自不同大洲的多样化地理区域
配套资源：
- 训练和评估深度学习方法的代码库
- 预训练模型权重
- 详细实验验证的论文

数据集结构

总大小：约163GB
主要目录：
- annotations/：MS-COCO格式的标注文件（24个文件）
- images/：TIFF格式的航空影像
  - 按train/val/test划分
  - 按地区分类（CH/NY/NZ）
- lidar/：COPC.LAZ格式的LiDAR点云数据
  - 同样按划分和地区组织
- ffl/：处理后的特征文件（.pt格式）

数据下载

推荐方式： bash pip install huggingface_hub python scripts/download_dataset.py --dataset-root $DATA_ROOT
备选方式： bash git lfs install git clone https://huggingface.co/datasets/rsi/PixelsPointsPolygons $DATA_ROOT

预训练模型

下载方式： bash python scripts/download_pretrained.py --model-root $MODEL_ROOT

或 bash git clone https://huggingface.co/rsi/PixelsPointsPolygons $MODEL_ROOT

代码库

获取方式： bash git clone https://github.com/raphaelsulzer/PixelsPointsPolygons
安装：
- 使用install.sh脚本创建conda环境
- 或手动安装依赖： bash pip install -r requirements-torch-cuda.txt pip install .

相关资源

数据集地址：https://huggingface.co/datasets/rsi/PixelsPointsPolygons
代码库地址：https://github.com/raphaelsulzer/PixelsPointsPolygons
预训练模型：https://huggingface.co/rsi/PixelsPointsPolygons
研究论文：https://arxiv.org/abs/2505.15379

搜集汇总

数据集介绍

构建方式

P3数据集是一个多模态建筑矢量化基准数据集，通过整合来自三个不同大洲的航空LiDAR点云、高分辨率航空影像和矢量化的2D建筑轮廓构建而成。数据采集覆盖了总面积达638平方公里的区域，包含超过100亿个LiDAR点以及224,000个独立的建筑多边形标注。为确保数据的一致性和适用性，原始遥感数据经过重采样、分块和标准化处理，以适应深度学习框架的需求。具体而言，航空影像被重采样至25厘米的地面采样距离（GSD），并切割为224×224像素的非重叠块；LiDAR点云则被切割为相同大小的块，并保留了原始点云密度。建筑轮廓标注以2D多边形形式提供，并转换为广泛使用的MS-COCO格式。

特点

P3数据集的主要特点在于其多模态性和地理多样性。数据集不仅包含传统的航空影像模态，还提供了高密度的3D LiDAR点云数据，后者能够提供分米级精度的高度信息，且对气象和季节变化具有鲁棒性。此外，数据集覆盖了多个城市的不同建筑类型和密度，显著提升了模型的泛化能力。标注方面，P3数据集直接提供了矢量化的建筑轮廓多边形，避免了从像素掩码转换带来的几何损失，并通过属性标记区分了多边形的内外环，进一步提升了标注的几何精度。

使用方法

P3数据集的使用方法灵活多样，支持多种深度学习任务。用户可以通过提供的Python库直接加载数据，并利用其内置的基准测试工具进行模型训练、测试和评估。数据集支持单模态（仅影像或仅LiDAR）和多模态（影像与LiDAR融合）输入，适用于多种建筑轮廓提取算法。实验表明，融合多模态数据能够显著提升预测多边形的准确性和几何质量。此外，数据集还提供了预训练的三种先进模型权重（FFL、HiSup和Pix2Poly），方便用户快速复现实验结果或进行迁移学习。数据集的评估指标涵盖边界精度、面积完整性、几何复杂度等多个维度，为用户提供了全面的性能分析工具。

背景与挑战

背景概述

P3数据集是由LuxCarta Technology和Inria的研究团队于2025年提出的一个多模态建筑矢量化基准数据集。该数据集整合了来自三大洲的航空LiDAR点云、高分辨率航空影像和矢量化建筑轮廓，包含超过100亿个LiDAR点和22.4万个建筑多边形标注。P3的创建旨在解决现有建筑矢量化数据集中单模态（仅影像）主导、区域多样性不足以及标注精度有限等问题。通过融合2D影像和3D点云数据，P3为计算机视觉、遥感等领域提供了更全面的建筑轮廓提取研究平台，其跨模态特性显著提升了多边形预测的几何精度，推动了自动化地籍制图技术的发展。

当前挑战

P3数据集面临的挑战主要体现在两方面：领域问题层面，建筑矢量化需克服影像中阴影、遮挡（如树木遮挡）导致的误检或漏检，以及不同区域建筑风格多样性引发的模型过拟合问题；数据构建层面，多模态数据（影像与LiDAR）的时空对齐、跨洲际数据的标注标准统一、复杂建筑轮廓（如含庭院结构）的矢量表达优化均为技术难点。此外，现有深度学习方法对直接多边形预测的泛化能力不足，且MS-COCO格式对多边形孔洞的支持有限，需通过顶点连接等替代方案处理，可能引入几何无效性问题。

常用场景

经典使用场景

在计算机视觉与地理信息科学领域，P3数据集为多模态建筑矢量化研究提供了标准化基准。其典型应用场景包括通过融合航空LiDAR点云与高分辨率影像，训练深度学习模型以提取建筑物轮廓多边形。该数据集覆盖三大洲的多样化城市景观，支持算法在复杂场景下的性能验证，如处理植被遮挡、建筑倾斜变形等挑战。

衍生相关工作

P3数据集催生了多项建筑矢量化创新研究，包括：基于Transformer的端到端多边形预测方法Pix2Poly的改进，其顶点序列预测范式被后续工作广泛采用；多模态特征融合框架的优化研究，如将LiDAR点云编码为与图像对齐的体素特征；以及几何质量评估指标的完善，例如引入对称性与规则性度量。相关成果发表于CVPR、ISPRS等顶级会议期刊，形成完整的方法-数据-评估研究链条。

数据集最近研究