Patch Catalog Sampling

github2024-05-07 更新2024-05-31 收录

下载链接：

https://github.com/IGNF/pacasam

下载链接

链接失效反馈

官方服务：

资源简介：

PaCaSam模块用于对地理数据补丁进行抽样和提取，以创建深度学习数据集。数据集包含地理范围、每个补丁的类别直方图和某些感兴趣对象（如风力涡轮机、高速公路等）的存在指标。这些元数据用于根据多种启发式方法抽样数据，以实现不确定性采样、重新平衡和多样性采样等目标。

The PaCaSam module is utilized for sampling and extracting geographical data patches to create deep learning datasets. The dataset encompasses geographical extents, category histograms for each patch, and presence indicators for certain objects of interest, such as wind turbines, highways, etc. These metadata are employed to sample data based on various heuristic methods, aiming to achieve objectives such as uncertainty sampling, rebalancing, and diversity sampling.

创建时间：

2023-03-13

原始信息汇总

数据集概述

数据集名称：PaCaSam: Patch Catalog Sampling

目的：用于深度学习的数据集创建，通过地理数据的子采样和提取来生成训练数据集。

数据内容：

地理覆盖范围：数据集包括地理覆盖范围描述。
类别直方图：每个patch的类别直方图。
特定对象指示器：如风力发电机、高速公路等特定对象的指示器。

采样策略：

不确定性采样：选择当前语义分割模型（如myria3d）缺乏信心的场景类型。
再平衡：增加稀有类别（如水、永久性地表）和稀有对象（如风力发电机、高压线路、铁路）的预valence。
多样性采样：覆盖尽可能多的场景多样性，基于空间自相关性和类别直方图的距离测量。

采样工具：

连接器：用于连接数据源，包括LiPaCConnector、SyntheticConnector和GeopandasConnector。
采样器：根据配置选择patch，包括TargettedSampler、OutliersSampler、DiversitySampler、SpatialSampler和TripleSampler。
提取器：从采样中创建数据集，包括LAZExtractor、BDOrthoTodayExtractor和BDOrthoVintageExtractor。

输出格式：

采样输出：保存为Geopackage格式，位于outputs/samplings/{ConnectorName}-{SamplingName}-train.gpkg。
统计描述：统计描述文件以CSV格式提供，位于outputs/samplings/{ConnectorName}-{SamplingName}-stats/。

使用方法：

环境设置：使用Anaconda创建虚拟环境。
测试：使用合成数据测试所有采样方法。
实际数据采样：从LiPaC数据库中提取并彩色化Lidar数据。

数据集分割：

训练集和测试集：通过配置文件区分，确保训练集和测试集区域不同。

性能与限制：

可扩展性：支持大规模数据处理，最大测试为4M个patch。
限制：仅支持正方形且与X、Y轴对齐的patch提取。

未来改进：

空间化FPS：在DiversitySampler中实现空间化Farthest Point Sampling。
OutliersSampler集成：考虑替换DiversitySampler，以提高采样性能。

搜集汇总

数据集介绍

构建方式

Patch Catalog Sampling（PacaSam）数据集的构建基于地理数据的子采样和补丁提取，旨在为深度学习创建训练数据集。该数据集的构建过程依赖于预先定义的‘Catalogue’，其中包含了地理数据的范围、每个补丁的类别直方图以及特定对象的存在指示器。通过这些元数据，数据集采用多种启发式方法进行采样，包括不确定性采样、重新平衡采样和多样性采样，以确保数据集的多样性和覆盖范围。

使用方法

使用PacaSam数据集时，用户可以通过配置文件定义采样策略和数据连接方式。首先，用户需要设置虚拟环境并安装必要的依赖。随后，可以通过命令行运行采样脚本，选择不同的连接器和采样器进行数据采样。采样结果将保存为Geopackage格式，并包含训练/验证/测试集的划分信息。用户还可以通过QGIS等GIS软件可视化采样结果，并进一步提取和处理数据以用于深度学习模型的训练。

背景与挑战

背景概述

Patch Catalog Sampling（PacaSam）数据集由法国国家地理与森林信息研究所（IGNF）开发，旨在为深度学习提供高质量的地理数据子样本。该数据集的核心研究问题围绕地理数据的子采样和补丁提取，特别关注于不确定性采样、重新平衡和多样性采样等策略。通过这些策略，PacaSam旨在提高模型在罕见类别和特定对象（如风力涡轮机、高速公路等）上的表现，并确保数据集的多样性。该数据集的创建不仅推动了地理数据在深度学习中的应用，还为相关领域的研究提供了新的工具和方法。

当前挑战

PacaSam数据集在构建过程中面临多项挑战。首先，如何在地理数据中有效识别和采样不确定性区域，以提高模型的鲁棒性，是一个关键问题。其次，重新平衡数据集以确保罕见类别和对象的充分代表性，需要复杂的采样策略。此外，确保数据集的多样性，同时避免空间自相关的影响，也是一个技术难题。最后，从大规模地理数据中提取和处理补丁数据，涉及高效的数据处理和存储技术，这对计算资源和算法设计提出了高要求。

常用场景

经典使用场景

Patch Catalog Sampling（PacaSam）数据集主要用于地理数据的子采样和补丁提取，以创建深度学习训练数据集。其经典使用场景包括通过不确定性采样（Uncertainty Sampling）选择模型在语义分割中表现不佳的场景，通过重新平衡（Rééquilibrage）增加稀有类别的样本数量，以及通过多样性采样（Diversity Sampling）确保数据集覆盖尽可能多的场景多样性。这些方法共同作用，优化了数据集的多样性和平衡性，为深度学习模型提供了高质量的训练数据。

解决学术问题

PacaSam数据集解决了深度学习模型在地理数据处理中的几个关键学术问题。首先，它通过不确定性采样识别模型在特定场景中的不确定性，帮助模型在复杂场景中提升性能。其次，通过重新平衡策略，解决了稀有类别样本不足的问题，提升了模型对稀有类别的识别能力。最后，多样性采样确保了数据集的广泛覆盖，减少了模型在特定区域或场景中的过拟合风险。这些方法共同提升了模型的泛化能力和鲁棒性。

实际应用

在实际应用中，PacaSam数据集广泛应用于地理信息系统（GIS）和遥感领域。例如，在城市规划中，通过该数据集可以更准确地识别和分类建筑物、道路和水体等要素，帮助规划者做出更科学的决策。在环境监测中，该数据集可以用于识别稀有的生态要素，如风力发电机或高压输电线，从而支持可持续发展的政策制定。此外，在自动驾驶和智能交通系统中，该数据集也有助于提升道路和交通标志的识别精度。

数据集最近研究