RegressionUQ, SegmentationUQ, ClassificationUQ
收藏arXiv2024-12-09 更新2024-12-11 收录
下载链接:
https://gitlab.lrz.de/ai4eo/WG Uncertainty
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了三个专门为地球观测(EO)机器学习模型不确定性量化(UQ)设计的基准数据集,分别是RegressionUQ、SegmentationUQ和ClassificationUQ。这些数据集分别针对回归、图像分割和场景分类三种常见的EO问题类型。数据集的内容包括高质量的数据源、预处理步骤和标签生成,特别关注如何计算参考不确定性。数据集的创建过程模拟了真实世界中的噪声和不确定性,以确保UQ方法的透明比较。这些数据集的应用领域主要集中在地球观测中的机器学习模型开发和比较,旨在提高模型输出的准确性和可靠性。
This paper presents three benchmark datasets specifically designed for uncertainty quantification (UQ) of Earth Observation (EO) machine learning models, namely RegressionUQ, SegmentationUQ, and ClassificationUQ. These datasets target three prevalent EO problem types: regression, image segmentation, and scene classification. Each dataset includes high-quality data sources, preprocessing workflows, and label generation procedures, with particular focus on the calculation of reference uncertainty. The dataset creation process simulates real-world noise and uncertainty to enable transparent comparison of UQ methods. These datasets are primarily applied to the development and comparison of machine learning models in Earth Observation, with the goal of enhancing the accuracy and reliability of model outputs.
提供机构:
德国联邦教育和研究部
创建时间:
2024-12-09
搜集汇总
数据集介绍

构建方式
该数据集通过模拟和渲染技术构建,针对地球观测(EO)中的不确定性量化(UQ)问题。RegressionUQ数据集通过定义的生物量回归方程生成,模拟了不同输入噪声水平下的生物量预测及其不确定性。SegmentationUQ数据集利用Blender软件渲染高分辨率建筑模型和航空图像,模拟了不同类型的图像噪声和视角变化,从而生成建筑分割标签及其不确定性。ClassificationUQ数据集则通过多位遥感专家对图像进行多次投票,生成每个图像的多标签分布,进而计算标签的不确定性。
使用方法
这些数据集可用于评估和比较不同不确定性量化方法在地球观测任务中的性能。用户可以通过将模型预测的不确定性与数据集提供的参考不确定性进行对比,来评估模型的可靠性。此外,ClassificationUQ数据集的多标签分布可以用于训练新的机器学习模型,以更好地处理标签噪声和不确定性。这些数据集为研究人员提供了一个标准化的基准,用于开发和验证新的不确定性量化算法。
背景与挑战
背景概述
近年来,随着地球观测(EO)数据的广泛应用,不确定性量化(UQ)在评估地球观测产品可靠性方面的重要性日益凸显。然而,机器学习模型在EO中的广泛应用引入了额外的复杂性,因为这些模型本身具有固有的不确定性。尽管存在多种UQ方法,但其在EO数据集上的表现尚未得到充分评估。一个关键的挑战是缺乏不确定性的真实标签,即除了图像/信号的标签外,如何确定不确定性估计的准确性。为此,Yuanyuan Wang等人于2024年提出了三个专门为EO机器学习模型设计的基准数据集,分别针对回归、图像分割和场景分类问题。这些数据集不仅提供了参考标签,还提供了参考不确定性,使得不同UQ方法的透明比较成为可能。该研究由德国联邦教育和研究部资助,并得到了高斯超级计算中心的支持。
当前挑战
构建这些数据集面临的主要挑战包括:首先,缺乏用于不确定性量化的基准数据集,尤其是在EO领域,现有的数据集大多没有提供不确定性标签。其次,创建高质量的EO数据集本身就是一个劳动密集型过程,而引入不确定性标签进一步增加了复杂性和工作量。此外,如何准确计算和模拟输入数据的不确定性,并将其传播到模型的输出中,也是一个技术难题。最后,由于机器学习模型的固有不确定性(如模型结构的不确定性和训练数据的不确定性),如何区分和量化这些不确定性也是一个重要的挑战。
常用场景
经典使用场景
RegressionUQ、SegmentationUQ和ClassificationUQ数据集主要用于评估地球观测(EO)领域中机器学习模型的预测不确定性。这些数据集分别针对回归、图像分割和场景分类任务,提供了基准测试所需的参考不确定性标签。例如,RegressionUQ数据集通过模拟树木生物量的回归任务,提供了输入数据噪声水平下的预测不确定性;SegmentationUQ数据集通过模拟建筑物分割任务,提供了不同噪声条件下的分割不确定性;ClassificationUQ数据集则通过多专家投票的方式,提供了场景分类任务中的标签不确定性。这些数据集为研究人员提供了透明且可比较的基准,用于评估不同不确定性量化(UQ)方法的性能。
解决学术问题
这些数据集解决了地球观测领域中长期存在的缺乏不确定性基准的问题。传统上,机器学习模型在地球观测任务中的不确定性量化(UQ)方法缺乏系统的评估,尤其是在回归、分割和分类任务中。通过提供精确的参考不确定性,这些数据集使得研究人员能够系统地比较不同UQ方法的性能,从而推动更可靠的地球观测产品开发。此外,这些数据集还为模型开发和比较提供了宝贵的资源,有助于提高机器学习模型在地球观测中的可信度和鲁棒性。
实际应用
这些数据集在实际应用中具有广泛的应用前景。例如,RegressionUQ数据集可用于森林管理中树木生物量的精确估算,帮助监测碳循环和森林健康;SegmentationUQ数据集可用于城市规划中的建筑物分割,支持灾害评估和城市扩展分析;ClassificationUQ数据集则可用于土地覆盖分类,支持城市规划和气候变化研究。通过提供不确定性信息,这些数据集能够帮助决策者更好地理解模型的预测结果,从而在资源管理、环境保护和灾害应对等领域做出更明智的决策。
数据集最近研究
最新研究方向
近年来,不确定性量化(UQ)在地球观测(EO)领域的机器学习模型中变得尤为重要,尤其是在回归、图像分割和场景分类等任务中。RegressionUQ、SegmentationUQ和ClassificationUQ这三个数据集的引入,填补了EO领域中缺乏不确定性基准数据集的空白。这些数据集不仅提供了传统的标签信息,还提供了预测的不确定性参考值,使得研究人员能够更透明地比较不同UQ方法的性能。通过模拟输入噪声并将其传播到模型输出,这些数据集为评估机器学习模型在不同噪声水平下的不确定性提供了可靠的基准。此外,这些数据集的开发还推动了UQ方法在EO领域的广泛应用,特别是在气候预测、城市规划和生态监测等关键领域,进一步提升了模型的可靠性和预测精度。
相关研究论文
- 1How Certain are Uncertainty Estimates? Three Novel Earth Observation Datasets for Benchmarking Uncertainty Quantification in Machine Learning德国联邦教育和研究部 · 2024年
以上内容由遇见数据集搜集并总结生成



