MiniFrance
收藏arXiv2020-10-15 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2010.07830v1
下载链接
链接失效反馈官方服务:
资源简介:
MiniFrance是一个专为地球观测中的半监督语义分割设计的大型数据集,由法国国家地理和林业信息研究所创建。该数据集包含超过2000张极高分辨率航空图像,总计超过2000亿像素,覆盖法国16个都市区,涵盖多种气候和景观,包括城市和乡村场景。MiniFrance特别之处在于它是为半监督学习设计的,训练集中包含标记和未标记的图像,模拟真实场景。数据集旨在推动半监督学习方法的研究,并为新算法提供可靠的基准。
MiniFrance is a large-scale dataset specifically designed for semi-supervised semantic segmentation in Earth Observation, created by the Institut National de l'Information Géographique et Forestière (IGN). It contains over 2000 ultra-high-resolution aerial images, totaling more than 200 billion pixels, covering 16 metropolitan areas across France, and spanning diverse climates and landscapes including both urban and rural scenes. A notable feature of MiniFrance is its tailored design for semi-supervised learning: its training set includes both labeled and unlabeled images to simulate real-world scenarios. This dataset aims to advance research on semi-supervised learning methods and provide a reliable benchmark for novel algorithms.
提供机构:
法国国家地理和林业信息研究所
创建时间:
2020-10-15
搜集汇总
数据集介绍

构建方式
在地球观测领域,数据集的构建往往受限于有限的标注资源和场景多样性。MiniFrance数据集通过整合法国国家地理与森林信息研究所(IGN)的BD ORTHO数据库中的高分辨率航空影像(分辨率50厘米/像素,尺寸为10,000×10,000像素)以及欧洲哥白尼计划UrbanAtlas 2012数据库的土地利用矢量标注,构建了一个大规模半监督语义分割基准。数据覆盖法国16个城市群及其周边区域,包含城市与乡村场景,总计2,121张图像,地面覆盖面积达53,000平方公里。标注过程通过地理配准将矢量多边形转换为与影像匹配的栅格标签,涵盖14个具有高语义层次的土地利用类别,如城市建筑、工业区和农业用地等。训练集特意设计为包含标注图像与未标注图像的混合,以模拟真实应用场景中标注稀缺的情况。
特点
MiniFrance数据集展现出多项突出特点,其规模宏大,包含超过2000张超高分辨率航空影像,像素总量逾2000亿,地面覆盖范围远超同类数据集。多样性显著,囊括法国不同气候带与地貌的16个城市群,融合了城市中心、乡村地带及广阔森林场景,确保了类别的视觉表现具有丰富变异。语义层次较高,所采用的14个土地利用类别需依据场景上下文进行推断,例如区分牧场与人工非农业植被区域,这对算法理解能力提出了严峻挑战。尤为独特的是,该数据集专为半监督学习设计,训练分区包含标注与未标注图像,有效促进了利用未标注数据提升模型泛化能力的研究。
使用方法
使用MiniFrance数据集时,研究者可依据其设计的训练-测试划分开展实验:训练集包含标注图像(如尼斯、南特地区)和未标注图像(如勒芒、布雷斯特地区),测试集则覆盖其余城市群。该数据集适用于开发和评估半监督语义分割算法,特别是那些能够利用未标注数据增强模型性能的多任务学习架构。典型方法包括构建共享编码器的双分支网络(如BerundaNet),其中监督分支处理标注数据的语义分割损失,无监督分支则通过重构或聚类等辅助任务利用未标注数据。数据预处理时,常将原始大尺寸图像裁剪为较小块(如512×512像素)以适配模型输入,并可采用数据增强技术提升鲁棒性。评估指标通常包括整体精度和平均交并比,以衡量模型在复杂多场景下的分割效果。
背景与挑战
背景概述
MiniFrance数据集由法国国家航空航天研究局(ONERA)与欧洲空间局(ESA)等机构的研究团队于2020年联合推出,旨在推动地球观测领域半监督语义分割技术的发展。该数据集覆盖法国16个城市群,包含超过2000张超高分辨率航空影像,总计逾2000亿像素样本,其核心研究问题在于解决遥感影像中土地覆盖与土地利用的高语义级别分类难题。通过整合标注与未标注数据,MiniFrance模拟了真实场景中标注稀缺而原始数据丰富的应用环境,为半监督学习算法提供了首个大规模基准测试平台,显著提升了模型在复杂地理景观中的泛化能力,对城市规划、生态监测及气候变化应对等领域具有深远影响。
当前挑战
MiniFrance数据集所针对的土地利用语义分割任务面临多重挑战:高语义级别类别(如“城市建成区”与“工业用地”)的精细区分需模型具备强大的上下文理解能力;不同区域间因气候、建筑风格及植被类型差异导致的类内外观变异,加剧了域适应问题的复杂性。在数据构建过程中,研究团队需克服多源数据对齐的困难,包括将法国国家地理与森林信息研究所(IGN)的航空影像与哥白尼城市地图集(UrbanAtlas)的土地利用矢量数据进行地理配准,同时处理二者在采集年份与分辨率上的不匹配问题。此外,确保训练集在类别分布与视觉特征覆盖上的代表性,以支持半监督学习的有效性,亦是构建过程中的关键挑战。
常用场景
经典使用场景
在遥感影像分析领域,MiniFrance数据集作为首个专为半监督语义分割设计的大规模基准,其经典应用场景集中于土地覆盖与土地利用的高精度制图。该数据集通过整合法国16个城市群的高分辨率航空影像,覆盖了从城市建成区到乡村田野的多样化景观,为模型提供了丰富的视觉特征和地理变异性。研究人员利用其标注与未标注数据并存的训练分区,能够模拟真实世界中标注稀缺而原始数据充沛的典型环境,从而推动半监督学习算法在复杂地表分类任务中的性能提升与泛化能力验证。
衍生相关工作
围绕MiniFrance数据集,已衍生出多项经典的半监督学习架构与算法研究。例如,研究者提出了BerundaNet系列多任务网络,通过共享编码器并分离监督与无监督解码头,有效融合标注与未标注信息;同时,W-Net等堆叠式网络结构也被引入,以序列化方式整合语义分割与重建任务。在损失函数方面,松弛K均值损失和Mumford-Shah损失等无监督目标被创新性地应用于遥感图像分割,增强了模型对未标注数据的特征提取能力。这些工作不仅为MiniFrance建立了基础性能基准,也推动了半监督学习在地球观测领域的理论进展与方法革新。
数据集最近研究
最新研究方向
在遥感影像分析领域,MiniFrance数据集作为首个专为半监督语义分割设计的大规模基准,正推动地球观测技术向更高效、更通用的方向发展。该数据集通过整合标注与未标注的极高分辨率航空影像,精准模拟了实际应用中数据标注稀缺而原始数据丰富的现实场景,为半监督学习算法提供了前所未有的验证平台。当前研究聚焦于多任务学习框架下的深度神经网络架构创新,如BerundaNet及其变体,旨在利用未标注数据增强模型对复杂地物类别的泛化能力。这些探索不仅提升了土地覆盖与土地利用制图的精度,也为应对气候变化、城市可持续发展等全球性挑战提供了关键技术支撑,标志着遥感智能解译从完全依赖人工标注向数据驱动范式转变的重要里程碑。
相关研究论文
- 1Semi-Supervised Semantic Segmentation in Earth Observation: The MiniFrance Suite, Dataset Analysis and Multi-task Network Study法国国家地理和林业信息研究所 · 2020年
以上内容由遇见数据集搜集并总结生成



