MCD Dataset
收藏arXiv2026-01-05 更新2026-01-07 收录
下载链接:
https://github.com/Lyra-alpha/MCD-Net
下载链接
链接失效反馈官方服务:
资源简介:
MCD数据集是由诺丁汉大学宁波分校团队构建的首个大规模纯光学冰碛物分割数据集,包含3,340张来自中国四川和云南冰川区的高分辨率Google Earth图像(1024×1024像素,0.5-2.0米/像素)。数据集涵盖海拔2800-5200米多种冰碛类型(谷地冰碛、山麓沉积等),通过三名地貌学家采用多数表决制完成像素级标注,最终合并冰碛脊与冰碛体形成二分类任务。该数据集旨在解决传统冰碛测绘依赖DEM数据、样本量不足的问题,为高海拔冰川监测提供可部署的基准数据,推动基于深度学习的冰川地貌自动化分析研究。
The MCD dataset is the first large-scale purely optical moraine segmentation dataset constructed by the team from the University of Nottingham Ningbo China. It contains 3,340 high-resolution Google Earth images (1024×1024 pixels, 0.5–2.0 m/pixel) acquired from glacial regions in Sichuan and Yunnan Provinces, China. The dataset covers diverse moraine types (e.g., valley moraines, piedmont deposits) at elevations ranging from 2800 to 5200 meters. Pixel-level annotations were completed by three geomorphologists via majority voting, and moraine ridges and moraine bodies were finally merged to form a binary classification task. This dataset aims to address the limitations of traditional moraine mapping, including its reliance on DEM data and insufficient sample size, providing deployable benchmark data for high-altitude glacier monitoring and promoting research on deep learning-based automated analysis of glacial landforms.
提供机构:
诺丁汉大学宁波分校·计算机科学学院; 诺丁汉大学宁波分校·地理科学学院; 诺丁汉大学宁波分校卓越灯塔研究与创新研究院; 诺丁汉大学宁波分校·电气与电子工程系
创建时间:
2026-01-05
原始信息汇总
MCD-Net数据集概述
数据集基本信息
- 数据集名称:MCD Dataset
- 数据内容:包含3,340个高分辨率图像-掩码对,用于冰碛物分割。
- 图像规格:图像尺寸为1024×1024像素,空间分辨率为0.5-2.0米。
- 标注类别:采用二元分割,类别为背景与冰碛体。
- 数据来源地区:中国四川省与云南省。
数据集划分
- 训练集:2,630张图像。
- 测试集:293张图像。
数据获取与使用
- 下载地址:https://doi.org/10.5281/zenodo.18074779
- 使用说明:数据集需配合提供的代码库使用,包含数据准备、训练与预测步骤。
搜集汇总
数据集介绍

构建方式
在冰川地貌学领域,自动化冰碛物测绘长期受限于高分辨率数字高程模型的稀缺性与光学影像的弱对比度。MCD数据集的构建旨在填补这一空白,其采集过程系统性地覆盖了中国四川与云南的冰川区域。研究团队从Google Earth Pro平台获取了2020年至2025年间的高分辨率影像,空间分辨率介于0.5至2.0米/像素,最终整合了3340张经过人工标注的1024×1024像素图像。标注工作由三位训练有素的地貌学家独立完成,通过多数投票机制解决分歧,并将初始的冰碛脊类别合并至冰碛体类别,从而形成一个二值分割任务。数据集按9:1的比例随机划分为训练集与测试集,确保了地理分布的多样性。
特点
该数据集作为首个大规模纯光学冰碛分割数据集,展现出多方面的显著特征。其规模远超以往研究,提供了3340个高质量图像-掩码对,极大增强了模型的训练鲁棒性与评估可靠性。影像覆盖了贡嘎、雀儿、玉龙及梅里等多个山系,海拔跨度从2800米至5200米,囊括了冰斗、山谷及山前沉积等多种冰碛类型,并在不同光照与地形条件下呈现丰富的形态变化。数据集中存在极端的类别不平衡,背景像素占比约90%,冰碛体仅占9.8%,且冰碛体自身的像素覆盖范围呈现长尾分布,从数百像素到数十万像素不等,这对模型的多尺度目标处理能力提出了较高要求。
使用方法
MCD数据集为冰碛地貌的自动化分割研究提供了一个可复现的基准平台。使用者可依据公开的划分方案,直接加载训练集与测试集进行模型开发与评估。在预处理阶段,建议将像素值归一化至[0, 1]区间,并转换为通道优先的张量格式以适应PyTorch等深度学习框架。为应对类别不平衡问题,在训练过程中可采用类别加权损失函数,并推荐以平均交并比(mIoU)和Dice系数作为核心评估指标,辅以精确率、召回率及像素精度进行综合性能分析。该数据集支持对轻量化模型架构的探索,例如集成MobileNetV2编码器与注意力机制的模型,旨在实现高效且可部署的冰碛测绘解决方案。
背景与挑战
背景概述
冰川地貌作为地球气候历史的珍贵档案,其形态特征为古气候重建、冰川动力学及相关灾害评估提供了关键依据。其中,冰碛垄作为古冰川范围的重要标志物,其空间分布与形态解析对理解过去气候变率及冰-气候相互作用至关重要。传统冰碛地貌制图主要依赖野外调查与人工影像解译,该方法虽具价值,但耗时费力、主观性强且难以规模化,尤其在偏远高海拔地区更为突出。为应对这一挑战,2021年由宁波诺丁汉大学计算机科学与地理科学学者联合构建了MCD数据集,作为首个大规模纯光学冰碛分割数据集,包含3340张来自中国四川与云南冰川区的高分辨率谷歌地球影像及精细标注。该数据集旨在推动自动化冰碛制图研究,解决以往依赖数字高程模型或多源数据融合导致的可用性与可复现性局限,为轻量化深度学习模型提供基准测试平台,促进高海拔冰川地貌监测的可部署化发展。
当前挑战
MCD数据集致力于解决冰碛地貌自动化分割这一核心领域问题,其面临的首要挑战在于冰碛体在光学影像中视觉对比度微弱、形态破碎且常受植被覆盖与阴影干扰,导致特征提取困难。此外,冰碛脊线常呈现亚像素宽度,在现有影像分辨率下难以精确标注与识别,迫使数据构建时将脊线类别合并入冰碛体,限制了细粒度形态分析。在数据集构建过程中,标注一致性成为显著难题,不同解译人员对冰碛边界的判定存在约±2像素的歧义,尤其在地形复杂、光照不均区域更为突出。同时,数据集呈现极端的类别不平衡,背景像素占比约90%,而冰碛体仅占9.8%,加之冰碛尺寸分布呈现长尾特性,从数百像素至数十万像素不等,要求模型具备处理多尺度目标与不平衡数据的能力。这些挑战共同制约了纯光学方法在冰碛地貌精细解译中的精度与鲁棒性。
常用场景
经典使用场景
在冰川地貌学领域,MCD数据集作为首个大规模纯光学冰碛物分割数据集,其经典应用场景在于为深度学习模型提供标准化的训练与评估基准。该数据集包含来自中国四川与云南冰川区的3340幅高分辨率图像,覆盖了多样化的冰碛体类型与复杂地形条件,使得研究者能够系统性地开发和验证针对冰碛地貌的自动分割算法。通过提供像素级标注,该数据集有效支撑了从端到端的语义分割到细粒度地貌特征提取等一系列计算任务,成为冰碛物识别领域不可或缺的基础资源。
实际应用
在实际应用中,MCD数据集及其基准模型MCD-Net为高海拔冰川区的环境监测与灾害评估提供了可行工具。基于轻量化的MobileNetV2架构与注意力机制,该模型能够在计算资源受限的条件下实现高效的冰碛体分割,适用于无人机遥感或卫星影像的实时处理。这种能力对于冰川湖溃决洪水风险评估、冰碛地貌演化追踪以及区域冰川编目具有重要价值,尤其在地形陡峭、数据获取困难的偏远山区,为自动化、低成本的地貌监测开辟了新的技术途径。
衍生相关工作
MCD数据集的发布催生了一系列围绕冰碛地貌自动识别的衍生研究。以MCD-Net为起点,后续工作探索了更复杂的多尺度架构、域自适应策略以及多模态数据融合方法,以应对光照变异、植被覆盖等挑战。同时,该数据集也为比较不同注意力机制、骨干网络在冰川地貌分割中的效能提供了标准平台,促进了轻量化模型在遥感地学分析中的广泛应用。这些衍生工作不仅深化了对冰碛形态自动提取的理解,也为整个冰冻圈地貌的深度学习研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



