Hameln
收藏arXiv2025-01-03 更新2025-01-07 收录
下载链接:
http://arxiv.org/abs/2501.01845v1
下载链接
链接失效反馈官方服务:
资源简介:
Hameln数据集由汉诺威莱布尼茨大学的研究团队创建,旨在支持历史地图的语义分割研究。该数据集包含1897年至2017年间的德国哈默尔恩地区的历史地图,涵盖了四个地图补丁(3821、3822、3921和3922),每个补丁的分辨率为1米。数据集通过扫描和地理校正处理,手动标注了五个语义类别:林地、草地、定居点、流动水和静水。数据集的应用领域包括历史地图的数字化和土地利用变化分析,旨在通过深度学习模型自动提取历史地图中的地理信息,减少人工标注的工作量。
The Hameln Dataset was developed by a research team from Leibniz University Hannover to support semantic segmentation research on historical maps. This dataset contains historical maps of the Hameln region in Germany spanning from 1897 to 2017, covering four map tiles (3821, 3822, 3921 and 3922), each with a resolution of 1 meter. Processed through scanning and georeferencing, the dataset has been manually annotated with five semantic categories: woodland, grassland, settlements, running water, and standing water. The dataset is applicable to historical map digitization and land use change analysis, aiming to automatically extract geographic information from historical maps via deep learning models and reduce the workload of manual annotation.
提供机构:
汉诺威莱布尼茨大学
创建时间:
2025-01-03
搜集汇总
数据集介绍

构建方式
Hameln数据集的构建基于德国下萨克森州测绘局(LGLN)提供的原始地图。这些地图经过扫描、色彩校正和手动地理配准,使用四个角点和地图中心点进行投影变换,最终统一投影到UTM坐标系(EPSG 25832)中,分辨率为每像素一米。数据集涵盖了1897年至2017年的历史地图,分为四个区域(3821、3822、3921、3922),其中3922区域用于评估,其余区域用于训练。每个地图的语义标签(如林地、草地、定居点等)通过手动标注生成,为深度学习模型的训练提供了基础。
特点
Hameln数据集的主要特点在于其时间跨度和多样性。它涵盖了从1897年到2017年的历史地图,反映了德国哈默尔恩地区在不同时期的土地利用变化。地图的复杂性体现在其多样的制图风格和随时间变化的土地覆盖模式上。此外,地图中可能存在的老化痕迹(如污渍、褪色等)以及扫描过程中引入的失真,进一步增加了数据集的挑战性。这些特点使得Hameln数据集成为研究历史地图语义分割的理想选择,尤其适用于探索时间一致性对模型性能的影响。
使用方法
Hameln数据集的使用方法围绕基于深度学习的语义分割任务展开。首先,模型在特定年份(锚点年份)的地图上进行预训练,利用手动标注的标签进行监督学习。随后,通过年龄追踪策略,模型逐步扩展到相邻年份的地图,利用前一步生成的伪标签进行微调。这一过程通过双向或单向追踪实现,具体取决于可用的标签数据。在评估阶段,模型在保留的测试集上进行性能测试,主要使用交并比(IoU)和整体准确率(OA)作为评价指标。通过这种渐进式学习方法,模型能够从单一标注年份扩展到整个时间范围,显著提升了历史地图的语义分割效果。
背景与挑战
背景概述
Hameln数据集由德国汉诺威莱布尼茨大学的研究团队于2025年创建,旨在通过深度学习技术对历史地图进行语义分割。该数据集涵盖了德国哈默尔恩地区从1897年至2017年的历史地图,包含五个语义类别:林地、草地、居民区、流动水和静水。这些地图最初以纸质或扫描数字形式存在,难以直接用于现代计算机分析。通过语义分割技术,研究人员能够将地图中的每个像素赋予语义标签,从而实现对历史地理信息的自动化提取与分析。该数据集的创建为历史地图的数字化处理提供了新的解决方案,推动了时空分析领域的发展。
当前挑战
Hameln数据集在构建和应用过程中面临多重挑战。首先,历史地图的复杂性和多样性使得语义分割任务极具挑战性。地图的制图风格随时间变化,且存在老化、污渍、褪色等物理损伤,这些因素增加了模型训练的难度。其次,由于缺乏足够的地面真实标注数据,研究人员提出了基于弱监督的年龄追踪策略,利用相邻时间段地图的相似性生成伪标签进行模型微调。然而,伪标签的生成依赖于模型预测的准确性,不确定性较高,可能导致误差累积。此外,数据集中的类别不平衡问题,尤其是流动水和静水的区分,进一步增加了模型训练的复杂性。这些挑战要求研究人员在模型设计、数据增强和不确定性管理等方面进行深入探索。
常用场景
经典使用场景
Hameln数据集主要用于历史地图的语义分割研究,特别是在处理不同时期地图的自动数字化任务中表现出色。该数据集通过深度学习模型,能够对历史地图中的每个像素进行语义标注,从而提取出如林地、草地、居民区、流动水域和静水域等地理特征。这一过程不仅提高了地图数字化的效率,还为后续的时空分析提供了高质量的数据支持。
实际应用
在实际应用中,Hameln数据集为城市发展、土地利用变化以及水文地貌演变等研究提供了重要支持。通过自动化的语义分割,研究人员能够快速提取历史地图中的关键地理信息,进而分析不同时期的土地利用模式和城市扩张趋势。这些数据对于城市规划、环境保护和历史研究具有重要的参考价值。
衍生相关工作
Hameln数据集的提出催生了一系列相关研究工作,特别是在历史地图的语义分割和弱监督学习领域。例如,基于该数据集的研究进一步探索了如何利用时空一致性提升模型的泛化能力,以及如何通过不确定性估计优化伪标签的生成。这些工作不仅推动了历史地图数字化的技术进步,还为其他领域的图像分割任务提供了新的方法论。
以上内容由遇见数据集搜集并总结生成



