SynthMap+

Name: SynthMap+
Creator: 明尼苏达大学双城分校
Published: 2025-06-18 06:41:10
License: 暂无描述

arXiv2025-06-18 更新2025-06-22 收录

下载链接：

https://zenodo.org/records/14480731

下载链接

链接失效反馈

官方服务：

资源简介：

SynthMap+是一个合成数据集，包含多种风格的地图图像，用于训练历史地图上的文本检测器。该数据集遵循制图规则放置各种风格的文本标签，并与从真实历史地图中提取的背景相结合。PaLeTTe与SynthMap+一起在mapKurator系统中部署，处理了David Rumsey Historical Map收藏中的超过60,000张地图，并生成了超过1亿个文本标签，用于支持地图搜索。

SynthMap+ is a synthetic dataset comprising map images with diverse styles, tailored for training text detectors on historical maps. It places text labels of various styles in accordance with cartographic conventions, and integrates backgrounds extracted from authentic historical maps. PaLeTTe and SynthMap+ are jointly deployed in the mapKurator system, which has processed over 60,000 maps from the David Rumsey Historical Map Collection and generated more than 100 million text labels to support map search.

提供机构：

明尼苏达大学双城分校

创建时间：

2025-06-18

原始信息汇总

SynthMap+ (English) Synthetic Train Data for ICDAR25 MapText Competition

基本信息

发布日期: December 14, 2024
版本: v1
许可证: Creative Commons Attribution 4.0 International
DOI: 10.5281/zenodo.14480731
资源类型: Dataset
发布者: Zenodo

创建者

Lin, Yijun (Data curator) - University of Minnesota
Chiang, Yao-Yi (Data curator) - University of Minnesota

描述

用途: 为ICDAR25 Historical Map Text Detection, Recognition, and Linking竞赛提供的英文合成地图图像数据集。
数据格式: 遵循竞赛网站描述的格式。
扩展功能: 提供位置短语的分组标签。

数据集统计

Train
Annotations	`en25synth_train.json`
Images	`train.zip`
Files	`en25synth/train/*.jpg`
Tiles	35,000
Words	348,494
Label Groups	157,483
Label Groups (Group Size > 1)	133,955
Illegible Words	0
Truncated Words	0
Valid Words	348,494

文件详情

文件名	大小	下载链接
`en25synth_train.json`	247.8 MB	Download
`train.zip`	38.6 GB	Download

技术元数据

创建日期: December 16, 2024
修改日期: December 16, 2024

访问统计

统计项	所有版本	当前版本
总浏览量	73	73
总下载量	62	62
数据总量	1.4 TB	1.4 TB

搜集汇总

数据集介绍

构建方式

SynthMap+数据集的构建采用了创新的合成方法，结合了OpenStreetMap的地理特征数据和真实历史地图的背景纹理。首先，通过QGIS标签放置API在空白画布上根据地理特征形状绘制位置名称，生成多样化的文本样式。随后，利用K-means聚类从David Rumsey历史地图集中提取代表性背景区域，构建网格单元以保留局部纹理模式。最终通过文本渲染模块与背景渲染模块的融合，生成具有历史风格的地图图像及对应的文本标注（包括边界点、字符中心坐标和转录内容）。该流程实现了自动化生成大规模多样化训练数据，显著降低了历史地图文本标注的人工成本。

特点

SynthMap+数据集的核心特点体现在三个方面：风格多样性方面，通过模拟不同制图规则生成的文本样式（如沿河流走向的弯曲文本）与多源历史地图背景的融合，覆盖了广泛的制图风格；标注丰富性方面，提供单词级边界多边形、精确字符中心坐标及转录文本，支持端到端文本检测与识别任务的联合训练；真实性方面，采用真实历史地图背景纹理与符合制图学规则的文本布局策略，有效缩小了合成数据与真实场景的域间差距。数据集包含73,657张图像和超过110万条标注，为历史地图文本分析提供了迄今规模最大的合成训练资源。

使用方法

SynthMap+数据集主要服务于历史地图文本识别模型的训练与验证。使用流程包含三个阶段：预训练阶段建议将SynthMap+与通用合成数据集（如SynthText）联合使用，初始化模型对弯曲文本和复杂背景的适应能力；微调阶段可结合少量真实历史地图标注数据（如Grinnell-UMass-31），采用论文提出的迭代训练策略逐步优化字符中心预测；评估阶段推荐在Rumsey-309等专业历史地图基准数据集上测试模型性能，重点关注长文本、大角度旋转文本等挑战性案例。数据集的文本边界标注格式兼容主流检测框架（如MMOCR），字符中心坐标可直接用于PaLeTTe等新型变压器的超局部注意力机制训练。

背景与挑战

背景概述

SynthMap+是由明尼苏达大学的Yijun Lin和Yao-Yi Chiang团队于2025年提出的合成历史地图数据集，旨在解决历史地图文本检测与识别领域的数据稀缺问题。历史地图作为记录地理、政治和文化变迁的重要载体，其文本信息具有极高的研究价值，但由于地图风格的多样性和文本布局的复杂性，传统方法难以实现高效准确的文本提取。SynthMap+通过模拟真实历史地图的文本样式和背景特征，结合OpenStreetMap的地理数据，生成了包含73,657张图像和110万标注的大规模数据集，显著提升了模型在David Rumsey等历史地图集上的文本识别性能，推动了数字人文和地理信息科学的发展。

当前挑战

SynthMap+面临的挑战主要体现在两个层面：领域问题层面，历史地图文本常具有长序列、大角度旋转和复杂背景干扰等特性，传统文本检测方法难以准确定位弯曲排列的字符；数据集构建层面，需平衡合成数据的真实性与多样性，既要模拟不同制图风格（如等高线、河流标注的曲线文本），又要避免生成过于理想化的文本布局。此外，数据标注需精确到字符中心点级别以支持超局部特征学习，这对合成算法的几何建模能力提出了极高要求。

常用场景

经典使用场景

SynthMap+数据集在历史地图文本识别领域具有广泛的应用场景。历史地图中的文本信息往往包含地名、地理特征标签等重要内容，但由于地图风格多样、文本旋转角度大且背景复杂，传统文本识别方法难以有效处理。SynthMap+通过生成具有多样历史风格的合成地图图像，为训练端到端文本识别模型提供了丰富的训练数据。该数据集特别适用于处理长文本、高旋转角度文本以及复杂背景下的文本识别任务。

解决学术问题

SynthMap+数据集解决了历史地图文本识别领域的关键学术问题。首先，它填补了历史地图文本标注数据缺乏的空白，为深度学习模型训练提供了大规模、多样化的合成数据。其次，数据集通过模拟真实历史地图的文本布局和背景风格，有效解决了模型在复杂地图场景下的泛化问题。此外，数据集支持对文本边界点、字符中心等细粒度标注的研究，为端到端文本识别方法提供了更精确的监督信号。

衍生相关工作

SynthMap+数据集催生了一系列相关研究工作。基于该数据集，研究者开发了PaLeTTe模型，创新性地提出了超局部采样模块和位置嵌入方法。此外，该数据集还支持了mapKurator系统的开发，这是一个完整的历史地图文本提取和链接管道。在学术领域，SynthMap+促进了历史地图数字化、地理名称变迁分析等研究方向的发展，并启发了多语言历史地图文本识别等后续研究课题。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集