sraimund/MapPool
收藏Hugging Face2024-09-02 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/sraimund/MapPool
下载链接
链接失效反馈官方服务:
资源简介:
MapPool是一个包含7500万张地图和文本描述的数据集,源自CommonPool数据集,该数据集包含来自互联网的120亿个文本-图像对。图像通过视觉变压器编码,并通过支持向量机分类为地图和非地图。该方法优于之前的模型,验证准确率达到98.5%。MapPool数据集可能有助于训练数据密集型架构,以建立专门用于地图的视觉和语言基础模型。数据集的分析和嵌入空间的探索为未来的工作提供了巨大的潜力。
MapPool是一个包含7500万张地图和文本描述的数据集,源自CommonPool数据集,该数据集包含来自互联网的120亿个文本-图像对。图像通过视觉变压器编码,并通过支持向量机分类为地图和非地图。该方法优于之前的模型,验证准确率达到98.5%。MapPool数据集可能有助于训练数据密集型架构,以建立专门用于地图的视觉和语言基础模型。数据集的分析和嵌入空间的探索为未来的工作提供了巨大的潜力。
提供机构:
sraimund
原始信息汇总
数据集概述
名称: MapPool
描述: MapPool是一个包含7500万潜在地图及其文本描述的数据集。该数据集从CommonPool数据集中提取,CommonPool包含120亿互联网上的文本-图像对。MapPool数据集通过视觉变换器对图像进行编码,并使用支持向量机将图像分类为地图和非地图,验证准确率达到98.5%。
结构:
| 键 | 含义 |
|---|---|
| uid | 唯一标识符 |
| url | 图像链接 |
| text | 图像的文本描述 |
| original_width / original_height | 图像尺寸 |
| sha256 | 图像的哈希值 |
| l14_img | 图像嵌入(768维) |
| l14_txt | 文本描述嵌入(768维) |
| clip_l14_similarity_score | 图像与文本的相似度分数 |
下载方式:
- 使用Git或HuggingFace API下载。
- 需要约225GB的存储空间。
数据读取:
- 使用pandas库读取parquet文件。
图像下载:
- 使用img2dataset工具下载地图图像。
创建过程:
- 通过分类图像嵌入创建,使用ViT-L/14模型和多种分类器,最终采用支持向量机模型,达到98.5%的准确率。
局限性:
- 实际准确率未知,特别是假阴性率难以估计。
- 文本嵌入未用于分离过程,训练数据集的文本描述可能存在偏差。
未来研究方向:
- 分析MapPool中的地图内容和元数据,可能开发搜索引擎。
- 探索视觉和文本嵌入空间,以改进地图分类器和检测图像重复。
许可证:
- 该数据集遵循Creative Commons Attribution 4.0许可证。
搜集汇总
数据集介绍

构建方式
在数字地图学与人工智能交叉领域,MapPool数据集的构建体现了高效筛选与分类的先进理念。该数据集源自CommonPool这一包含120亿文本-图像对的庞大互联网资源库,通过预训练的视觉变换器对图像进行编码,生成768维的嵌入向量。随后,采用支持向量机模型对嵌入向量进行分类,区分地图与非地图图像,该分类器在验证集上达到了98.5%的准确率。整个构建过程充分利用计算资源,在约50小时内完成了7500万潜在地图的筛选与标注,展现了大规模数据处理的可行性与效率。
特点
MapPool数据集以其规模宏大与结构精细而著称,囊括了7500万条地图及其文本描述,为地图视觉与语言基础模型训练提供了丰富素材。数据集不仅包含图像的原始URL、尺寸及SHA256哈希值,还提供了视觉与文本的嵌入向量,以及两者之间的相似度评分,这些多维信息为深入分析地图内容与语义关联奠定了坚实基础。尽管网络资源动态变化,仍有约4800万原始图像可下载,覆盖了从传统二维地图到三维可视化等多种地图类型,呈现出视觉与主题的多样性。
使用方法
为有效利用MapPool数据集,研究者可通过Git或HuggingFace API下载约225GB的Parquet格式文件,并借助Pandas库进行读取与处理。若需获取原始地图图像,可使用img2dataset工具进行批量下载,建议预留6TB存储空间以保存原始格式,或压缩为128x128像素的缩略图以节省存储。数据集中嵌入的视觉与文本向量可直接用于模型训练或相似性分析,而高相似度评分的样本尤为适合地图生成、跨模态检索等任务,为地理信息科学和人工智能的融合研究提供了便捷且强大的数据支持。
背景与挑战
背景概述
MapPool数据集由Raimund Schnürer于2024年创建,旨在构建一个专用于地图分析的极大规模多模态语料库。该数据集源自CommonPool的120亿个文本-图像对,通过视觉变换器编码并结合支持向量机分类,筛选出7500万个潜在地图及其文本描述,验证准确率达98.5%。其核心研究问题聚焦于为地图视觉与语言基础模型提供数据密集型训练资源,推动制图学与人工智能的交叉领域发展,对地理信息科学、计算机视觉及自然语言处理等领域具有重要影响力。
当前挑战
MapPool数据集面临的挑战主要体现在两个方面:其一,在领域问题层面,地图识别任务需应对视觉多样性(如三维地图、手绘草图)与文本描述偏差的复杂性,同时需解决混合图像(如印有地图的实物)的精确分类难题;其二,在构建过程中,从海量互联网数据中高效筛选地图面临计算资源与时间消耗的巨大压力,且原始图像的可获取性随时间推移显著下降,约三分之一链接已失效,这为数据完整性与实用性带来了持续挑战。
常用场景
经典使用场景
在数字地图学与地理信息科学领域,MapPool数据集以其7500万幅地图与文本标注的庞大规模,为训练数据密集型视觉-语言基础模型提供了核心资源。该数据集通过视觉Transformer编码与支持向量机分类技术,实现了高达98.5%的验证准确率,使其成为构建专业化地图理解模型的首选基准。研究者常利用其丰富的图文对嵌入特征,探索地图语义表征与跨模态对齐机制,为自动化地图生成与解析奠定坚实基础。
实际应用
在实际应用层面,MapPool为智能地图服务系统提供了强大的数据支撑。基于其海量地图-文本对,可开发自动化地图标注工具、增强现实导航界面以及个性化旅游规划平台。此外,该数据集能够优化地理信息系统中的图像检索效率,辅助城市规划、环境监测等领域的决策分析。其嵌入特征还可用于构建地图内容搜索引擎,提升公众地理信息获取的便捷性与准确性。
衍生相关工作
围绕MapPool数据集,已衍生出多项经典研究工作。例如,基于其嵌入空间的分析推动了地图去重算法与细粒度分类模型的演进;结合生成式人工智能技术,研究者开发出从文本描述生成地图的端到端框架。此外,该数据集启发了对混合型地图(如印刷于物品表面的地图)的识别研究,并促进了跨模态预训练模型在地理领域的专业化适配,为后续大规模地图知识图谱构建提供了关键跳板。
以上内容由遇见数据集搜集并总结生成



