Google Landmarks Dataset v2

arXiv2020-11-03 更新2024-07-31 收录

下载链接：

https://github.com/cvdfoundation/google-landmark

下载链接

链接失效反馈

官方服务：

资源简介：

Google Landmarks Dataset v2（GLDv2）是一个大规模、细粒度的实例识别和图像检索基准，专注于人造和自然地标。它是迄今为止最大的此类数据集，包含超过500万张图像和20万个不同的实例标签。测试集由11.8万张带有检索和识别任务地面实况注释的图像组成。该数据集的构建涉及超过800小时的人工标注工作，具有极长的尾类分布、大量的域外测试照片和大的类内变异性，这些都是以前的数据集未考虑的。数据集来源于全球最大的地标照片众包收藏Wikimedia Commons。

The Google Landmarks Dataset v2 (GLDv2) is a large-scale, fine-grained instance recognition and image retrieval benchmark, focusing on artificial and natural landmarks. It is the largest dataset of its kind to date, containing over 5 million images and 200,000 distinct instance labels. The test set consists of 118,000 images annotated with ground truth for retrieval and recognition tasks. The construction of this dataset involved over 800 hours of manual annotation work, featuring an extremely long tail class distribution, a large number of out-of-domain test photographs, and significant intra-class variability, aspects that were previously unaddressed in datasets.

创建时间：

2020-04-04

原始信息汇总

Google Landmarks Dataset v2 (GLDv2) 数据集概述

数据集基本信息

名称: Google Landmarks Dataset v2 (GLDv2)
版本: 2.1
数据量: 约500万张图像
用途: 地标识别与检索实验
数据集网页: https://storage.googleapis.com/gld-v2/web/index.html

数据集组成

数据集分为三个部分：

训练集 (train): 4,132,914张图像
索引集 (index): 761,757张图像
测试集 (test): 117,577张图像

数据集下载

数据集许可证

注释: CC BY 4.0许可证
图像: 根据来源不同可能有不同许可证

发布历史

2023年5月 (版本2.1): 添加了地标的层次标签
2019年9月 (版本2.1): 发布了测试集和索引集的地面实况和标签映射
2019年5月 (版本2.0): 包含测试集和索引集数据
2019年4月 (版本2.0): 初始版本，仅包含训练集

联系方式

如有任何问题/建议/评论/更正，请在此GitHub仓库中提出问题并标记@andrefaraujo。

搜集汇总

数据集介绍

构建方式

Google Landmarks Dataset v2的构建依托于Wikimedia Commons这一全球最大的众包地标照片库，并辅以Google知识图谱进行地标类别的系统挖掘。研究团队通过知识图谱查询获取地标实体，进而关联至维基百科与维基共享资源的分类页面，最终下载每个类别下的图片，并确保每张图片仅对应单一类别标签以避免歧义。训练集与索引集均由此流程产出，但依据图片许可证类型进行划分：采用CC0与公共领域许可的图片归入索引集，而具有CC-BY许可的图片则纳入训练集。查询集的构建则更为精细，包含由众包操作员实地拍摄的正向地标查询图像，以及通过非地标关键词从知识图谱中采集的负向非地标图像，并剔除了与索引集或训练集存在近重复的样本。为弥补初始标注的不足，研究团队利用挑战赛中顶尖模型的预测结果作为候选标签，通过人工标注工具进行二次标注，每张图片由三名标注员独立判断并以多数投票决定最终标签，累计投入超过800小时的人力，显著提升了标注的完备性。

特点

该数据集在规模与挑战性上均达到前所未有的高度，包含超过500万张图片与20万个独立地标类别，是目前最大的实例级识别与检索基准。其类别分布呈现出极度的长尾特性，超过半数的类别仅有不到10张图片，这迫使算法必须应对极端类别不平衡的现实难题。查询集的设计更是匠心独运，仅有1.1%的图片属于地标目标域，其余98.9%均为非地标图片，精准模拟了实际应用中大量无关查询的挑战，对算法的鲁棒性与低误报率提出了严苛要求。此外，数据集内同类地标的视觉变化极为丰富，涵盖不同视角、光照条件、室内外场景乃至相关但非直接展示地标的图片（如建筑图纸、历史照片），极大考验模型对类内多样性的建模能力。所有图片均采用自由许可协议，确保数据集可永久保留与复现，为长期稳定的基准比较提供了坚实基础。

使用方法

该数据集支持实例识别与图像检索两大核心任务，并提供了明确的评估协议与指标。对于识别任务，采用微平均精度（µAP）作为评价标准，要求模型对每张查询图片给出一个预测标签，并按置信度排序后计算全局平均精度，该指标同时惩罚对非地标查询的错误预测。检索任务则使用截断的平均精度均值（mAP@100），仅考虑排名前100的检索结果，更贴近实际应用场景。研究者可利用提供的4.1百万张训练图片（含203k类别）进行模型训练，也可选用经清洗后的精简版训练集（1.6百万张，81k类别）以提升训练效率。官方提供了基于ResNet-101与ArcFace损失的基线模型，并公开了挑战赛中顶尖团队的复杂方案（如全局特征集成、局部特征重排序、查询扩展等）作为性能参考。数据集已划分出验证集与测试集，鼓励研究者在验证集上调优后仅在测试集上报告最终结果，以避免过拟合。所有图像、标注及评估代码均可在指定仓库获取，便于复现与公平比较。

背景与挑战

背景概述

在图像检索与实例识别领域，技术的快速演进亟需更具挑战性的基准数据集以准确评估算法性能。2019年，Google Research团队由Tobias Weyand、André Araujo等核心研究人员主导，发布了Google Landmarks Dataset v2（GLDv2），旨在模拟真实世界应用中实例级识别与检索的复杂场景。该数据集从Wikimedia Commons众包平台采集，涵盖超过500万张图像与20万个地标类别，规模远超此前同类数据集，成为该领域迄今最大的基准。其核心研究问题聚焦于大规模细粒度地标识别与检索，测试集包含11.8万张经过800多小时人工标注的图像，并引入极长尾类别分布、高类内变异及大量域外查询图像等挑战性特性。GLDv2的发布不仅推动了实例级识别与检索技术的进步，还通过Kaggle竞赛促进了学界与工业界的协作，显著提升了相关领域的基准水平。

当前挑战

GLDv2所面临的挑战深刻而多元。首先，在领域问题层面，该数据集旨在解决大规模实例级识别与检索的难题，其中极长尾的类别分布（57%的类别图像数不足10张）要求算法具备处理极端类别不平衡的能力；同时，测试集中98.9%的域外查询图像（如动物、产品等非地标图像）迫使系统必须维持极低的误检率，这对鲁棒性提出了严苛考验。其次，在构建过程中，数据收集面临巨大挑战：从Wikimedia Commons挖掘地标图像需依赖Google知识图谱与精细分类体系，以确保标签的准确性与唯一性；而人工标注环节因涉及20万类别，传统众包方式难以实施，研究者不得不采用模型预测辅助再标注的策略，通过多模型投票与800余小时人工审核来修正缺失标注。此外，类内变异极大（如同一地标包含室内外视图、历史照片乃至绘画作品），进一步加剧了特征学习与匹配的难度。

常用场景

经典使用场景

在计算机视觉领域，图像检索与实例识别一直是备受关注的核心课题。Google Landmarks Dataset v2（GLDv2）作为迄今为止规模最大的地标级基准数据集，涵盖超过500万张图像和20万个细粒度实例标签，为大规模、高细粒度的实例识别与图像检索研究提供了极具挑战性的测试平台。其经典使用场景聚焦于地标图像的精确检索与识别任务：研究人员利用该数据集训练和评估深度学习模型，以从海量图像库中精准定位查询图像所对应的特定地标实例，并衡量模型在极长尾类别分布、巨大类内差异以及大量域外干扰图像等现实复杂条件下的鲁棒性能。

实际应用

在实际应用层面，GLDv2所模拟的场景与工业级视觉搜索系统高度契合。该数据集被广泛应用于旅游导览、数字博物馆、社交图片标注等产品中，例如用户拍摄一张建筑物局部照片，系统即可快速匹配其所属的地标并返回相关信息。此外，由于GLDv2采用自由许可的维基共享资源图像，其训练出的嵌入模型可无缝迁移至其他细粒度识别任务，如艺术品、商标或商品识别。Kaggle上基于该数据集举办的公开竞赛吸引了全球数千支团队参与，优胜方案中的多模型集成、数据库侧增强、查询扩展等技术已被直接部署于真实搜索引擎中，大幅提升了用户体验与检索精度。

衍生相关工作

GLDv2的发布催生了大量具有影响力的衍生工作。在方法层面，研究者基于该数据集提出了DELG（统一全局与局部特征）、Detect-to-Retrieve（检测引导的区域聚合）等经典框架，显著提升了大规模检索的精度与效率。在理论层面，ArcFace、CosFace等度量学习损失函数在该数据集上得到深入验证，推动了特征嵌入空间的优化。此外，GLDv2还促进了重标注流程的标准化——通过人工校对与模型预测联合迭代，构建了更完备的测试集标注，这一半自动标注范式被后续多个数据集采纳。这些工作共同构成了实例级识别领域从数据构建到算法评估的完整生态链。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

Google Landmarks Dataset v2

Google Landmarks Dataset v2 (GLDv2) 数据集概述

数据集基本信息

数据集组成

数据集下载

训练集 (train)

索引集 (index)

测试集 (test)

数据集许可证

相关论文

发布历史

联系方式