新地标识别数据集

Name: 新地标识别数据集
Creator: 谷歌研究院
Published: 2022-06-06 23:36:36
License: 暂无描述

arXiv2022-06-06 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2108.08874v2

下载链接

链接失效反馈

官方服务：

资源简介：

新地标识别数据集由谷歌研究院创建，旨在提供一个公平的全球地标代表性。该数据集通过结合匿名的谷歌地图用户贡献统计和贡献者的 demographic 信息来估计地标的公平相关性，从而创建了一个比现有数据集更全面和公平的数据集。数据集包含50,000个地标，通过分层抽样方法，考虑了性别、年龄和国家居住地等 demographic 类别，以增加数据集的多样性。该数据集主要用于评估计算机视觉模型，特别是在2021年的谷歌地标识别和检索挑战中，以解决现有数据集可能存在的偏见问题。

The New Landmark Recognition Dataset was created by Google Research to achieve fair and representative global landmark coverage. To develop this dataset, researchers combined anonymized Google Maps user contribution statistics with contributors' demographic information to estimate the fair relevance of each landmark, resulting in a more comprehensive and equitable dataset than existing datasets. The dataset contains 50,000 landmarks, which were selected via stratified sampling that accounts for demographic categories including gender, age, and country of residence, to enhance the dataset's diversity. This dataset is primarily used for evaluating computer vision models, most notably in the 2021 Google Landmark Recognition and Retrieval Challenge, to address potential bias issues present in existing datasets.

提供机构：

谷歌研究院

创建时间：

2021-08-20

搜集汇总

数据集介绍

构建方式

在计算机视觉领域的地标识别研究中，数据集的构建方式直接影响模型的公平性与泛化能力。新地标识别数据集采用了一种创新的分层抽样方法，旨在纠正传统网络爬取数据带来的地理与人口偏差。研究团队首先定义了地标对全球人口的“公平相关性”，这一概念结合了地标的个人实用价值与旅游意义。随后，通过整合谷歌地图的匿名用户贡献统计数据与上传者的人口统计学信息（包括性别、年龄和居住国），构建了地标相关性评分模型。该模型利用分层抽样理论，以全球人口统计数据作为先验分布，对原始贡献数据进行去偏处理，最终为五万个地标生成了相关性分数。基于这些分数，团队从现有的谷歌地标数据集v2中重新采样图像，构建了用于识别与检索任务的评估数据集，确保了数据分布更贴近真实世界的人口构成。

特点

该数据集的核心特点在于其致力于实现全球范围的公平代表性。与以往依赖网络爬虫、易受上传者分布偏差影响的数据集不同，本数据集通过严谨的分层去偏方法，显著提升了欠发达地区地标的覆盖比例。如图1所示，与谷歌地标数据集v2相比，新数据集在各大陆的地标分布比例与全球人口分布更为吻合，尤其改善了非洲、亚洲等地区的代表性。此外，数据集不仅包含地标图像，还附有基于人口统计学计算的相关性分数，为研究地标重要性提供了量化依据。其构建的评估集专门用于谷歌地标识别与检索挑战赛，包含索引集、公开评估集和私有评估集，涵盖了识别与检索两种任务场景，并引入了干扰图像以增加任务难度。

使用方法

该数据集主要作为基准测试集，用于公平评估地标识别与检索模型的性能。研究人员可将模型在数据集提供的索引集上进行训练或特征提取，随后在公开或私有评估集上测试其识别准确率或检索平均精度。数据集的设计支持两种核心计算机视觉任务：地标识别（判断图像所属地标类别）和地标检索（从大型图库中找出包含相同地标的图像）。使用中，模型需处理因公平性采样而带来的类别分布变化，这对模型的泛化能力提出了更高要求。数据集的评估指标包括检索任务的平均精度（mAP@100）和识别任务的平均平均精度（μAP@100）。论文中已使用DELG全局嵌入模型进行了基线测试，其结果可作为后续研究的性能参照。通过该数据集，研究者能够更准确地评估模型在不同地理与文化背景下的表现，推动开发更具包容性的视觉系统。

背景与挑战

背景概述

在计算机视觉领域，地标识别作为一项关键任务，旨在通过图像自动辨识全球范围内的人造或自然标志性建筑。随着深度学习技术的蓬勃发展，大规模数据集的构建成为推动模型性能提升的核心驱动力。然而，传统数据集如Google Landmarks Dataset v2（GLDv2）虽在规模上占据优势，却因依赖网络众包数据而存在显著的地理分布偏差，导致非洲、亚洲等地区的地标代表性严重不足。为应对这一挑战，Google Research团队于2022年正式推出了新地标识别数据集，其创新之处在于首次引入分层抽样策略，结合匿名化的Google Maps用户贡献数据与全球人口统计信息，重新定义地标的公平相关性，从而构建了一个更具全球代表性和均衡性的评估基准。该数据集的问世不仅为地标识别与检索任务提供了更公正的模型测试平台，也推动了计算机视觉领域对数据偏差治理的深入探讨。

当前挑战

新地标识别数据集所针对的核心领域挑战在于解决地标识别任务中因数据偏差导致的模型泛化能力不足问题。传统方法依赖于网络众包图像，但互联网用户分布与全球人口结构存在显著差异，致使模型对欠发达地区的地标识别性能较弱。该数据集通过分层相关性估计，旨在提升模型在全球范围内的公平性与鲁棒性。在构建过程中，研究团队面临多重挑战：首先，如何准确量化地标对于全球人口的公平相关性，需融合多维度人口统计变量（如性别、年龄、居住国）并处理数据隐私问题；其次，网络可及性与用户贡献能力的差异导致部分地区的潜在相关性地标数据匮乏，难以完全覆盖；此外，数据分层方法仍需依赖与人口统计相关的代理变量，未能直接纳入收入水平、旅行能力等隐性偏差因素，限制了偏差修正的彻底性。

常用场景

经典使用场景

在计算机视觉领域，地标识别作为一项核心任务，旨在通过图像自动辨识全球范围内的人造或自然标志性建筑。新地标识别数据集在此背景下应运而生，其最经典的使用场景是作为Google地标识别与检索挑战赛的评估基准。该数据集通过分层抽样方法构建，确保了全球地标在人口分布上的公平代表性，从而为模型训练与性能测试提供了更为均衡的数据环境。研究者利用该数据集评估深度学习模型在地标分类和检索任务中的泛化能力，特别是在处理地理分布偏差时的表现，推动了视觉识别系统向更公正、全面的方向发展。

衍生相关工作

新地标识别数据集的推出催生了一系列围绕公平性视觉识别的经典研究工作。例如，基于该数据集的评估框架被广泛应用于改进地标检索算法，如DELG全局嵌入方法的优化版本在挑战赛中展现了更稳健的跨地域性能。同时，该数据集激发了关于分层抽样在视觉数据集中应用的深入探讨，相关研究进一步扩展到人脸识别、场景分类等领域，以应对数据偏差问题。此外，该工作促进了公平性评估指标的标准化，为后续如FairFace、GeoDE等数据集的构建提供了方法论参考，推动了整个计算机视觉社区对算法公平性的持续关注与技术迭代。

数据集最近研究