Logo-2K+

arXiv2019-11-11 更新2024-06-21 收录

下载链接：

https://github.com/msn199959/Logo-2k-plus-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Logo-2K+是由山东师范大学信息科学与工程学院、中国科学院计算技术研究所和费尔菲尔德大学计算机科学与工程系共同创建的大型公开可用商标数据集，包含2,341个类别和167,140张图像。该数据集覆盖了广泛的商标类别，具有高度的多样性和覆盖率，图像来源于不同的网站，包括不同外观、尺度和背景的商标。Logo-2K+的创建过程包括构建商标类别列表和收集及清洗商标图像两个步骤。该数据集主要应用于商标分类任务，旨在解决商标识别中的挑战，如版权侵犯检测、产品推荐和上下文广告等问题。

Logo-2K+ is a large-scale publicly available trademark dataset jointly created by the School of Information Science and Engineering of Shandong Normal University, the Institute of Computing Technology of the Chinese Academy of Sciences, and the Department of Computer Science and Engineering at Fairfield University. It contains 2,341 categories and 167,140 images. This dataset covers a broad spectrum of trademark categories, featuring high diversity and coverage, with images sourced from various websites, including trademarks with different appearances, scales and backgrounds. The development of Logo-2K+ includes two core steps: constructing the trademark category list, as well as collecting and curating the trademark images. Primarily applied to trademark classification tasks, this dataset aims to address core challenges in trademark recognition, such as copyright infringement detection, product recommendation and contextual advertising.

提供机构：

山东师范大学信息科学与工程学院中国科学院计算技术研究所费尔菲尔德大学计算机科学与工程系

创建时间：

2019-11-11

搜集汇总

数据集介绍

构建方式

Logo-2K+ 数据集的构建主要分为两个步骤：首先，构建了一个包含 2341 个 logo 类别的列表，涵盖了从 10 个主要类别（食品、服装、机构、配饰、交通、电子、必需品、化妆品、休闲和医疗）中频繁出现的 logo 场景和对象。其次，从 Google 图片搜索网站爬取候选图片，并通过添加关键词（如“logo”和“品牌”）来扩展搜索条件。为了确保图片质量，手动检查每个类别中的图片，删除重复、比例失调或 logo 比例过小的图片。对于图片数量不足 50 张的 logo 类别，从其他网站（如百度图片）进一步扩充图片数量。

特点

Logo-2K+ 数据集具有以下特点：1) 大规模：包含 167,140 张图片和 2,341 个类别，是目前公开可用的最大规模的 logo 分类数据集。2) 高覆盖率：涵盖了 2,341 个 logo 类别，具有最高的 logo 类别空间覆盖率。3) 高多样性：logo 图片来自不同的网站，具有不同的外观、尺度和背景。

使用方法

Logo-2K+ 数据集可用于 logo 分类任务，例如版权侵权检测、产品推荐和上下文广告。用户可以使用深度学习模型（如 DRNA-Net）对数据集进行训练和测试，以评估模型在 logo 分类任务上的性能。

背景与挑战

背景概述

Logo分类作为图像识别领域的一个分支，在版权侵权检测、产品推荐和上下文广告等众多应用中发挥着重要作用。然而，现实世界中的标志图像在标志外观上具有更大的多样性，背景也更加复杂，这使得从图像中识别标志成为一项挑战。为了支持可扩展的标志分类任务，研究人员创建了一个名为Logo-2K+的大规模标志数据集，该数据集包含2341个类别和167,140张图像。Logo-2K+数据集的创建时间为2019年11月，由王静、闵伟庆、侯素娟等研究人员共同完成，主要研究机构包括山东师范大学信息科学与工程学院和中国科学院计算技术研究所。该数据集的核心研究问题是提高标志图像的识别准确率，并通过提供更多样化和更全面的标志图像数据集，推动可扩展标志图像识别的发展。

当前挑战

Logo-2K+数据集在推动标志图像识别发展的同时，也面临着一些挑战。首先，数据集中不同类别的图像数量不平衡，例如“食品”类别有769个标志类，而“医疗”类别只有48个标志类，这可能导致模型对某些类别识别准确率的下降。其次，由于标志图像的多样性，模型需要能够有效地识别不同外观、尺度和背景下的标志。此外，数据集的构建过程中也面临着一些挑战，例如从不同网站收集和清理图像，以及确保数据集的质量和多样性。

常用场景

经典使用场景

Logo-2K+ 数据集广泛应用于可扩展的标志识别任务，为版权侵权检测、产品推荐和上下文广告等应用提供了有力支持。该数据集包含 2,341 个类别和 167,140 张图像，覆盖范围广泛，图像数量庞大，为深度学习模型提供了丰富的训练数据。此外，Logo-2K+ 数据集还衍生了 Discriminative Region Navigation and Augmentation Network (DRNA-Net) 等经典模型，这些模型能够自动定位标志相关的信息区域，并通过区域导向的数据增强策略提取更具判别性的特征，从而提高标志识别的准确率。

衍生相关工作

Logo-2K+ 数据集衍生了 DRNA-Net 等经典模型，这些模型在标志识别任务中取得了优异的性能。此外，基于 Logo-2K+ 数据集的研究工作，还探索了其他可扩展的标志识别技术，例如基于注意力机制的标志识别模型和基于迁移学习的标志识别模型等。这些研究工作进一步推动了可扩展的标志识别技术的发展，为标志识别的应用提供了更多可能性。

数据集最近研究