RP2K

Name: RP2K
Creator: 哥伦比亚大学
Published: 2021-09-02 00:21:13
License: 暂无描述

arXiv2021-09-02 更新2024-07-30 收录

下载链接：

https://www.pinlandata.com/rp2k_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

RP2K数据集是由哥伦比亚大学和Pinlan数据技术有限公司合作创建的，专注于细粒度图像分类的大型零售产品数据集。该数据集包含超过2000种不同零售产品的35万张图像，这些图像直接从实体零售店的货架上拍摄，旨在推动零售对象识别的研究，应用于自动货架审计和基于图像的产品信息检索等领域。RP2K数据集的特点包括：它是目前产品类别最多的数据集；所有图像均在自然光照条件下手动拍摄，符合实际应用场景；提供了丰富的标注信息，包括尺寸、形状和口味/香味等。

The RP2K dataset is a large-scale retail product dataset focused on fine-grained image classification, co-created by Columbia University and Pinlan Data Technology Co., Ltd. It contains 350,000 images covering over 2,000 distinct retail product categories, all of which were directly captured from the shelves of physical retail stores. This dataset is intended to advance research in retail object recognition, with applications in fields such as automated shelf auditing and image-based product information retrieval. Key features of the RP2K dataset include: 1. It currently has the largest number of product categories among existing product datasets; 2. All images were manually photographed under natural lighting conditions, which align with real-world application scenarios; 3. It provides rich annotation information including product dimensions, shapes, flavors/scents and other related attributes.

提供机构：

哥伦比亚大学

创建时间：

2020-06-23

搜集汇总

数据集介绍

构建方式

在零售产品细粒度识别领域，RP2K数据集的构建体现了对真实场景的高度还原。该数据集通过实地采集方式，在超过500家实体零售店中手动拍摄了10,385张高分辨率货架图像，平均分辨率达3024×4032像素，确保了图像在自然光照和多样化拍摄角度下的真实性。构建过程中，首先利用预训练的物体检测模型（基于RetinaNet架构）对货架图像进行初步边界框标注，识别出七种常见产品形状。随后，人工标注者对这些边界框进行精细校验，剔除遮挡严重或无效的区域，并为每个边界框标注SKU ID、品牌、口味、尺寸等多层次属性。最终，从原始货架图像中裁剪出384,311张独立产品图像，涵盖2,388个不同产品类别，平均每个类别包含约160张图像，形成了规模庞大且注释丰富的细粒度分类数据集。

特点

RP2K数据集在零售产品识别领域展现出多项显著特点。其规模空前，涵盖2,388个产品类别，图像总数近40万张，是目前类别数量最大的零售产品数据集。所有图像均采集自真实零售环境，避免了实验室控制条件或网络图像的局限性，从而高度匹配自动货架审核、产品信息检索等实际应用场景。数据集注释极为丰富，除基本的SKU ID外，还提供了产品类型、形状、品牌、口味、尺寸等多维度属性，并支持按产品类型（如乳制品、酒类、化妆品等）或产品形状（如瓶装、罐装、盒装等）进行元类别划分。这种多层次注释结构为算法评估提供了灵活的细粒度定制空间，同时数据分布呈现长尾特性，部分类别图像数量较少，为少样本学习等研究方向提供了挑战。

使用方法

RP2K数据集主要用于推动零售产品细粒度图像分类的研究与应用。使用者可首先下载数据集，其中包含原始货架图像和裁剪后的独立产品图像，并附有详细的注释文件。在分类任务中，研究者可利用提供的训练集（占总数据90%）和测试集（10%）划分，基于SKU ID进行2,388类分类模型训练，或根据元类别进行粗粒度分类实验。数据集支持多种训练策略评估，包括从零训练、使用ImageNet预训练模型以及数据增强方案，并可通过提供的属性信息构建定制化的细粒度分类任务。此外，数据集还可用于物体检测（借助辅助检测数据集）、对抗性攻击与防御、生成模型在结构化图像合成、以及少样本学习等前沿计算机视觉问题的探索。在实际零售应用中，该数据集可作为开发自动货架审核、缺货检测和图像产品检索系统的基准测试资源。

背景与挑战

背景概述

在计算机视觉领域，细粒度图像分类旨在区分同一超类下的不同子类别，其挑战在于子类别间视觉差异往往极为细微。零售产品识别作为该领域的重要分支，对于实现自动化货架审计、图像化产品检索等应用具有关键意义。RP2K数据集由Pinlan Data Technology Co., Ltd.与哥伦比亚大学的研究团队于2021年共同创建，旨在填补现有零售产品数据集在规模与真实性方面的不足。该数据集采集自真实零售环境，包含超过2000种产品类别和约35万张图像，是目前产品类别数量最大的细粒度零售数据集，其丰富的标注信息为零售行业的智能化转型提供了坚实的数据基础。

当前挑战

RP2K数据集致力于解决零售产品细粒度分类的挑战，其核心问题在于如何准确识别外观高度相似的不同产品，例如同一品牌下不同口味或尺寸的商品。这些产品仅在标签或包装细节上存在微妙差异，对分类算法的判别能力提出了极高要求。在构建过程中，研究团队面临多重挑战：首先，数据采集需在自然光照和多样拍摄角度的真实零售环境中进行，以匹配实际应用场景，这引入了光照变化和视角扭曲等复杂性；其次，标注工作需要处理大规模图像中的密集物体，并确保每个对象的属性（如品牌、口味、尺寸）准确无误，人工标注成本高昂且易出错；此外，数据集中存在的长尾分布问题，即部分类别样本量稀少，进一步加剧了模型训练的难度，限制了分类性能的提升空间。

常用场景

经典使用场景

在零售计算机视觉领域，RP2K数据集为细粒度图像分类研究提供了关键基准。其核心应用场景在于评估和提升算法在真实零售货架环境下的商品识别能力。该数据集通过模拟自然光照、多样拍摄角度及货架摆放复杂性，构建了接近实际部署条件的测试平台。研究者利用其大规模、多类别的特性，系统性地探索模型对视觉相似但品类不同的商品（如同品牌不同口味或尺寸）的区分性能，推动了细粒度识别技术在零售场景中的精度边界。

解决学术问题

RP2K数据集主要应对细粒度视觉分类中类别间差异细微、类内差异显著的经典难题。它通过提供2388个不同商品的大规模图像，解决了以往零售数据集规模有限、环境受控导致的泛化能力不足问题。该数据集揭示了即使在ResNet等基础模型上，先进细粒度分类方法（如API-Net）亦未显著提升性能，凸显了零售商品识别中长尾分布、光照变化及视角多样性带来的独特挑战，为算法鲁棒性、数据高效学习等研究方向开辟了新的探索空间。

衍生相关工作

围绕RP2K数据集，学术界衍生出多个重要研究方向。在对抗性学习领域，其细粒度特性与高类别数构成了更具挑战性的对抗攻击与防御测试平台。在生成模型方面，数据集中带有边界框与语义标签的原始货架图像，为结构化图像合成任务提供了评估基准。此外，数据分布呈现的长尾效应催生了针对少样本学习算法的深入研究，这些工作共同拓展了零售视觉识别在鲁棒性、数据生成与高效学习等维度的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集