five

Grocery Store Dataset

收藏
arXiv2019-01-03 更新2024-06-21 收录
下载链接:
https://github.com/marcusklasson/GroceryStoreDataset
下载链接
链接失效反馈
官方服务:
资源简介:
Grocery Store Dataset是由瑞典皇家理工学院创建的一个包含5125张自然图像的数据集,旨在帮助视觉障碍人士在超市购物。数据集涵盖了水果、蔬菜和冷藏产品等多种食品,每种食品都有视觉和语义标签,支持多模态学习模型。数据集的创建过程包括从18个不同的超市收集图像,并从在线购物网站获取对应的产品信息。该数据集的应用领域主要是为视觉障碍人士提供辅助技术,帮助他们在超市环境中识别和选择商品。

The Grocery Store Dataset is a dataset containing 5,125 natural images, developed by the Royal Institute of Technology in Sweden, with the goal of assisting visually impaired individuals when shopping in supermarkets. The dataset covers various food products including fruits, vegetables, and refrigerated items, where each product category has both visual and semantic labels to support multimodal learning models. The dataset was constructed by collecting images from 18 distinct supermarkets and obtaining corresponding product information from online shopping websites. The main application scope of this dataset is to provide assistive technologies for visually impaired people, helping them identify and select goods in supermarket environments.
提供机构:
瑞典皇家理工学院
创建时间:
2019-01-03
搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉辅助技术领域,为支持视觉障碍者在购物场景中的识别需求,Grocery Store Dataset的构建过程体现了严谨的数据采集策略。研究团队在18家不同超市的果蔬区及冷藏商品区,使用16兆像素安卓智能手机拍摄了5125张自然图像,涵盖81个细粒度类别。图像采集模拟了实际移动设备应用环境,涵盖了多种拍摄距离、角度及复杂背景,并有意纳入商品错放、遮挡及光照变化等现实噪声。此外,每个细粒度类别均从在线购物网站获取了对应的标志性图像及包含原产国、重量与营养成分的商品描述,形成了层次化的类别结构(包含46个粗粒度类别),并通过按商店与时间划分训练集与测试集,有效减少了数据偏差。
特点
该数据集的核心特点在于其多层次的信息集成与高度仿真的环境设计。其类别体系采用树状层次结构,既支持粗粒度的商品大类识别,也适用于细粒度的具体品种分类,为模型提供了灵活的学习空间。每一类别不仅包含在真实超市环境中采集的自然图像,还配有背景纯净的标志性图像及文本描述,实现了视觉与语义信息的互补。图像内容充分还原了零售场景的复杂性,如商品堆叠、背景杂乱及光照不均,显著提升了数据集的现实代表性。这种多模态、结构化的设计,使得数据集能够支撑跨模态学习、层次化分类及生成式模型等多种前沿研究方向。
使用方法
该数据集主要用于训练与评估面向视觉辅助应用的图像分类模型。研究者可基于其提供的自然图像进行监督学习,利用层次化标签探索不同粒度下的分类性能。标志性图像可作为辅助视图,通过多视图学习(如多视图变分自编码器)增强模型对关键特征的提取能力,提升噪声环境下的鲁棒性。商品描述文本则可用于视觉-语义嵌入研究,实现跨模态推理。数据集中预划分的训练集与测试集确保了评估的一致性,便于不同方法间的性能比较。此外,数据集支持生成式模型的探索,例如通过解码器将自然图像转换为标志性图像,以增强模型的可解释性。
背景与挑战
背景概述
在计算机视觉辅助技术蓬勃发展的背景下,针对视障人士的日常辅助应用需求日益凸显。Grocery Store Dataset由瑞典皇家理工学院与微软研究院的研究团队于2019年联合创建,旨在解决一个特定的现实世界挑战:在杂货店自然环境中对水果、蔬菜及冷藏产品进行精确视觉识别。该数据集的核心研究问题聚焦于开发能够适应复杂零售环境的鲁棒图像分类模型,以辅助视障人士独立完成购物活动。其创新性在于不仅包含大量在真实杂货店拍摄的自然图像,还整合了从在线购物网站获取的层级化语义标签、产品描述及标准图标图像,为多模态学习提供了丰富资源。该数据集的发布,填补了现有基准数据集在特定辅助应用场景下的空白,推动了细粒度识别与多源信息融合模型的发展,对辅助性计算机视觉领域产生了实质性影响。
当前挑战
该数据集致力于解决的领域核心挑战,是在高度复杂、充满干扰的真实杂货店环境中实现鲁棒且细粒度的商品识别。具体挑战包括:相似类别物品的视觉区分,例如不同品种的苹果或包装近似的乳制品;处理严重的遮挡、杂乱的背景以及多目标共存场景;应对多变的光照条件和拍摄视角。在数据集构建过程中,研究人员亦面临显著挑战:需在多个不同商店中系统性地采集涵盖81个细粒度类别的自然图像,确保数据的多样性与代表性;为每个类别精确匹配并整合来自外部来源的结构化语义信息与图标图像;以及设计合理的训练与测试集划分策略,以消除因拍摄时间、地点带来的数据偏差,确保模型评估的公平性与泛化能力。
常用场景
经典使用场景
在计算机视觉领域,Grocery Store Dataset 作为辅助技术研究的重要基准,其经典应用场景聚焦于训练和评估图像分类模型,以支持视觉障碍者在杂货店购物时的环境感知。该数据集通过采集自然场景下的水果、蔬菜及冷藏商品图像,模拟真实购物环境中的遮挡、杂乱背景及光照变化,为模型提供了贴近实际应用的训练样本。其层次化标签结构和多模态信息(如图标图像与产品描述)进一步增强了模型在细粒度分类任务中的鲁棒性,使得研究能够深入探索复杂场景下的物体识别能力。
解决学术问题
该数据集有效解决了辅助视觉技术中图像分类模型在真实环境下面临的若干学术挑战。传统数据集如ImageNet虽包含果蔬类别,但缺乏杂货店特有的环境噪声与细粒度差异,导致模型在实际应用中泛化能力不足。Grocery Store Dataset 通过提供具有层次化标注的自然图像,支持模型学习在遮挡、混杂背景及类间相似性高的条件下进行精确识别。同时,其多模态设计(图标图像与文本描述)为跨模态学习与生成模型研究提供了数据基础,推动了视觉-语义嵌入等前沿方法的发展,提升了模型在辅助场景中的实用性与解释性。
衍生相关工作
基于该数据集的多模态与层次化特性,衍生出一系列经典研究工作,主要集中在多视图学习与细粒度分类领域。例如,研究团队利用其图标图像作为辅助视图,开发了多视图变分自编码器(VAE-CCA),通过联合重构自然图像与图标图像,提升了潜在表征的判别能力与可解释性。此外,数据集的层次标签结构激发了针对粗粒度与细粒度分类的联合优化方法,促进了结构化先验在生成模型中的应用探索。这些工作不仅验证了多源信息融合在视觉任务中的有效性,也为后续研究如三视图模型(融入文本描述)提供了理论基础与实验框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作