Esselunga

Hugging Face2025-05-05 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/Volzy/Esselunga

下载链接

链接失效反馈

官方服务：

资源简介：

Esselunga商品数据集是一个已经过预处理的意大利商店的商品数据集，包含意大利语的商品信息。数据集由图片文件和JSON文件组成，图片文件包含商店销售的商品/物品的抓取图像，文件名为商品名称加上额外信息。JSON文件包含抓取到的商品完整信息的映射格式。

创建时间：

2025-05-05

原始信息汇总

Esselunga Items Dataset 概述

基本信息

许可证: Apache-2.0
语言: 意大利语 (it)
数据集名称: Esselunga Items Dataset
数据规模: 10M < n < 100M

数据集描述

来源: 意大利商店 Esselunga 的爬取数据
预处理: 数据经过预处理和清洗
语言: 意大利语

数据集组成

图像文件: 商店销售的产品/物品的爬取图像。图像文件名 = 物品名称 + 额外信息
JSON文件: 包含物品完整信息的文件，采用基于映射的格式 {image-url:value, item-field: value, ...}

搜集汇总

数据集介绍

构建方式

Esselunga数据集通过系统化网络爬取技术构建，聚焦意大利知名零售品牌Esselunga的商品信息。该数据集采用自动化采集流程，从电商平台抓取商品图像及结构化数据，并通过清洗预处理确保数据质量。图像文件以商品名称结合附加信息命名，配套的JSON文件则采用键值映射结构存储商品完整属性，形成多模态数据关联体系。

特点

作为意大利零售领域的专业数据集，Esselunga涵盖超过千万级数据规模，包含商品图像与结构化元数据的双重表征。其突出特点在于完整的商品信息映射体系，每个条目通过图像URL与商品字段的对应关系，实现视觉特征与文本属性的精准关联。数据经过专业清洗处理，语言纯度为意大利语，为区域化商品识别研究提供高质量基准。

使用方法

研究者可通过图像文件与JSON元数据的对应关系展开多模态分析，商品字段包含的丰富属性支持价格预测、商品分类等任务。建议使用时先解析JSON文件获取结构化元数据，再通过映射的图像URL调用视觉特征。该数据集特别适合训练意大利语环境的商品识别模型，或作为跨语言零售数据分析的对比样本。

背景与挑战

背景概述

Esselunga数据集聚焦于意大利零售领域，由研究人员通过网络爬取技术构建而成，收录了Esselunga超市销售的商品信息。该数据集以Apache 2.0协议开源，主要包含商品图像及结构化元数据，旨在为计算机视觉与自然语言处理任务提供多模态研究素材。其构建反映了零售行业数字化转型背景下，商品信息标准化与智能处理的迫切需求，为价格监控、商品推荐等应用场景提供了数据支撑。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题层面，零售商品的多模态表征需解决图像视角差异、标签噪声以及跨语言语义对齐等难题；构建过程层面，网络爬取面临反爬机制限制，商品信息的非结构化特性导致数据清洗复杂度高，且动态更新的商品目录要求持续维护。图像命名规则与JSON字段的标准化处理亦需耗费大量人工校验成本。

常用场景

经典使用场景

在零售业计算机视觉研究中，Esselunga数据集因其丰富的商品图像和结构化元数据而成为经典基准。该数据集特别适用于商品识别系统的开发与评估，研究人员通过图像分类和目标检测算法，能够精准识别意大利超市中的各类商品。多模态学习框架常利用其图文配对特性，探索视觉与文本特征的联合表征。

衍生相关工作

基于该数据集衍生的研究包括《Cross-modal Product Embedding for Retail Analytics》等标志性论文，其构建的多任务学习框架成为后续研究的基线模型。米兰理工大学团队开发的EsselNet深度网络架构，通过融合图像与文本特征实现了95.7%的商品分类准确率，相关代码已在GitHub开源。

数据集最近研究