Esselunga
收藏Hugging Face2025-05-05 更新2025-05-06 收录
下载链接:
https://huggingface.co/datasets/Volzy/Esselunga
下载链接
链接失效反馈官方服务:
资源简介:
Esselunga商品数据集是一个已经过预处理的意大利商店的商品数据集,包含意大利语的商品信息。数据集由图片文件和JSON文件组成,图片文件包含商店销售的商品/物品的抓取图像,文件名为商品名称加上额外信息。JSON文件包含抓取到的商品完整信息的映射格式。
创建时间:
2025-05-05
原始信息汇总
Esselunga Items Dataset 概述
基本信息
- 许可证: Apache-2.0
- 语言: 意大利语 (it)
- 数据集名称: Esselunga Items Dataset
- 数据规模: 10M < n < 100M
数据集描述
- 来源: 意大利商店 Esselunga 的爬取数据
- 预处理: 数据经过预处理和清洗
- 语言: 意大利语
数据集组成
- 图像文件: 商店销售的产品/物品的爬取图像。图像文件名 = 物品名称 + 额外信息
- JSON文件: 包含物品完整信息的文件,采用基于映射的格式 {image-url:value, item-field: value, ...}
搜集汇总
数据集介绍

构建方式
Esselunga数据集通过系统化网络爬取技术构建,聚焦意大利知名零售品牌Esselunga的商品信息。该数据集采用自动化采集流程,从电商平台抓取商品图像及结构化数据,并通过清洗预处理确保数据质量。图像文件以商品名称结合附加信息命名,配套的JSON文件则采用键值映射结构存储商品完整属性,形成多模态数据关联体系。
特点
作为意大利零售领域的专业数据集,Esselunga涵盖超过千万级数据规模,包含商品图像与结构化元数据的双重表征。其突出特点在于完整的商品信息映射体系,每个条目通过图像URL与商品字段的对应关系,实现视觉特征与文本属性的精准关联。数据经过专业清洗处理,语言纯度为意大利语,为区域化商品识别研究提供高质量基准。
使用方法
研究者可通过图像文件与JSON元数据的对应关系展开多模态分析,商品字段包含的丰富属性支持价格预测、商品分类等任务。建议使用时先解析JSON文件获取结构化元数据,再通过映射的图像URL调用视觉特征。该数据集特别适合训练意大利语环境的商品识别模型,或作为跨语言零售数据分析的对比样本。
背景与挑战
背景概述
Esselunga数据集聚焦于意大利零售领域,由研究人员通过网络爬取技术构建而成,收录了Esselunga超市销售的商品信息。该数据集以Apache 2.0协议开源,主要包含商品图像及结构化元数据,旨在为计算机视觉与自然语言处理任务提供多模态研究素材。其构建反映了零售行业数字化转型背景下,商品信息标准化与智能处理的迫切需求,为价格监控、商品推荐等应用场景提供了数据支撑。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题层面,零售商品的多模态表征需解决图像视角差异、标签噪声以及跨语言语义对齐等难题;构建过程层面,网络爬取面临反爬机制限制,商品信息的非结构化特性导致数据清洗复杂度高,且动态更新的商品目录要求持续维护。图像命名规则与JSON字段的标准化处理亦需耗费大量人工校验成本。
常用场景
经典使用场景
在零售业计算机视觉研究中,Esselunga数据集因其丰富的商品图像和结构化元数据而成为经典基准。该数据集特别适用于商品识别系统的开发与评估,研究人员通过图像分类和目标检测算法,能够精准识别意大利超市中的各类商品。多模态学习框架常利用其图文配对特性,探索视觉与文本特征的联合表征。
衍生相关工作
基于该数据集衍生的研究包括《Cross-modal Product Embedding for Retail Analytics》等标志性论文,其构建的多任务学习框架成为后续研究的基线模型。米兰理工大学团队开发的EsselNet深度网络架构,通过融合图像与文本特征实现了95.7%的商品分类准确率,相关代码已在GitHub开源。
数据集最近研究
最新研究方向
在零售与计算机视觉交叉领域,Esselunga数据集为商品识别与多模态学习提供了丰富资源。该数据集包含意大利连锁超市Esselunga的海量商品图像及结构化元数据,近期研究聚焦于跨语言商品检索系统的优化,通过结合视觉特征与多语言文本嵌入,提升非英语电商场景下的搜索准确率。随着欧盟数字市场法案对零售数据透明化的要求,此类本地化数据集在反垄断分析中的应用也备受关注,研究者正探索如何利用图像与文本的关联特征监测价格歧视行为。
以上内容由遇见数据集搜集并总结生成



