DBQ/Fendi.Product.prices.Italy
收藏Hugging Face2023-11-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DBQ/Fendi.Product.prices.Italy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了Fendi品牌在意大利的电子商务产品列表页面数据,涵盖了多个任务类别,如文本分类、图像分类、特征提取等。数据集的特征包括网站名称、日期、国家代码、货币代码、品牌、产品代码、标题、产品URL、图片URL、价格等信息。数据集的目标是揭示意大利奢侈品购物中的消费者偏好和趋势。
该数据集包含了Fendi品牌在意大利的电子商务产品列表页面数据,涵盖了多个任务类别,如文本分类、图像分类、特征提取等。数据集的特征包括网站名称、日期、国家代码、货币代码、品牌、产品代码、标题、产品URL、图片URL、价格等信息。数据集的目标是揭示意大利奢侈品购物中的消费者偏好和趋势。
提供机构:
DBQ
原始信息汇总
数据集概述
基本信息
- 数据集名称: Italy - Fendi - Product-level price list
- 语言: 英语
- 许可: 未知
- 多语言性: 单语种
- 数据来源: 原始数据
- 任务类别: 文本分类、图像分类、特征提取、图像分割、图像到图像、图像到文本、目标检测、摘要生成、零样本图像分类
标签
- webscraping
- ecommerce
- Fendi
- fashion
- fashion product
- image
- fashion image
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集信息
-
特征:
- website_name: 字符串
- competence_date: 字符串
- country_code: 字符串
- currency_code: 字符串
- brand: 字符串
- category1_code: 字符串
- category2_code: 字符串
- category3_code: 字符串
- product_code: 字符串
- title: 字符串
- itemurl: 字符串
- imageurl: 字符串
- full_price: float64
- price: float64
- full_price_eur: float64
- price_eur: float64
- flg_discount: int64
-
分割:
- 名称: train
- 字节数: 806401
- 样本数: 1995
-
下载大小: 253225
-
数据集大小: 806401
搜集汇总
数据集介绍

构建方式
该数据集源自对意大利奢侈品牌Fendi官方网站的系统化网络抓取,聚焦于产品级价格列表的采集。构建过程中,通过自动化脚本提取商品详情页信息,涵盖品牌、产品分类层级(从大类到细类)、唯一产品代码、标题、商品链接及图片URL等结构化字段。价格数据以原始货币及欧元标准化呈现,并标注全价与折扣价,同时记录折扣标识。数据采集时间点明确,确保了时间维度的可追溯性。最终以训练集形式组织,包含1995条样本,存储为高效的分片文件格式。
特点
数据集兼具多模态与结构化双重特性。一方面,通过商品标题和图片URL的关联,支持文本分类与图像分析任务;另一方面,细粒度的价格字段(如全价、欧元换算价)和折扣标志为经济计量研究提供了量化基础。其独特之处在于聚焦单一奢侈品牌在意大利市场的价格策略,通过三级分类编码体系(category1至category3)实现产品层级的精细划分,便于挖掘高端时尚消费的定价模式与折扣规律。
使用方法
使用时可借助Hugging Face Datasets库直接加载默认配置,自动读取训练分片。适用于监督学习场景,例如基于文本和图像特征的价格预测或折扣分类任务。也可用于零样本图像分类,结合商品图片URL提取视觉特征。对于经济学分析,可通过过滤折扣标志(flg_discount)或比较原始价格与欧元价格(full_price_eur)来研究定价策略。数据以键值对形式访问,字段如product_code和category_code支持多粒度聚合分析。
背景与挑战
背景概述
在奢侈品时尚领域,数字化浪潮正深刻重塑消费者的购物行为与品牌策略。Fendi作为意大利奢侈品牌的杰出代表,其产品定价与市场动态成为研究高端消费趋势的重要窗口。该数据集由DBQ团队创建,聚焦于意大利市场Fendi产品的在线价格列表,涵盖产品代码、标题、图片链接及折扣信息等多元特征,为理解奢侈品电商中的定价策略与消费者偏好提供了宝贵资源。通过系统化地抓取与分析这些数据,研究者得以窥见意大利奢侈品行业在数字化转型中的微观表现,进而推动对高端市场行为模式的实证探索。数据集的影响力在于其填补了奢侈品领域结构化价格数据的空白,为后续的定价模型、需求预测及竞争分析奠定了坚实基础。
当前挑战
该数据集所面临的挑战首先体现在领域问题的复杂性上:奢侈品电商数据具有高度动态性,价格波动、库存变化及促销活动频繁,使得静态数据集难以完全捕捉实时市场动态。此外,Fendi作为顶级奢侈品牌,其产品品类繁多且命名规范独特,从类别代码到产品标题的映射关系复杂,增加了数据清洗与特征工程的难度。在构建过程中,网络爬虫技术需应对奢侈品网站的反爬机制与页面结构频繁更新,确保数据抓取的完整性与时效性成为一大难题。同时,多币种价格的转换(如欧元与本地货币)以及折扣标识的准确性验证,要求严格的数据校验流程,以避免因汇率波动或逻辑错误导致的分析偏差。这些挑战共同考验着数据集在真实商业场景中的实用性与可靠性。
常用场景
经典使用场景
该数据集以意大利奢侈品牌Fendi为研究对象,聚焦其电商平台上的产品级价格列表,涵盖商品名称、分类层级、价格、折扣状态及图像链接等多维信息。经典使用场景包括构建奢侈品价格预测模型,通过历史价格与折扣特征分析产品定价策略;亦可结合图像与文本特征开展多模态分类任务,如自动识别产品类别或检测折扣商品;此外,该数据为跨域迁移学习提供了丰富的结构化与非结构化数据,适用于零样本图像分类等前沿研究。
衍生相关工作
该数据集衍生了多项经典工作,涵盖奢侈品价格预测模型的构建、基于多模态特征的时尚品类分类器设计,以及电商图像分割与目标检测算法的优化。研究者利用其结构化价格信息与图像数据,开发了跨域迁移学习框架,用于零样本图像分类任务。此外,该数据集推动了时尚领域摘要生成与图像描述系统的进步,成为验证多任务学习在电子商务场景中有效性的重要基准。
数据集最近研究
最新研究方向
当前,基于奢侈品电商平台的产品级价格数据集正成为时尚零售与消费行为分析领域的前沿研究方向。DBQ/Fendi.Product.prices.Italy数据集聚焦于意大利奢侈品牌Fendi的在线产品列表页(PLP)数据,涵盖商品标题、图片链接、价格、折扣状态等多维字段,为研究者提供了从文本分类、图像识别到特征提取与零样本分类等多模态任务的研究素材。结合奢侈品行业加速向数字化转型的大背景,该数据集可用于分析高端消费品的定价策略、折扣模式与消费者偏好,并支持构建基于图像与文本联合理解的时尚推荐系统。其意义在于,为理解意大利奢侈品市场的价格弹性与数字化消费趋势提供了可量化的实证基础,推动了电子商务与计算机视觉交叉领域的前沿探索。
以上内容由遇见数据集搜集并总结生成



