smartcat/Amazon_Clothing_Shoes_and_Jewelry_2023

Name: smartcat/Amazon_Clothing_Shoes_and_Jewelry_2023
Creator: smartcat
Published: 2024-10-31 08:45:15
License: 暂无描述

Hugging Face2024-10-31 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/smartcat/Amazon_Clothing_Shoes_and_Jewelry_2023

下载链接

链接失效反馈

官方服务：

资源简介：

Amazon Clothing Shoes and Jewelry 2023数据集提供了来自多个类别的产品信息，包括主要属性如评分、价格和描述。数据集经过预处理，移除了没有描述、标题、图片或详细信息的产品，并将某些字段转换为字符串。最终的数据集结构包括27个字段，如主要类别、标题、平均评分、价格、图片和视频等。数据集共有2,539,634条记录。

The Amazon Clothing Shoes and Jewelry 2023 dataset provides information on products from a diverse range of categories, including main attributes like ratings, price, and descriptions. The dataset has been preprocessed to remove incomplete entries and transform certain fields. The final structure of the dataset includes 27 fields such as main category, title, average rating, price, images, and videos. The dataset contains 2,539,634 entries.

提供机构：

smartcat

搜集汇总

数据集介绍

构建方式

在电子商务研究领域，大规模产品数据集对于分析消费者行为和市场趋势至关重要。Amazon_Clothing_Shoes_and_Jewelry_2023数据集源自公开的亚马逊评论项目，通过系统化网络爬取技术，采集了服装、鞋履及珠宝类别的产品元数据。构建过程中，原始数据经过严谨清洗，剔除了描述、标题、图像或细节信息缺失的商品条目，并将特征与描述列表转换为字符串格式以提升可读性。针对产品详情列，仅保留出现频率最高的十六种属性类型并拆分为独立字段，同时移除了2015年之前上架及制造商已停产的商品，确保了数据集的时效性与完整性。

特点

该数据集在时尚与零售计算领域展现出多维度的结构化特征。其核心优势在于涵盖了超过两百五十万条商品记录，每一条均包含丰富的属性信息，如主类别、标题、平均评分、价格及详细描述。数据集特别整合了多模态内容，包括不同分辨率的商品图像与附带标题的视频链接，为视觉分析提供了坚实基础。层次化的分类体系与十六项精选产品细节（如材质、品牌、尺寸、原产国等）共同构成了细粒度的商品画像，支持对产品属性与市场表现的深度关联分析。

使用方法

在机器学习与数据挖掘应用中，该数据集为多任务研究提供了便利。研究者可通过HuggingFace平台直接加载，利用标准接口访问训练分割下的全部样本。数据集适用于商品推荐系统、价格预测模型、文本与视觉特征的多模态融合分析，以及基于评分的口碑研究。其结构化字段便于进行特征工程，例如结合评分数量与平均评分评估产品热度，或利用分类信息构建层次化预测模型。多模态元素则支持计算机视觉任务，如商品图像分类与跨模态检索。

背景与挑战

背景概述

在电子商务与推荐系统研究领域，大规模商品数据集对于推动个性化算法、市场趋势分析及多模态信息处理至关重要。Amazon Clothing Shoes and Jewelry 2023数据集由smartcat团队于2023年构建，其核心数据源自公开的亚马逊评论项目。该数据集聚焦于服装、鞋履与珠宝品类，涵盖了超过250万条商品条目，每一条目均整合了丰富的结构化与多模态特征，包括文本描述、用户评分、图像视频资源及详细的产品属性。其创建旨在为学术界与工业界提供一个高质量、时效性强的基准资源，以支持商品分类、价格预测、跨模态检索及消费者行为建模等一系列前沿研究，对提升电子商务智能化水平具有显著影响力。

当前挑战

该数据集致力于解决电子商务领域中的商品信息理解与多模态推荐等复杂问题，其核心挑战在于如何从异构、高维且动态变化的商品数据中提取有效语义表征。具体而言，数据构建过程面临多重困难：原始元数据中存在大量缺失值与噪声，例如价格、描述及多媒体内容的完整性不一；产品属性的非标准化表述，如颜色、尺寸与材质的描述存在语义歧义；多模态信息（如图像、视频与文本）的对齐与融合需要精细的预处理策略。此外，为确保数据质量与时效性，构建过程中需实施严格的数据清洗规则，包括剔除早期商品、过滤已停产产品及统一特征格式，这些步骤均对数据集的规模与一致性提出了平衡性挑战。

常用场景

经典使用场景

在电子商务与推荐系统研究领域，该数据集常被用于构建多模态商品表征模型。研究者利用其丰富的文本描述、图像、视频及结构化属性，训练深度学习模型以理解商品语义，进而实现精准的跨模态检索与个性化推荐。通过整合标题、描述、评分及视觉信息，模型能够捕捉商品的多维度特征，为推荐算法提供高质量的嵌入表示。

实际应用

在实际电商运营中，该数据集可赋能智能商品搜索引擎与动态定价策略。企业能够基于商品描述与图像数据优化搜索相关性，提升用户购物体验。同时，结合价格、评分及销售排名信息，可构建需求预测模型，辅助库存管理与促销活动设计，实现数据驱动的零售决策。

衍生相关工作

围绕该数据集衍生的经典工作包括多模态推荐系统与跨域迁移学习研究。例如，基于其文本与视觉特征训练的模型被应用于时尚搭配推荐与风格迁移任务。此外，该数据集常作为基准数据，用于评估序列推荐、知识图谱增强推荐等前沿算法的性能，促进了推荐系统领域的算法创新与比较研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集