tonyassi/clothing-sales-data

Name: tonyassi/clothing-sales-data
Creator: tonyassi
Published: 2024-05-14 21:17:54
License: 暂无描述

Hugging Face2024-05-14 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/tonyassi/clothing-sales-data

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: units_sold dtype: int64 - name: title dtype: string - name: price dtype: float64 - name: rating dtype: float64 - name: tags dtype: string - name: product_color dtype: string - name: sales_index dtype: int64 splits: - name: train num_bytes: 18817507.0 num_examples: 933 download_size: 18690690 dataset_size: 18817507.0 configs: - config_name: default data_files: - split: train path: data/train-* ---

数据集信息：特征列： - 列名：image，数据类型：图像（image） - 列名：units_sold，数据类型：64位整型（int64） - 列名：title，数据类型：字符串 - 列名：price，数据类型：64位浮点型（float64） - 列名：rating，数据类型：64位浮点型（float64） - 列名：tags，数据类型：字符串 - 列名：product_color，数据类型：字符串 - 列名：sales_index，数据类型：64位整型（int64）数据划分： - 划分名称：训练集（train），占用字节数：18817507.0，样本数量：933 下载大小：18690690 数据集总大小：18817507.0 配置项： - 配置名称：默认配置（default），数据文件： - 数据划分：训练集（train），文件路径：data/train-*

提供机构：

tonyassi

原始信息汇总

数据集概述

数据特征

image: 图像数据
units_sold: 整数类型，表示销售单位数量
title: 字符串类型，表示产品标题
price: 浮点数类型，表示产品价格
rating: 浮点数类型，表示产品评分
tags: 字符串类型，表示产品标签
product_color: 字符串类型，表示产品颜色
sales_index: 整数类型，表示销售指数

数据分割

train: 训练集，包含933个样本，占用18817507.0字节

数据集大小

下载大小: 18690690字节
实际大小: 18817507.0字节

配置

default: 默认配置，包含训练集数据文件路径为data/train-*

搜集汇总

数据集介绍

构建方式

在电子商务与时尚零售领域，数据驱动的分析日益成为洞察市场动态的关键。本数据集通过系统采集线上服装销售平台的公开信息构建而成，涵盖了产品图像、销售数量、标题、价格、用户评分、标签、产品颜色及销售指数等多维度特征。其构建过程注重数据的代表性与时效性，确保了样本能够反映当前市场的真实交易状况与消费者偏好，为后续的量化研究提供了坚实的基础。

特点

该数据集的核心特点在于其多维度的结构化信息整合，不仅包含直观的产品图像与文本描述，还融合了销售表现与用户反馈等量化指标。这种设计使得研究者能够同时从视觉、语义和市场行为等多个角度进行分析，尤其适用于探索产品属性与销售绩效之间的复杂关联。数据集的规模适中，特征字段清晰，便于进行机器学习模型的训练与验证，特别是在计算机视觉与销售预测的交叉领域具有显著的应用潜力。

使用方法

利用本数据集，研究者可开展广泛的实证分析，例如通过回归模型探究价格、评分等因素对销售量的影响，或运用图像识别技术分析产品视觉特征与市场接受度的关系。数据集可直接通过HuggingFace平台加载，其标准化的格式支持主流的数据处理框架。建议在预处理阶段对图像进行归一化，并对数值特征进行标准化，以优化模型训练效果。该资源为时尚零售领域的学术与工业研究提供了便捷且高质量的数据支持。

背景与挑战

背景概述

在电子商务与时尚零售领域，数据驱动的销售预测与视觉分析已成为提升商业决策精准度的关键。tonyassi/clothing-sales-data数据集由研究人员或机构于近期构建，旨在整合服装商品的图像、销售指标及文本描述等多模态信息，以探索商品视觉特征与市场表现之间的复杂关联。该数据集的核心研究问题聚焦于如何通过机器学习模型解析服装设计、定价、用户评价等多维度因素对销售业绩的影响，从而为智能推荐系统、库存优化及趋势预测提供实证基础，对推动零售智能化转型具有显著影响力。

当前挑战

该数据集致力于解决服装销售预测与多模态数据分析的挑战，其中领域问题的难点在于如何有效融合图像视觉内容与结构化销售数据，以应对市场动态变化和消费者偏好的高度不确定性。构建过程中的挑战则体现在数据采集与标注的复杂性上，例如确保商品图像质量的一致性、销售指标的实时准确性，以及文本标签（如产品颜色、分类标签）的标准化处理，这些因素均可能影响模型的泛化能力与可靠性。

常用场景

经典使用场景

在时尚零售与电子商务领域，tonyassi/clothing-sales-data数据集为多模态机器学习研究提供了关键资源。该数据集整合了服装商品的图像、销售数据、价格、评分及标签等多维度信息，其经典使用场景在于支持视觉-文本联合建模任务。研究者可基于图像特征与文本描述（如标题、标签）的关联性，构建跨模态检索或推荐系统，从而模拟真实电商平台中商品展示与用户交互的复杂过程。这种多源数据融合的应用，有助于深入理解视觉内容与销售表现之间的内在联系，为智能时尚分析奠定基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在多模态学习与销售预测领域。例如，部分研究利用卷积神经网络提取服装图像特征，并与文本嵌入结合，开发了跨模态商品匹配算法；另一些工作则基于回归或时序模型，从销售指数与评级数据中挖掘市场动态规律。这些成果常发表于计算机视觉、数据挖掘及电子商务相关会议，如KDD或CVPR，不仅拓展了数据集的学术影响力，也为后续研究提供了可复现的基准模型，促进了时尚分析技术的迭代与创新。

数据集最近研究