sephora_products

Hugging Face2025-11-18 更新2025-11-19 收录

下载链接：

https://huggingface.co/datasets/MayaKitzis/sephora_products

下载链接

链接失效反馈

官方服务：

资源简介：

Sephora产品数据集是一个包含8494条记录的数据集，每条记录代表一个不同的产品，具有27个特征，包括产品名称、价格、大小、评分和类别等。该数据集用于分析产品属性、定价和流行度指标，以探索影响产品流行度和客户参与度的因素。

The Sephora Products Dataset is a dataset containing 8494 records, where each record represents a distinct product and has 27 features including product name, price, size, rating, category and more. This dataset is used to analyze product attributes, pricing and popularity metrics to explore the factors affecting product popularity and customer engagement.

创建时间：

2025-11-14

原始信息汇总

Sephora产品数据集概述

数据集基本信息

数据集名称：Sephora Products Dataset
记录数量：8,494条产品记录
特征数量：27个特征
数据来源：全球美容产品零售商Sephora

核心特征

产品名称
价格
规格尺寸
评分
产品类别
品牌信息
喜爱数量（love_count）

目标变量

love_count：标记产品为喜爱或偏好的用户数量，作为产品受欢迎程度的指标

数据预处理

删除重复数据
将错误价格（0或负数）替换为中位数价格
删除价格列中高于99%分位数的异常值

主要研究洞察

1. 产品类别受欢迎程度

化妆品和护肤品类在受欢迎程度中占主导地位
迷你尺寸或工具等小众细分市场表现较弱

2. 产品评分与受欢迎程度关系

高评分产品往往获得更多"喜爱"
客户满意度与受欢迎程度呈正相关

3. 价格对受欢迎程度的影响

价格在产品受欢迎程度中起重要作用
中等价位产品表现最佳
非常昂贵的产品较不受欢迎
非常便宜的产品评分较低

4. 新产品与限量版产品表现

新产品和限量版产品吸引力低于常规产品
"新产品"吸引稍多关注
限量版产品受欢迎程度因品牌和热度而异

5. 最受欢迎品牌

少数奢侈和热门品牌持续占主导地位
这些品牌在所有产品中获得较高的平均参与度

附加发现

评论数量、评分和受欢迎程度之间存在中等相关性
用户参与度指标往往同步变化

关键结论

评分和评论强烈影响产品受欢迎程度
中等价格范围实现最高参与度
新品发布引发用户兴趣
护肤和化妆品在市场上按受欢迎程度占主导地位

搜集汇总

数据集介绍

构建方式

在美妆零售数据分析领域，该数据集通过系统采集丝芙兰平台8,494条商品记录构建而成，涵盖产品名称、价格、规格、评分与品类等27个维度的特征。数据预处理阶段采用严谨的清洗策略：剔除重复记录，将异常价格数据替换为行业中位数，并通过百分位阈值过滤极端价格值，确保数据分布的统计合理性。这种构建方式既保留了真实市场特征，又为量化分析提供了可靠基础。

使用方法

研究者可基于该数据集开展美妆产品市场分析，通过回归模型探究价格、评分与品牌等因素对产品人气的影响机制。实际应用中建议先进行特征相关性分析，重点关注评分与价格变量的交互作用。该数据适用于构建推荐系统原型，或作为消费行为预测模型的训练样本，其多维指标能为商品战略定位提供量化依据。使用时应结合可视化工具呈现品类分布与品牌集中度等关键洞察。

背景与挑战

背景概述

在电子商务与消费行为研究领域，Sephora产品数据集作为美妆零售行业的代表性数据资源，由匿名研究者于当代数字化商业分析浪潮中构建。该数据集收录了8,494条商品记录，涵盖品牌、价格、评分等27维特征，核心研究目标在于解析价格、品类等变量对商品受欢迎程度的量化影响。通过以'love_count'作为用户参与度的关键指标，该数据集为美妆行业的产品策略优化与消费者偏好预测提供了实证基础，推动了数据驱动的零售决策研究发展。

当前挑战

该数据集需解决美妆电商场景中多因素协同影响商品热度的复杂性问题，例如价格敏感度与品牌效应的交互作用、用户评分与真实购买意愿的偏差等核心挑战。在构建过程中，研究者面临原始数据质量管控的难题，包括异常价格值的修正、极端值的剔除以及重复记录的清理，这些预处理环节直接关系到后续分析结论的可靠性。此外，跨品类商品属性异构性导致的特征标准化问题，亦对构建统一预测模型形成持续挑战。

常用场景

经典使用场景

在美妆零售分析领域，Sephora Products数据集常被用于探索产品属性与用户偏好之间的关联。该数据集通过记录产品价格、类别、评分及用户互动指标，为研究人员提供了分析美妆产品市场动态的丰富素材。经典应用场景包括构建回归模型预测产品受欢迎程度，以及通过可视化技术揭示不同品类和价格区间的市场表现，从而辅助品牌优化产品策略。

解决学术问题

该数据集有效解决了美妆消费行为研究中关键指标的量化难题。通过引入“love_count”作为用户偏好的代理变量，学者能够系统分析价格敏感度、品类偏好与品牌忠诚度之间的相互作用。其意义在于突破了传统销售数据的局限性，为消费者决策模型提供了多维度验证依据，推动了零售分析领域从宏观趋势向微观行为机制的深化。

实际应用

商业实践中，该数据集被广泛应用于美妆企业的产品定位与营销策略制定。品牌方可通过分析价格区间与用户互动的非线性关系，精准定位中端市场的产品开发；电商平台则依据品类热度图谱动态调整库存配置。这些应用显著提升了零售行业的资源配置效率，实现了数据驱动的精准营销转型。

数据集最近研究