five

Brazilian E-Commerce Public Dataset by Olist

收藏
github2024-05-13 更新2024-05-31 收录
下载链接:
https://github.com/SeldaBayman/E_Commerce_Data_RFM_Analizi
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个巴西电子商务公共数据集,由Olist提供。数据集包含2016年至2018年间在巴西多个市场平台上进行的10万份订单信息。其特征允许从多个维度查看订单,包括订单状态、价格、支付和货运性能,以及客户位置、产品属性和客户编写的评论。我们还发布了一个与巴西邮政编码相关的经纬度坐标的地理位置数据集。

This is a Brazilian e-commerce public dataset provided by Olist. The dataset encompasses information on 100,000 orders conducted across multiple market platforms in Brazil between 2016 and 2018. Its features allow for a multi-dimensional analysis of orders, including order status, pricing, payment and shipping performance, as well as customer location, product attributes, and reviews written by customers. Additionally, we have released a geolocation dataset related to Brazilian postal codes, which includes latitude and longitude coordinates.
创建时间:
2024-04-28
原始信息汇总

数据集概述

数据集名称

  • 名称: Brazilian E-Commerce Public Dataset by Olist

数据集描述

  • 描述: 该数据集包含2016年至2018年间在Olist Store进行的10万次订单信息,涵盖订单状态、价格、支付和货运性能等多个维度。数据还包括客户位置、产品属性和客户评价。

数据集内容

  • 订单信息: 包括订单状态、价格、支付和货运性能。
  • 客户信息: 包括客户位置和评价。
  • 产品信息: 包括产品属性和类别。

数据集特点

  • 匿名处理: 数据已进行匿名处理,所有商店和合作伙伴的名称已被替换为《权力的游戏》中的大家族名称。
  • 多维度分析: 支持从多个维度分析订单,如订单状态、价格、客户评价等。
  • 地理信息: 提供与巴西邮政编码相关的经纬度坐标数据。

数据集用途

  • 自然语言处理(NLP): 分析客户评价文本。
  • 聚类分析: 分析未留下评价的客户满意度。
  • 销售预测: 利用购买日期信息预测未来销售。
  • 配送性能分析: 优化配送时间。
  • 产品质量分析: 分析易导致客户不满的产品类别。
  • 特征工程: 从丰富数据集中创建新特征或结合外部公共信息。

数据集结构

  • 数据分割: 数据被分割成多个子集以方便理解和组织。
  • 客户识别: 每个订单关联一个唯一的客户ID,同一客户在不同订单中可能有不同ID,但通过客户唯一ID可以识别重复购买的客户。

数据集版本

  • 版本变更: 先前发布的分类数据集在版本6中被移除,计划在新的数据架构下重新发布。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由Olist公司慷慨提供,涵盖了2016年至2018年间在Olist商店进行的100,000笔订单的详细信息。数据集通过多维度视角展示了订单的各个方面,包括订单状态、价格、支付和货运表现、客户位置、产品属性以及客户评价等。此外,数据集还包含一个地理定位数据集,将巴西的邮政编码与经纬度坐标关联起来。为了保护商业隐私,数据中的公司和合作伙伴名称已被替换为虚构的名称。
特点
该数据集的显著特点在于其多维度的数据结构,允许用户从不同角度分析订单信息,如订单状态、支付方式、货运表现等。此外,数据集还提供了客户的地理位置信息,便于进行地理分析。数据集中的文本数据经过匿名化处理,确保了数据的安全性和隐私性。通过与营销漏斗数据集的结合,用户可以进一步从营销角度分析订单数据。
使用方法
用户可以通过该数据集进行多种分析,如自然语言处理(NLP)以解析客户评价,聚类分析以识别客户满意度,销售预测以预测未来销售趋势,以及货运表现分析以优化配送时间。此外,数据集还支持产品类别分析,帮助识别容易导致客户不满的产品类别。用户可以通过数据集中的客户信息识别重复购买的客户,从而进行更精细的客户行为分析。
背景与挑战
背景概述
巴西电子商务公共数据集由Olist提供,该数据集涵盖了2016年至2018年间在Olist商店进行的100,000笔订单。作为巴西最大的市场平台之一,Olist通过单一合同连接了全国各地的小型企业,使其能够通过Olist商店销售产品,并使用Olist的物流合作伙伴直接发货给客户。数据集不仅包括订单状态、价格、支付和货运表现等维度,还提供了客户位置、产品属性和客户评论等信息。此外,该数据集还包含一个地理定位数据集,将巴西的邮政编码与经纬度坐标关联起来,进一步丰富了数据的多维度分析能力。Olist的这一贡献为电子商务领域的研究提供了宝贵的真实商业数据,推动了相关领域的深入探索。
当前挑战
该数据集在构建和应用过程中面临多项挑战。首先,数据集涉及多个维度的信息,如订单状态、支付方式、货运表现等,如何有效整合这些信息以进行多维度分析是一个技术难题。其次,数据集中包含大量文本评论,这些评论的情感分析和自然语言处理(NLP)为研究者提出了新的挑战。此外,由于数据集涉及多个卖家和产品,如何准确识别和关联不同订单中的客户信息,以及如何处理订单中可能存在的多个商品和不同卖家的问题,都是数据处理中的关键挑战。最后,数据集的更新和维护,特别是随着业务模式的变化,如何保持数据集的时效性和准确性,也是一项持续的挑战。
常用场景
经典使用场景
巴西Olist电子商务公共数据集为研究人员和从业者提供了一个丰富的数据环境,用于从多个维度分析电子商务订单。其经典使用场景包括通过订单状态、价格、支付和货运表现等特征,深入分析客户行为和市场趋势。此外,结合地理定位数据,可以进一步研究客户分布和物流效率,为优化电子商务运营提供数据支持。
衍生相关工作
基于巴西Olist电子商务公共数据集,衍生了许多经典的研究工作。例如,有研究利用该数据集进行自然语言处理(NLP),分析客户评论中的情感倾向,以评估产品和服务质量。此外,还有研究通过聚类分析,识别不同客户群体的购买行为模式,为精准营销提供支持。这些衍生工作不仅丰富了电子商务领域的研究内容,也为实际业务提供了有力的数据分析工具。
数据集最近研究
最新研究方向
在电子商务领域的研究中,巴西Olist电子商务公共数据集因其丰富的多维度订单信息而备受关注。该数据集不仅涵盖了订单状态、价格、支付和物流表现等传统维度,还提供了客户地理位置、产品属性和客户评论等深度信息,为研究者提供了广阔的探索空间。近期,该数据集在前沿研究中主要应用于自然语言处理(NLP)、聚类分析、销售预测、物流绩效优化以及产品品质分析等领域。特别是在NLP领域,通过对客户评论的深入解析,研究者能够挖掘出影响客户满意度的关键因素,从而为电商平台提供优化策略。此外,结合地理信息数据,该数据集还为物流路径优化和客户行为分析提供了新的视角,进一步推动了电子商务领域的精细化运营研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作