five

Olist E-commerce Dataset

收藏
github2024-11-01 更新2024-11-05 收录
下载链接:
https://github.com/Nyangun/Olist-E-commerce-Database-Setup
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自巴西最大在线市场Olist的订单、产品、客户和卖家信息,涵盖了2016年至2018年间约100,000笔交易。数据集还包括地理位置数据和营销漏斗数据,用于多维度的电子商务性能分析。

This dataset contains order, product, customer, and seller information sourced from Olist, the largest online marketplace in Brazil, covering approximately 100,000 transactions spanning 2016 to 2018. It also includes geolocation data and marketing funnel data, designed to support multi-dimensional e-commerce performance analysis.
创建时间:
2024-11-01
原始信息汇总

Olist E-commerce Database Setup

数据集概述

该数据集来自Olist,巴西最大的在线市场,包含2016年至2018年间约100,000笔交易的订单、产品、客户和卖家信息。

项目目标

主要目标是构建MySQL数据库,以便进行多维度的电子商务性能分析,包括订单状态、客户满意度、支付方式、交付效率等。地理位置数据支持地理分析,营销漏斗数据集可用于营销相关查询。

数据清洗

原始数据集文件需要大量清洗以确保与SQL标准兼容并在MySQL环境中实现最佳性能。

重复数据删除

从所有表中删除重复项以防止数据冗余并确保记录的完整性。

日期时间格式化

所有与日期相关的字段被转换为SQL兼容的日期时间格式。

特殊字符处理

某些文本字段中的逗号被移除以确保数据加载时的正确解析。

换行符处理

某些评论字段中的换行符被移除以确保数据加载时的顺利进行。

编码标准化

文件以UTF-8格式保存以支持特殊字符。

文件加载目录设置

所有清洗后的CSV文件保存到特定目录以方便数据加载。

数据库创建

数据清洗完成后,设置MySQL数据库结构以容纳各种表。

数据库初始化

在MySQL中创建名为“Brazil”的新数据库以存放Olist数据集。

字符编码

设置UTF-8字符编码以确保所有表的特殊字符兼容性。

表结构

数据库结构组织为七个关键表,每个表专注于数据集的一个特定组件:

  • Customers Table: 客户详细信息,包括唯一客户ID、位置(城市和州)和邮政编码。
  • Order Items Table: 订单中的单个商品信息,包括产品和卖家ID、商品价格和运费。
  • Payments Table: 支付详细信息,包括支付方式、分期付款和金额。
  • Order Reviews Table: 客户反馈,包括评分、标题、消息和评论时间戳。
  • Orders Table: 每个订单的状态、订单和交付事件的时间戳以及客户ID。
  • Products Table: 产品尺寸、重量和类别名称。
  • Sellers Table: 卖家详细信息,包括位置(城市和州)和邮政编码。
  • Geolocation Table: 将巴西邮政编码映射到地理坐标,支持基于地理位置的查询和分析。

数据加载过程

数据库结构完成后,使用LOAD DATA INFILE命令将清洗后的CSV文件导入MySQL中的相应表。

文件加载路径

使用LOAD DATA INFILE命令从指定目录加载每个清洗后的CSV文件。

字段分隔符和标题

每个文件以逗号分隔字段加载,忽略第一行(标题)以避免将列名加载为数据。

逐表加载

数据按顺序加载到每个表中。

最终备注

该数据库结构为分析巴西市场的电子商务交易提供了组织化和高效的方式。

索引

在频繁查询的列(如customer_id和order_id)上添加索引可以提高性能。

营销漏斗

通过整合Olist的营销漏斗数据集,可以获得关于客户行为销售和营销方面的额外见解。

搜集汇总
数据集介绍
main_image_url
构建方式
Olist电子商务数据集的构建始于对巴西最大在线市场Olist的公开数据集的利用。该数据集涵盖了2016年至2018年间约100,000笔交易的相关信息,包括订单、产品、客户和卖家数据。数据集的构建过程包括数据清洗、重复记录的移除、日期格式的标准化、特殊字符的处理以及编码的标准化。所有这些步骤确保了数据在MySQL环境中的兼容性和性能优化。随后,通过LOAD DATA INFILE命令将清洗后的CSV文件导入到MySQL数据库中,形成了包含客户、订单、支付、评论等七个关键表的数据库结构。
特点
Olist电子商务数据集的特点在于其多维度的数据结构,支持对电子商务绩效的深入分析,如订单状态、客户满意度、支付方式和交付效率等。此外,该数据集还包含了地理位置数据,使得地理分析成为可能,并且可以通过整合营销漏斗数据集来增强营销相关的查询。数据集的每个表都设计有主键和相关约束,以确保数据完整性和查询效率。
使用方法
使用Olist电子商务数据集时,用户可以通过MySQL数据库进行多维度的分析。首先,用户可以利用数据库中的七个关键表进行数据查询和分析,每个表都包含了电子商务交易的不同方面。其次,用户可以通过添加索引在频繁查询的列上,如customer_id和order_id,来提升查询性能。此外,用户还可以通过整合营销漏斗数据集,进一步分析客户行为和销售策略。
背景与挑战
背景概述
Olist E-commerce Dataset是由巴西最大的在线市场Olist提供的一个公开数据集,涵盖了2016年至2018年间约100,000笔交易的数据。该数据集包含了订单、产品、客户和卖家信息,旨在支持多维度的电子商务性能分析,如订单状态、客户满意度、支付方式和配送效率等。通过地理位置数据,该数据集还支持地理分析,并可结合营销漏斗数据集进行营销相关的查询。这一数据集的创建为电子商务领域的研究提供了丰富的资源,特别是在巴西市场的电子商务行为分析方面,具有重要的研究价值和实际应用意义。
当前挑战
Olist E-commerce Dataset在构建过程中面临多项挑战。首先,原始数据文件需要进行大量的清理工作,以确保其符合SQL标准并能在MySQL环境中高效运行。这包括去除重复数据、调整日期格式、处理特殊字符和换行符,以及标准化编码格式。此外,数据加载过程中需要克服MySQL的secure-file-priv限制,确保数据能够顺利导入。未来,该数据集的进一步优化可能涉及在频繁查询的列上添加索引,以提升查询性能,并考虑整合营销漏斗数据集,以获得更深入的客户行为洞察。
常用场景
经典使用场景
Olist电子商务数据集的经典使用场景主要集中在多维度的电子商务性能分析上。通过该数据集,研究者和分析师能够深入探讨订单状态、客户满意度、支付方式、配送效率等多个方面。特别是,结合地理位置数据,可以进行地理层面的分析,从而揭示不同地区的消费行为和市场趋势。此外,营销漏斗数据集的整合,使得营销相关的查询和分析成为可能,进一步丰富了数据集的应用场景。
实际应用
在实际应用中,Olist电子商务数据集被广泛用于优化电子商务平台的运营。企业可以利用该数据集分析客户行为,识别高价值客户并制定个性化营销策略。同时,通过分析订单和配送数据,企业能够优化库存管理和物流配送,提高运营效率。此外,数据集中的客户反馈信息为改进产品和服务提供了直接依据,帮助企业提升客户满意度和市场竞争力。
衍生相关工作
Olist电子商务数据集的发布催生了多项相关研究和工作。例如,有研究利用该数据集进行客户行为分析,提出了基于数据驱动的客户细分模型。此外,数据集还被用于开发预测模型,以预测订单状态和客户满意度,从而提前采取措施优化服务。营销领域的研究者也利用该数据集进行营销漏斗分析,提出了改进营销策略的建议。这些衍生工作不仅丰富了电子商务领域的研究,也为实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作