Olist E-commerce Dataset
收藏Olist E-commerce Database Setup
数据集概述
该数据集来自Olist,巴西最大的在线市场,包含2016年至2018年间约100,000笔交易的订单、产品、客户和卖家信息。
项目目标
主要目标是构建MySQL数据库,以便进行多维度的电子商务性能分析,包括订单状态、客户满意度、支付方式、交付效率等。地理位置数据支持地理分析,营销漏斗数据集可用于营销相关查询。
数据清洗
原始数据集文件需要大量清洗以确保与SQL标准兼容并在MySQL环境中实现最佳性能。
重复数据删除
从所有表中删除重复项以防止数据冗余并确保记录的完整性。
日期时间格式化
所有与日期相关的字段被转换为SQL兼容的日期时间格式。
特殊字符处理
某些文本字段中的逗号被移除以确保数据加载时的正确解析。
换行符处理
某些评论字段中的换行符被移除以确保数据加载时的顺利进行。
编码标准化
文件以UTF-8格式保存以支持特殊字符。
文件加载目录设置
所有清洗后的CSV文件保存到特定目录以方便数据加载。
数据库创建
数据清洗完成后,设置MySQL数据库结构以容纳各种表。
数据库初始化
在MySQL中创建名为“Brazil”的新数据库以存放Olist数据集。
字符编码
设置UTF-8字符编码以确保所有表的特殊字符兼容性。
表结构
数据库结构组织为七个关键表,每个表专注于数据集的一个特定组件:
- Customers Table: 客户详细信息,包括唯一客户ID、位置(城市和州)和邮政编码。
- Order Items Table: 订单中的单个商品信息,包括产品和卖家ID、商品价格和运费。
- Payments Table: 支付详细信息,包括支付方式、分期付款和金额。
- Order Reviews Table: 客户反馈,包括评分、标题、消息和评论时间戳。
- Orders Table: 每个订单的状态、订单和交付事件的时间戳以及客户ID。
- Products Table: 产品尺寸、重量和类别名称。
- Sellers Table: 卖家详细信息,包括位置(城市和州)和邮政编码。
- Geolocation Table: 将巴西邮政编码映射到地理坐标,支持基于地理位置的查询和分析。
数据加载过程
数据库结构完成后,使用LOAD DATA INFILE命令将清洗后的CSV文件导入MySQL中的相应表。
文件加载路径
使用LOAD DATA INFILE命令从指定目录加载每个清洗后的CSV文件。
字段分隔符和标题
每个文件以逗号分隔字段加载,忽略第一行(标题)以避免将列名加载为数据。
逐表加载
数据按顺序加载到每个表中。
最终备注
该数据库结构为分析巴西市场的电子商务交易提供了组织化和高效的方式。
索引
在频繁查询的列(如customer_id和order_id)上添加索引可以提高性能。
营销漏斗
通过整合Olist的营销漏斗数据集,可以获得关于客户行为销售和营销方面的额外见解。




