agentic-bi-ecommerce
收藏Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/thanhtai435/agentic-bi-ecommerce
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于电子商务分析的数据工程项目的一部分,特别针对来自Kaggle的Olist巴西电子商务数据集。数据集包含500个订单的样本数据,完整数据集约10万个订单。数据以星型模式组织,包括多个表(订单、订单项、客户、产品、卖家、支付、评论等),支持表格分类和回归任务。数据语言为葡萄牙语和英语。该项目涉及流数据管道、AI驱动的商业智能以及多层数据处理,适用于电子商务分析、数据挖掘和机器学习任务。数据集采用MIT许可证,规模在1K到10K之间,属于中等规模数据集。
创建时间:
2026-04-27
原始信息汇总
Agentic BI E-commerce (Olist) 数据集概述
基本信息
- 数据集名称: Agentic BI E-commerce (Olist)
- 许可证: MIT
- 语言: 葡萄牙语 (pt)、英语 (en)
- 任务类型: 表格分类 (tabular-classification)、表格回归 (tabular-regression)
- 数据集大小: 1K < n < 10K
- 标签: e-commerce、data-warehouse、agentic-bi、olist、star-schema、medallion-architecture、streaming
数据集配置
该数据集包含以下 7 个子配置(config),每个配置对应一个 Parquet 数据文件:
| 配置名称 | 数据文件 |
|---|---|
| orders | data/sample/orders.parquet |
| order_items | data/sample/order_items.parquet |
| customers | data/sample/customers.parquet |
| products | data/sample/products.parquet |
| sellers | data/sample/sellers.parquet |
| payments | data/sample/payments.parquet |
| reviews | data/sample/reviews.parquet |
数据来源与背景
- 数据集来源: 基于 Kaggle 上的 Olist Brazilian E-commerce 数据集
- 样本说明: 当前仓库包含约 500 条订单的样本数据,完整数据集(约 10 万条订单)可从 Kaggle 下载
- 项目性质: 本数据集是一个端到端数据工程项目的组成部分,集成了流式处理管道、数据湖屋架构和 AI 驱动的商业智能
数据架构
项目结构关键模块
-
数据管道 (Data Pipeline)
- 流式模拟器:通过 Kafka 将 CSV 数据转换为 6 个主题的事件流
- ETL 转换层:包含 Bronze → Silver(8 张表清理)和 Silver → Gold(星型模式转换)
- Airflow DAG 调度日常 ETL 流程
-
数据建模 (Star Schema)
- PostgreSQL 和 ClickHouse 初始化脚本定义了星型模式的数据仓库 DDL
-
分析模块 (Analytics & ML)
- 数据预处理:质量检查、清洗、PCA、特征工程
- 关联规则分析:Apriori 算法
- 客户分群:K-Means RFM 和 DBSCAN
- 满意度模型:决策树、朴素贝叶斯、随机森林
- 数据库内机器学习 (SQL ML) 与特征存储
-
Agentic BI 层
- 基于 smolagents 的多智能体系统
-
数据治理
- 数据血缘、行级安全、隐私保护和审计
-
前端仪表盘
- 4 页 Streamlit 应用
技术栈
- 流式处理:Kafka
- 数据仓库:PostgreSQL、ClickHouse
- 数据转换:dbt、Spark(通过 ETL 脚本)
- 编排调度:Airflow
- 容器化:Docker、Docker Compose(16 个服务)
- 前端:Streamlit
- AI 智能体:smolagents
- 数据格式:Parquet
搜集汇总
数据集介绍

构建方式
在电商数据分析与智能商业决策的交叉领域,该数据集基于Olist巴西电商公开数据集进行了深度工程化重构。构建过程严格遵循Medallion架构的三层数据治理范式:从原始数据层(Bronze)起始,经由数据清洗与标准化处理形成清洁数据层(Silver),最终聚合为星型模式的事实表与维度表,构成黄金数据层(Gold)。整个流水线集成了Kafka流式模拟器以实时注入数据,同时辅以dbt进行转换建模与Airflow进行任务编排,实现了从原始记录到分析就绪状态的全链路自动化。数据集以Parquet格式按订单、订单项、客户、产品、卖家、支付、评价等七个业务主题分片存储,提供了层次清晰、易于扩展的数据基底。
特点
该数据集的核心特色在于其面向智能代理式商业智能的深度适配能力。它不仅涵盖了完整的电商业务实体与关系,还预置了丰富的分析层构件,包括基于RFM的客户细分模型、Apriori关联规则挖掘结果、决策树与随机森林满意度预测模型及全流程特征工程输出。尤为突出的是,数据集融合了数据血缘追踪、行级安全控制与隐私合规机制,为探究企业级数据治理提供了实操素材。此外,基于smolagents框架构建的多智能体编排系统,使数据集能够支撑从自然语言查询到多步推理、再到自动化洞察生成的高级交互场景,显著拓展了传统表格数据集的功能边界。
使用方法
使用者可通过HuggingFace Datasets库按业务主题(如orders、customers、products)直接加载对应的Parquet分片,亦可从Kaggle源获取完整版以进行大规模实验。为支撑数据工程全流程教学,项目提供了完整的Docker化实验环境,内含16个微服务容器,一键启动即可复现Kafka流处理、PostgreSQL与ClickHouse双模存储、dbt转换及Streamlit可视化看板等环节。进阶用户可深入agentic_bi模块,调用预定义的多智能体分析流程,探索将大语言模型与结构化数据仓库相结合的Agentic BI范式,实现从指标查询到根因分析再到策略建议的类人推理闭环。
背景与挑战
背景概述
该数据集源于一项结合数据工程与人工智能的综合性项目,由越南学者于近期创建,基于Kaggle上知名的Olist巴西电子商务数据集构建而成。核心研究问题在于如何构建一个端到端的数据工程系统,将流式处理、湖仓一体架构与智能业务分析(Agentic BI)深度融合,以应对现代电商场景下海量、多源异构数据的实时分析需求。通过模拟包含约10万订单的真实业务数据,并采用星型模式、数据湖仓分层架构(青铜-白银-黄金)及多代理系统等前沿技术,该数据集为研究数据治理、实时分析、特征工程与智能决策支持提供了标准化且可复现的实验平台,对数据工程与人工智能交叉领域产生了积极影响。
当前挑战
该数据集面临的核心挑战在于解决电商领域多源异构数据集成与实时智能分析的难题。具体而言,构建过程中需要将订单、客户、产品、支付、评价等7个独立数据源的庞杂信息高效整合为统一星型模式,并实现从原始数据到可分析指标的流式转换,这对数据对齐、一致性保证与系统容错性提出了严峻考验。同时,引入Agentic BI机制要求系统不仅能完成传统报表分析,还需支持动态查询语义理解、实时推荐与预测模型的无缝衔接,这加剧了数据管道与智能服务之间的耦合复杂度,使得在保证低延迟响应与高吞吐处理的同时维持数据质量与业务规则的完整性成为一项关键挑战。
常用场景
经典使用场景
在电商数据分析领域,agentic-bi-ecommerce 数据集为构建端到端的数据工程与智能分析系统提供了绝佳的试验场。该数据集源自巴西知名电商平台 Olist,包含订单、商品、客户、卖家、支付、评价等核心业务表,遵循星型模式的数据仓库设计理念。研究者可将此数据集作为基准,实践流式数据管道的搭建,借助 Kafka 模拟实时数据流入,并以分层湖仓架构(Bronze-Silver-Gold)完成数据清洗与转换。这一过程不仅验证了数据集成与质量管控的可行性,更使得从原始日志到分析型宽表的全链路建模得以顺畅开展,是探索现代数据仓库与商业智能融合的理想入口。
实际应用
从实际落地角度看,agentic-bi-ecommerce 数据集为零售企业建设智能化商业分析中台提供了完整参考。基于该数据集构建的系统,能够实时监控订单量与支付趋势,动态发现商品搭配的关联规则,并借助 K-Means 或 DBSCAN 聚类算法对客户进行 RFM 分层,从而支撑精准营销推送。同时,基于决策树与随机森林的满意度预测模型,可帮助商家提前识别可能流失的用户并主动干预。更为关键的是,项目所倡导的 Agentic BI 能力——即由 AI 智能体自动解析用户提问并生成可视化洞察——已切实展现在 Streamlit 仪表盘之中,使得销售主管能够借助对话式界面随时获取业务建议,极大降低了数据消费的门槛。
衍生相关工作
围绕该数据集已衍生出多项代表性研究工作,涵盖数据工程全栈与智能分析前沿。其一,基于星型模式的 dbt 转换模型与 Airflow 调度 DAG 成为数据仓库课程中教授 ETL 编排的经典案例;其二,公开的 Apriori 关联规则与 K-Means 客户分群代码,为电商购物篮分析与精细化运营提供了可直接复用的算法模板;其三,项目中的 in_database_ml 脚本与特征存储设计,开辟了将机器学习逻辑内嵌于 SQL 层的新思路,显著降低了模型服务延迟。最引人注目的当属 smolagents 多智能体架构在 Agentic BI 中的实现,它展示了如何让语言模型自主调用数据集 API 完成聚合查询与趋势解读,这一开创性尝试已引发后续学者在智能数据分析助手方向上的持续探索。
以上内容由遇见数据集搜集并总结生成



