five

data-warehousing-course

收藏
Hugging Face2026-04-28 更新2026-04-29 收录
下载链接:
https://huggingface.co/datasets/thanhtai435/data-warehousing-course
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是越南国立大学胡志明市经济与法律大学(UEL)BIM5021 - 数据仓库与集成课程的教学数据集。数据集包含电子商务相关的多个表格数据,如订单、订单项、客户、产品、卖家、支付和评价等,以Parquet格式存储。数据集适用于表格分类和回归任务,支持葡萄牙语、英语和越南语。数据集规模在1K到10K样本之间,主要用于教育目的,涵盖数据仓库、数据挖掘和电子商务等领域。数据集采用MIT许可证发布,是课程实践部分的重要组成部分,涉及数据架构、建模、ETL/ELT流程、数据预处理、数据挖掘、数据库内机器学习等多个主题。
创建时间:
2026-04-27
原始信息汇总

数据集概述

数据集名称:BIM5021 - Data Warehousing & Integration Course (Nhà kho dữ liệu và Tích hợp)

数据集地址:https://huggingface.co/datasets/thanhtai435/data-warehousing-course

许可证:MIT

语言:葡萄牙语 (pt)、英语 (en)、越南语 (vi)

任务类别:表格分类 (tabular-classification)、表格回归 (tabular-regression)

标签:教育 (education)、数据仓库 (data-warehouse)、数据挖掘 (data-mining)、电子商务 (e-commerce)、olist

数据集大小:1K < n < 10K

数据集配置与数据文件

该数据集包含以下7个配置(子集),每个配置对应一个Parquet格式的数据文件:

配置名称 数据文件
orders datasets/sample/orders.parquet
order_items datasets/sample/order_items.parquet
customers datasets/sample/customers.parquet
products datasets/sample/products.parquet
sellers datasets/sample/sellers.parquet
payments datasets/sample/payments.parquet
reviews datasets/sample/reviews.parquet

这些数据文件为 Olist E-commerce 的样本数据,可在页面上的 Dataset Viewer 选项卡中预览。

数据集用途与背景

此数据集来源于 BIM5021 - 数据仓库与集成 课程,由 胡志明市经济法律大学 (UEL) 信息系统系开设,共计3学分(2理论 + 1实践)。课程内容覆盖9个章节,涉及数据架构、模型设计、数据管道、预处理、数据挖掘、MLOps、治理与安全、生成式BI及多模型数据等主题。该数据集主要用于课程教学与实践项目。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自BIM5021“数据仓库与集成”课程,旨在为教育场景提供一套标准的电子商务样本数据。构建方式基于Olist电商平台的真实交易记录,从中抽取了7个核心业务表,包括订单、订单项、客户、产品、卖家、支付及评论信息。所有数据以Parquet列式存储格式组织,每个子集对应一个独立的配置项,便于在HuggingFace平台上通过Dataset Viewer分表预览,实现了从原始业务数据到课程教学资源的系统化转化。
使用方法
使用者可通过HuggingFace的datasets库按配置名加载特定子表,例如`load_dataset('thanhtai435/data-warehousing-course', 'orders')`,即可获得Pandas兼容的数据对象。该数据集内置了从第1章“数据架构”到第9章“多模型数据”共9个章节的配套实验与图表,支持离线Jupyter Notebook开发与云端协同。结合配套的`agentic-bi-ecommerce`项目,可完整演练从数据仓库建模到智能BI分析的闭环任务。
背景与挑战
背景概述
该数据集由越南胡志明市国立大学经济与法律大学(UEL)信息系统系的Nguyen Thon Da博士和Nguyen Van Ho硕士为BIM5021数据仓库与集成课程创建,旨在为教育领域提供结构化的电商样本数据。数据集基于巴西Olist电商平台的真实交易记录,涵盖订单、产品、客户、支付、评价等七个维度表,支持星型模式建模、ETL流程实践及数据挖掘任务。作为教学资源,它填补了数据仓库课程中标准化学术样本的空白,被广泛用于课堂实验和学术研究,促进了数据工程与商业智能领域的人才培养。
当前挑战
该数据集主要面临两大挑战:其一,领域问题层面,数据仓库教育常因缺乏真实且规模适中的多表关联数据,导致学生难以透彻理解星型模式、缓慢变化维度(SCD)等核心概念,而该数据集通过订单与评价等异构表格的集成,解决了理论脱离实践的痛点。其二,构建过程中,数据需从原始电商日志中清洗、规范化并保持维度间一致性,同时确保多语言(葡萄牙语、英语、越南语)标注的准确性;此外,样本量控制在1千至1万条范围内,需平衡教学可操作性与真实业务场景的复杂性,避免歧义或过度简化。
常用场景
经典使用场景
该数据集源自Olist电商平台,经过精心设计以服务于数据仓库与集成课程的教学实践,覆盖订单、商品、客户、卖家、支付及评论等核心业务表,构成完整的多维星型模型。在经典使用中,学生可基于此数据集实践数据建模,构建事实表与维度表,开展ETL/ELT管道设计、缓慢变化维度处理及数据清洗与标准化等任务。同时,该数据集支持从数据预处理到数据挖掘的完整流程演练,诸如关联规则挖掘、决策树分类及K-Means聚类等经典算法均能在其结构化表格数据上直接应用,是学习数据仓库理论与数据科学方法论的理想教学资源。
解决学术问题
该数据集致力于弥合数据仓库与数据挖掘课程中理论知识与实操技能之间的鸿沟,为学术研究提供真实商业背景下的标准化实验数据。它解决了教学场景中缺乏贴近实际的多表关联结构化数据集的难题,使得星型模式构建、渐变维度管理、数据管道开发等抽象概念得以具象化。研究人员可借此探索基于电商业务的数据治理策略,评估不同预处理技术对下游数据挖掘任务性能的影响,并验证新一代数据架构如Data Mesh或Lakehouse在中小规模数据集上的可行性。其对教学与研究的双重促进作用,提升了数据工程课程的教学质量与实验复现性。
实际应用
在实际应用中,该数据集所代表的电商业务数据模式可被直接借鉴用于商业智能系统的搭建与报告生成。例如,分析师可借助其订单与评论数据开展销售趋势分析、客户流失预测及商品推荐引擎的初步验证,从而助力电商企业优化库存管理和营销策略。数据工程师可在其基础上模拟生产环境中的数据管道调度与ETL性能调优,数据科学家则可利用其多维度特征进行回归建模与异常交易检测。此外,该数据集还适配生成式BI与智能代理BI等前沿应用场景,为开发对话式数据分析工具提供标准化的测试数据。
数据集最近研究
最新研究方向
该数据集聚焦于数据仓库与集成课程的教学实践,最新研究方向紧密围绕生成式商业智能(Generative BI)与智能体商业智能(Agentic BI)等前沿热点,结合多模型架构(如图、向量、区块链)进行探索。数据集基于Olist电商场景,通过星型模式、SCD和Medallion架构等建模技术,支持ETL/ELT管道、数据挖掘(如Apriori、K-Means)及MLOps的教学。此外,参考2026年欧盟AI法案,研究还涉及数据治理、安全与伦理,为现代数据架构(如Lakehouse和Data Mesh)提供教学案例。这些研究方向反映出数据仓库领域正从传统建模向智能化、合规化转型,对培养新一代数据工程师具有重要实践意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作