Sunrise Cafe Sales Datasets

github2026-05-17 更新2026-05-19 收录

下载链接：

https://github.com/beniii-data/dirty-cafe-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个合成咖啡馆销售数据集系列，专为练习数据清洗、探索性数据分析、仪表板制作、SQL查询、数据可视化和处理脏数据而构建。该项目模拟了一个名为Sunrise Cafe的虚构咖啡馆从2024年到2026年的业务增长。数据集故意设计有不同的损坏模式和数据质量问题，使其更真实、更适合实践。

This is a series of synthetic café sales datasets developed for practicing data cleaning, exploratory data analysis, dashboard creation, SQL querying, data visualization, and dirty data handling. This project simulates the business growth of a fictional café named Sunrise Cafe from 2024 to 2026. The datasets are intentionally designed with various corruption patterns and data quality issues to make them more realistic and suitable for practice.

创建时间：

2026-05-17

原始信息汇总

数据集概述

1. 基本信息

数据集名称：Sunrise Cafe Sales Datasets
数据来源：虚构的咖啡店业务数据，模拟2024年至2026年的发展场景
目的：用于数据清洗、探索性数据分析（EDA）、仪表盘制作、SQL查询、数据可视化以及处理脏数据等实践

2. 数据集构成

共包含3个数据集，随着业务增长而扩大规模：

数据集	行数	描述
Dataset 1	10,000	早期业务阶段，规模小，管理混乱
Dataset 2	50,000	业务快速增长，员工增多，数据质量参差不齐
Dataset 3	100,000	大规模运营，交易量高，数据污染更复杂

3. 数据列说明

列名	描述
transaction_id	唯一交易标识符
transaction_date	交易日期
item	购买的菜单项
category	商品类别
menu_id	产品标识符
qty	购买数量
price	每件商品的价格
total_spent	交易总金额
payment method	使用的支付方式
order type	就餐类型（堂食、外带或在线订单）

4. 数据质量问题

数据中故意引入了多种脏数据模式，包括：

缺失值
无效文本值
不一致的条目
损坏的分类数据
破碎的交易记录

示例错误标志：error、unknown、missing

5. 适用场景

本数据集主要用于以下场景：

数据清洗实践
数据分析入门
数据可视化练习
仪表盘测试
作品集项目

6. 工具与说明

生成工具：Python、Pandas、NumPy
备注：数据集均为完全合成数据，仅用于教育目的，不包含真实客户或业务数据。

搜集汇总

数据集介绍

构建方式

在零售与餐饮数据分析领域，真实业务数据往往难以获取且存在隐私限制。Sunrise Cafe Sales Datasets 应运而生，其构建过程独具匠心。该数据集系列模拟了一家名为 Sunrise Cafe 的虚拟咖啡厅从2024年至2026年的业务发展历程，通过编程手段逐步生成三个不同规模的数据集：Dataset 1 包含10,000行，对应初创阶段的小规模、管理混乱情景；Dataset 2 包含50,000行，模拟业务快速扩张、员工增多及混合数据质量；Dataset 3 包含100,000行，呈现大规模运营下的高交易量与更复杂的错误模式。每个数据集均被注入了多种现实世界中常见的数据问题，如缺失值、无效文本、不一致条目以及损坏的交易记录，使其更贴近真实业务数据环境，而非完美的教学范例。

使用方法

该数据集的使用方法灵活多样，适用于数据清洗、探索性数据分析、仪表板构建、SQL查询、数据可视化以及脏数据处理等多项实践。用户可以根据自身技能水平选择不同规模的数据集：初学者可先从 Dataset 1 入手，熟悉基础的缺失值填充和无效值修正技巧；进阶学习者可挑战 Dataset 2 中混合质量的数据，练习标准化的数据预处理流程；高级用户则可通过 Dataset 3 处理大规模复杂的损坏记录，测试更高级的数据修复算法。数据集可通过 GitHub 直接下载，亦可通过 Python 的 Pandas 和 NumPy 库进行加载与分析。特别适合学生和初级数据分析师用于构建个人作品集，或作为仪表板测试的数据源。所有数据均为完全合成的教育用途数据，不涉及真实客户或业务隐私。

背景与挑战

背景概述

Sunrise Cafe Sales Datasets是一个专为数据清洗、探索性数据分析、仪表盘构建、SQL查询及数据可视化等实践任务而设计的合成咖啡馆销售数据集系列。该数据集由研究者于2024年至2026年间创建，模拟了一家名为Sunrise Cafe的虚构咖啡馆企业的成长历程。核心研究问题在于提供一系列贴近真实商业场景、具有不同数据质量问题的数据集，以帮助学习者掌握处理脏数据及不完美数据的技能。该数据集对相关领域的影响力体现在为数据分析初学者和学生提供了珍贵的实操素材，弥补了现有教程中数据过于纯净的不足，促进了数据清洗与EDA等实用能力的发展。

当前挑战

该数据集面临的挑战首先来源于所解决的领域问题：如何模拟真实商业数据中的复杂数据质量问题，包括缺失值、无效文本、不一致条目、类别数据损坏及交易记录断裂等，以锻炼学习者应对实际工作中脏数据的能力。其次，构建过程中的挑战在于需精心设计不同阶段的数据集（如10,000行、50,000行和100,000行），使其分别反映早期经营、快速增长及大规模运营时的数据模式与损坏特点，同时确保合成数据的真实性和教育意义的平衡，避免过度简化或失真，从而为学习者创建从易到难的渐进式学习路径。

常用场景

经典使用场景

在数据科学与商业分析的教学与实践中，Sunrise Cafe Sales Datasets 被广泛用作从原始数据到洞察的完整流程模拟平台。研究者与学习者通过该数据集演练数据清洗、探索性数据分析（EDA）、可视化仪表盘构建以及SQL查询等核心技能。由于数据集中嵌入了缺失值、异常文本、不一致条目及断裂交易记录等多种真实世界中常见的污染模式，使用者可以在一个受控但接近现实的商业环境中，系统性地训练识别并修复数据质量问题的能力，从而弥合教科书理论与工业实践之间的鸿沟。

解决学术问题

该数据集精准地回应了数据科学教育中长期存在的“干净数据”与“真实数据”脱节的痛点。学术研究中，初学者往往仅接触经过完美预处理的范例数据，一旦面对现实业务中错综复杂的数据瑕疵便无所适从。Sunrise Cafe Sales Datasets 通过主动引入六类以上精心设计的脏数据模式，为研究者提供了一块可复现、可量化的“试验田”，用以系统化研究数据清洗算法的鲁棒性、缺失值插补策略的有效性以及异常检测方法在餐饮销售场景中的适用性，其意义在于推动了数据质量学术探索从理论向实证的跨越。

实际应用

在现实商业世界中，该数据集直接为中小型餐饮企业的运营优化提供了方法论支持。数据分析师可借助该数据集演练构建销售趋势看板、热销品类排序、支付方式偏好度分析以及订单类型（堂食/带走/外卖）占比画像。这些分析产出能帮助实际经营者识别高峰时段、优化菜单结构、调整库存策略并制定更精准的促销方案。此外，数据集刻意模拟的企业从初创到规模化的发展阶段，也能训练从业者处理数据量剧增与复杂度提升时的工程化思维，从而在真实的商业智能场景中减少决策延迟。

数据集最近研究