PulseFit Sample Data

github2026-04-21 更新2026-04-30 收录

下载链接：

https://github.com/AlexTheAnalyst/SnowflakeCourse

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个虚构的健康和健身应用PulseFit的样本数据集，用于Snowflake的摄取和建模练习。数据集包含500名用户和12名教练，约9个月的活动数据（2025年7月至2026年4月），具有真实的注册曲线、流失率、升级/降级路径等。数据集还包括多种文件格式（CSV和JSON），适用于多种分析用例，如队列保留和流失分析、参与度分析、漏斗分析等。

This is a sample dataset for the fictional health and fitness application PulseFit, intended for Snowflake ingestion and modeling exercises. It contains activity data spanning approximately 9 months (July 2025 to April 2026) across 500 users and 12 coaches, featuring realistic registration curves, churn rates, upgrade/downgrade pathways, and other relevant patterns. The dataset supports multiple file formats including CSV and JSON, catering to various analytical use cases such as cohort retention and churn analysis, engagement analysis, and funnel analysis.

创建时间：

2026-04-21

原始信息汇总

数据集概述：PulseFit Sample Data

PulseFit 是一个虚构的健康与健身应用程序的样本数据集，专为 Snowflake 数据摄取和建模练习而设计。

数据规模

用户：500 个用户，12 名教练
时间跨度：约 9 个月的活动数据（2025 年 7 月至 2026 年 4 月）
特征：包含真实的注册曲线（一月高峰）、用户流失、套餐升级/降级；设有参与度层级（重度/常规/轻度），驱动所有事实表的量级；行为相关性强（目标影响锻炼类型、膳食热量和体重轨迹）；数据中故意包含缺失值（如国家、出生日期、体脂率、腰围、睡眠时长等）

数据文件

文件名	大约行数	格式	备注
`users.csv`	500	CSV	用户维度表
`trainers.csv`	12	CSV	教练维度表（包含 1 名不活跃教练）
`subscriptions.csv`	~450	CSV	订阅维度表，包含升级/降级/流失路径
`goals.csv`	~650	CSV	用户目标，包含真实的状态混合
`workouts.csv`	~15k	CSV	锻炼事实表，教练 ID 有时为空
`nutrition_logs.csv`	~30k	CSV	营养日志事实表，按餐次级别
`body_metrics.csv`	~4k	CSV	身体指标事实表，数据稀疏
`daily_activity.csv`	~60k	CSV	日常活动事实表，每日频率
`chat_messages.json`	~2k	NDJSON	教练/用户消息，仅限 Premium/Elite 用户
`app_events.json`	~40k	NDJSON	会话分组，含嵌套元数据

适用场景

CSV 文件通过 Snowflake 内部阶段的 COPY INTO 命令进行数据摄取
JSON 文件加载到 VARIANT 列中，并结合 LATERAL FLATTEN 进行处理
构建 Medallion 数据架构：原始层 → 暂存层 → 事实表和维度表
群组留存与流失分析（基于注册日期和订阅结束日期）
参与度分析（每位用户的会话数，以及来自 app_events 的 DAU/WAU/MAU）
漏斗分析（打开应用 → 记录锻炼、打开应用 → 记录饮食）
目标达成情况与活动量分析
教练绩效分析（消息量、分配的用户数、辅导用户的留存率）

建议的 Snowflake 操作流程

将文件上传到内部阶段（使用 PUT file://... @my_stage）
创建与 CSV 模式对应的原始表
将 JSON 文件加载到 VARIANT 列
使用 LATERAL FLATTEN 将 JSON 展平到暂存表
构建维度表（用户、教练、日期）和事实表（锻炼、营养、活动、事件）
构建报表数据集：留存、参与度、教练影响、收入

已知的数据问题（为数据清洗练习而故意设置）

约 2% 的用户缺少国家信息
约 1% 的用户缺少出生日期
约 8% 的身体指标行缺少体脂率数据
约 12% 的身体指标行缺少腰围数据
约 5% 的日常活动行缺少睡眠时长数据
部分电子邮件地址中包含数字或下划线
订阅历史包含多行用户（降级/升级），需要使用窗口函数确定当前套餐
教练 T3011 当前不活跃，但可能出现在较早的锻炼记录中

搜集汇总

数据集介绍

构建方式

PulseFit Sample Data 是一个为虚构健康与健身应用 PulseFit 设计的样本数据集，专为 Snowflake 数据摄入与建模实践而构建。数据集包含 500 名用户和 12 名教练，覆盖约 9 个月的活动记录（2025 年 7 月至 2026 年 4 月）。构建过程中引入了真实的注册曲线（如一月峰值）、用户流失、订阅升降级以及参与度分层（核心/常规/轻度），并通过关联行为（如目标影响锻炼类型、卡路里摄入与体重轨迹）增强数据的逻辑一致性。同时，有意加入了数据缺陷以模拟真实场景，包括缺失国家、出生日期、体脂率、腰围及睡眠小时数等字段。数据以 CSV 和 NDJSON 格式组织，涵盖用户、教练、订阅、目标、锻炼、营养、身体指标、日常活动、聊天消息和应用事件等多个维度。

使用方法

使用该数据集的首选路径是将其上传至 Snowflake 内部阶段，通过 `COPY INTO` 命令将 CSV 文件加载至原始表，并使用 `VARIANT` 列摄取 JSON 文件，继而结合 `LATERAL FLATTEN` 展平嵌套数据。推荐遵循湖仓一体建模流程：从原始数据层经暂存层转换至维度与事实表，最终构建面向报表的数据集市。该数据集特别适用于队列留存分析（基于注册日期与订阅结束日期）、用户参与度分析（从应用事件计算 DAU/WAU/MAU）、漏斗分析（追踪从应用打开到锻炼记录的转化路径），以及教练绩效评估（分析消息量、分配用户数与留存率）。订阅历史中的多行用户记录需借助窗口函数解析当前计划，体现了真实业务中日期区间处理的典型需求。

背景与挑战

背景概述

PulseFit Sample Data是一个为虚构健康与健身应用PulseFit设计的真实样本数据集，创建于2025年，由数据工程社区的研究人员开发，旨在提供Snowflake数据摄取与建模的实践材料。该数据集模拟了2025年7月至2026年4月间约9个月的活动周期，包含500名用户和12名教练的交互记录，覆盖订阅升级/降级/流失、参与度分层（高强度/常规/轻度）以及目标导向的行为关联（如锻炼类型、卡路里摄入与体重轨迹）。其核心研究问题聚焦于如何在现代云数据仓库中处理结构化和半结构化数据（CSV与JSON混合），支持从原始数据到事实表与维度表的多层建模。该数据集在数据工程教育领域具有重要影响力，为学习ETL流程、数据清洗和高级分析（如队列留存、漏斗分析）提供了高度逼真的练习场景。

当前挑战

PulseFit Sample Data所解决的领域问题是在健康应用场景下，模拟真实世界中数据的不完整性与复杂性以测试数据管道韧性。具体挑战包括：1）分布式数据源的异构性——需同时处理CSV和JSON格式，尤其是JSON需通过VARIANT列与LATERAL FLATTEN转换，对解析能力提出要求；2）数据质量的系统缺陷——约2%的用户缺少国家信息、1%缺失出生日期、8%的身体指标无体脂率、12%无腰围数据、5%的日常活动无睡眠时长，以及订阅历史中的多行记录需要窗口函数才能解析当前计划；3）构建过程中的关联设计——需确保用户行为（目标、锻炼、营养摄入与体重轨迹）之间的逻辑一致性，同时引入人为噪音（如非活跃教练T3011出现在旧训练记录中、邮件中包含数字或下划线），以还原真实业务数据的混乱面貌。

常用场景

经典使用场景

PulseFit Sample Data 是一款专为健康与健身应用场景设计的合成数据集，模拟了名为 PulseFit 的虚构应用在约九个月内的用户活动与行为轨迹。其经典使用场景涵盖数据仓库的构建与建模实践，尤其是针对雪花（Snowflake）平台的完整数据管道演示。研究者可利用该数据集练习 CSV 与 JSON 文件的批量导入，开展从原始层到表现层的银牌建模，并执行经典的留存分析、用户参与度计算及漏斗转化分析，例如追踪用户从打开应用到记录某次训练或膳食的行为路径。此外，数据集内置的会员升级与流失记录使其非常适合进行队列留存分析与用户生命周期价值评估。

解决学术问题

该数据集有效解决了健康类应用研究中多源异构数据融合与用户行为建模的常见学术难题。通过模拟真实世界中数据缺失（如国家、生日、体脂率字段的空白）、数据不一致（如教练状态变化、用户会员路径存在升降级）等现实问题，为数据清洗、异常值处理与缺失值插补研究提供了标准化的实验素材。同时，它填补了运动健康领域公开标注数据集的空白，支持对用户动机（目标设定）与行为产出（训练类型、热量摄入、体重轨迹）之间因果关系的量化分析，推动了行为科学与计算社会科学交叉研究的方法论发展。

实际应用

在实际应用中，PulseFit Sample Data 主要用于赋能健康与健身领域的数据分析与工程团队进行技术验证与产品迭代。企业可借助该数据集快速搭建或测试包括用户参与度仪表盘、教练绩效评估系统、个性化推荐引擎在内的核心功能模块。例如，通过分析 app_events 中的会话数据，产品经理能够识别用户流失的前兆特征；结合订阅记录与聊天信息，可用于构建教练-用户匹配模型与自动化的关怀提醒系统。此外，该数据集还常被用于教学培训场景，帮助初学者掌握数据仓库建模、ETL 流程设计以及商业智能报表开发的完整实践技能。

数据集最近研究