Snowflake Synthetic Datasets
收藏github2025-08-23 更新2025-08-24 收录
下载链接:
https://github.com/sfc-gh-ddejesus/snowflake-synthetic-datasets
下载链接
链接失效反馈官方服务:
资源简介:
该存储库包含专门为Snowflake Data Cloud设计和优化的合成数据集。每个数据集提供真实的业务场景,具有完整的Snowflake兼容性、高级语义层和AI就绪的分析能力。包含酒店连锁数据集(酒店行业收入管理和客户分析)和维护操作数据集(工业设备维护和可靠性分析)
This repository contains synthetic datasets specifically designed and optimized for the Snowflake Data Cloud. Each dataset provides realistic business scenarios, featuring full Snowflake compatibility, advanced semantic layers, and AI-ready analytical capabilities. It includes two datasets: the hotel chain dataset (for hotel industry revenue management and customer analytics) and the maintenance operations dataset (for industrial equipment maintenance and reliability analytics).
创建时间:
2025-08-20
原始信息汇总
Snowflake Synthetic Datasets 概述
数据集简介
专为Snowflake Data Cloud设计和优化的合成数据集,提供完整的Snowflake兼容性、高级语义层和AI就绪分析能力。
可用数据集
🏨 酒店连锁数据集
位置: hotel_chain/
Snowflake特性:
- 3个聚焦语义模型:收入管理、宾客分析、辅助服务
- 原生Snowflake SQL:优化的DDL和数据生成脚本
- 15,000+真实预订记录,使用Snowflake数据类型
- 9,000+辅助销售交易,使用Snowflake函数
- 客户忠诚度计划,包含业务友好维度
- 公司账户和团体预订分析
- 动态定价模型,用于收入管理
- 25+业务指标,涵盖聚焦语义模型
- 自然语言就绪,支持Cortex Analyst
用途:
- Snowflake收入管理优化
- Snowflake Data Cloud上的客户分析和细分
- 运营效率分析
- Snowflake商业智能培训
- Snowflake数据仓库设计模式
完整文档: https://github.com/sfc-gh-ddejesus/snowflake-synthetic-datasets/hotel_chain/README.md
🔧 维护运营数据集
位置: maintenance-operations/
Snowflake特性:
- 维护分析语义模型:设备可靠性、技术人员生产力、故障分析
- 原生Snowflake SQL:优化的DDL,包含高级视图和函数
- 30+真实工单,包含完整维护生命周期跟踪
- 25个工业设备资产,包含适当分类和关键级别
- 12个技术人员档案,包含专业化和绩效指标
- 高级KPI计算,使用Snowflake函数(MTTR、可用性、成本比率)
- 故障跟踪和根本原因分析,包含标准化故障代码
- 零件库存管理,包含使用模式和重新订购分析
- 自然语言就绪,支持Cortex Analyst维护查询
用途:
- Snowflake Data Cloud上的设备可靠性分析
- 使用Snowflake ML进行预测性维护建模
- 技术人员生产力和劳动力优化
- 维护成本分析和预算规划
- 故障模式分析,用于持续改进
- 零件库存优化和供应链分析
完整文档: https://github.com/sfc-gh-ddejesus/snowflake-synthetic-datasets/maintenance-operations/README.md
Snowflake快速入门
每个数据集都包含:
- Snowflake DDL:为Snowflake Data Cloud优化的数据库模式
- 语义视图:为Cortex Analyst设计的业务友好层
- 数据生成:使用原生Snowflake函数(GENERATOR、RANDOM等)的脚本
- 业务分析:为Snowflake SQL优化的预构建查询
- 自然语言:支持Cortex Analyst AI驱动分析
- 文档:完整的设置指南和Snowflake最佳实践
未来计划
计划添加的数据集(全部为Snowflake优化):
- 电子商务和零售分析,包含Snowflake语义层
- 医疗保健患者管理,使用Snowflake安全数据共享
- 金融服务,包含Snowflake合规功能
- 制造供应链,利用Snowflake流式处理能力
- SaaS客户参与,包含Cortex ML集成
- 人力资源和劳动力分析,包含员工生命周期跟踪
- 供应链和物流,包含实时跟踪和优化
许可证
根据Apache License, Version 2.0许可。这些Snowflake优化的合成数据集用于教育和分析目的。所有数据均为人工生成,不代表真实的业务运营或客户信息。
适用场景:
- Snowflake培训和认证准备
- Cortex Analyst演示和研讨会
- Snowflake Data Cloud上的概念验证
- 使用Snowflake高级功能的学术研究
搜集汇总
数据集介绍

构建方式
Snowflake Synthetic Datasets采用高度结构化的构建方法,专为Snowflake Data Cloud环境量身定制。数据集通过原生Snowflake SQL脚本实现架构优化,运用GENERATOR和RANDOM等内置函数生成符合实际业务场景的合成数据。构建过程包含精心设计的语义视图层,确保数据模型既符合企业级标准又具备AI就绪特性,所有数据生成脚本均经过Snowflake云架构的性能优化。
特点
该数据集的核心特征体现在其深度适配Snowflake生态系统的专业设计。酒店链数据集包含15,000余条模拟预订记录和9,000多笔辅助交易数据,维护运营数据集则涵盖完整设备生命周期跟踪和故障分析体系。所有数据均采用Snowflake专属数据类型,内置动态定价模型、设备关键性分级等业务逻辑,并预置25个以上关键绩效指标的计算框架,为Cortex Analyst提供即用的自然语言分析基础。
使用方法
用户可通过执行预置的Snowflake DDL脚本快速部署数据库架构,随后运行数据生成脚本注入合成数据。数据集支持直接使用Cortex Analyst进行自然语言查询,例如询问特定区域的收入分布或设备维护成本趋势。预构建的语义视图层为业务用户提供直观的数据访问接口,同时为机器学习工作负载提供经过优化的数据管道,支持预测性维护和客户细分等高级分析场景。
背景与挑战
背景概述
Snowflake Synthetic Datasets由Snowflake Data Cloud团队于2023年推出,专为云端数据平台优化设计。该数据集聚焦于酒店业收入管理与工业设备维护两大商业场景,通过高度仿真的语义层架构支持企业级分析需求。其核心价值在于为Snowflake生态系统提供标准化测试基准,推动云端数据仓库与AI分析的融合创新,对企业数字化转型具有重要实践意义。
当前挑战
该数据集需解决多维度商业智能分析的复杂性挑战,包括动态定价模型优化、设备故障根因分析等领域难题。构建过程中面临Snowflake原生架构适配挑战,需实现语义视图与Cortex Analyst的无缝集成,同时确保生成数据的商业逻辑真实性与统计合理性,这对跨行业知识建模提出了极高要求。
常用场景
经典使用场景
在酒店管理领域,Snowflake合成数据集为收益管理和客户分析提供了标准化测试环境。该数据集通过模拟25家酒店的预订流水、附加服务交易和忠诚计划数据,支持研究者构建动态定价模型和客户细分策略。其语义层设计使得研究人员能够直接运用Snowflake Cortex Analyst进行自然语言查询,显著提升了酒店业数据实验的效率和真实性。
实际应用
企业可利用该数据集快速构建Snowflake云数据平台的演示环境,用于员工培训和系统验证。酒店集团可基于合成数据开发收益优化系统,而制造业企业则能模拟设备维护场景来测试预测性维护模型。这些应用显著降低了企业数据平台的实施风险,并加速了AI解决方案的落地进程。
衍生相关工作
基于该数据集衍生了多项Snowflake生态的重要研究,包括基于酒店数据的动态定价神经网络架构,以及工业设备故障预测的时序分析模型。这些工作不仅推动了Cloud-Native架构下的数据分析方法论发展,还为Snowflake Cortex AI引擎的优化提供了关键训练数据支撑。
以上内容由遇见数据集搜集并总结生成



