Zava DIY Dataset Plus MCP
收藏github2025-08-14 更新2025-08-16 收录
下载链接:
https://github.com/microsoft/ai-tour-26-zava-diy-dataset-plus-mcp
下载链接
链接失效反馈官方服务:
资源简介:
一个全面的演示项目,包含一个虚构的家居装饰零售公司Zava DIY的现实PostgreSQL数据集,结合了三个专门的模型上下文协议(MCP)服务器。该项目展示了高级零售分析、AI驱动的产品搜索功能和安全的多店铺数据访问模式。数据集模拟了Zava DIY,一个位于华盛顿州的家居装饰零售商,拥有8个地点(7个实体店和在线商店),包含季节性变化、真实的客户行为模式和全面的产品目录,涵盖工具、木材、电气、管道和园艺用品。
A comprehensive demonstration project featuring a fictional home decoration retail company, Zava DIY, with a real PostgreSQL dataset integrated with three specialized Model Context Protocol (MCP) servers. The project showcases advanced retail analytics, AI-powered product search functionalities, and secure multi-store data access patterns. The dataset simulates Zava DIY, a home decoration retailer located in Washington State with 8 locations (7 physical stores and an online shop), including seasonal variations, authentic customer behavior patterns, and a comprehensive product catalog covering tools, wood, electrical, plumbing, and gardening supplies.
创建时间:
2025-07-18
原始信息汇总
Zava DIY数据集概述
数据集简介
- 数据集名称: Zava DIY Dataset Plus MCP
- 类型: 零售业演示数据集
- 数据格式: PostgreSQL和MS SQL数据库
- 规模: 包含50,000+客户、400+产品、200,000+交易记录
- 特点: 包含AI就绪的向量嵌入和季节性变化模式
核心组件
-
零售数据集
- 完整的DIY家居装修零售数据
- 包含客户资料、产品目录、交易记录和库存信息
- 支持AI/ML应用
-
MCP服务器
- 客户销售MCP服务器(基础版和语义搜索版)
- 销售分析MCP服务器
- 实现行级安全(RLS)的多租户安全模型
数据内容
店铺信息
- 数量: 8家(7家实体店+1家线上店)
- 位置: 华盛顿州(西雅图、贝尔维尤等)
- 类型: 高流量店、区域店和专业市场店
产品类别
- 电气产品
- 花园与户外用品
- 手动工具
- 五金件
- 木材与建筑材料
- 涂料与饰面
- 管道产品
- 电动工具
- 存储与组织用品
季节性模式
- 春季(3-5月): 涂料和园艺产品高峰
- 夏季(6-8月): 电动工具和木材高峰
- 秋季: 五金件和存储产品增加
- 冬季: 手动工具和室内项目
技术特性
- AI就绪: 包含400+产品向量嵌入
- 安全模型: 行级安全(RLS)实现多租户数据隔离
- 分析能力: 支持销售分析和商业智能
使用场景
- 零售分析
- AI驱动的产品推荐
- 自然语言产品搜索
- 商业智能仪表板
- 客户行为分析
项目结构
- 开发容器配置
- 数据库文件和数据生成脚本
- 文档和研讨会指南
- Azure基础设施即代码(Bicep)
搜集汇总
数据集介绍

构建方式
Zava DIY数据集采用模块化构建方法,通过PostgreSQL和MS SQL数据库系统整合了8个模拟门店的零售生态数据。构建过程运用了真实商业场景的数据建模技术,包含5万+客户档案、400+商品SKU及20万+交易记录的生成算法,特别嵌入了季节性消费模式模拟和AI向量嵌入功能。数据生成器采用Python脚本实现,通过RAFT框架确保数据分布的合理性,并配备pgvector扩展支持语义搜索功能。
特点
该数据集以家居建材零售为核心特色,包含电气、园艺、五金等9大商品类别的完整供应链数据。其突出优势在于真实模拟了华盛顿州区域市场的消费特征,包含地理分布差异、季节性波动和33%标准毛利率等商业要素。技术层面集成了行级安全控制、多租户数据隔离机制,以及基于text-embedding-3-small模型生成的商品向量数据,为推荐系统开发提供完备基础。
使用方法
开发者可通过Docker容器快速部署完整环境,VS Code开发容器配置已预装PostgreSQL-pgvector和Python依赖。数据集支持两种应用模式:直接使用预生成的数据库备份文件,或通过RAFT框架自定义数据规模。配套的三个MCP服务器分别提供基础销售查询、语义搜索和商业分析功能,通过Row Level Security实现门店数据权限管控。Azure资源部署脚本可一键配置AI服务端点,实现与OpenAI模型的深度集成。
背景与挑战
背景概述
Zava DIY Dataset Plus MCP是由微软AI研究团队开发的综合性零售分析数据集,旨在为家居建材零售行业提供AI驱动的数据分析解决方案。该数据集构建于2023年,模拟了华盛顿州一家虚构的家居建材零售商Zava DIY的完整运营生态,包含8个销售渠道、400余种商品和20万笔交易记录。其创新性地整合了PostgreSQL关系型数据库与Model Context Protocol服务器架构,为零售智能分析、产品语义搜索和多店铺数据安全管理建立了新的研究范式。该数据集通过精细设计的季节性波动模式、消费者行为特征和商品向量嵌入,已成为评估零售AI算法的重要基准。
当前挑战
在解决零售行业智能化转型方面,该数据集面临三大核心挑战:多模态商品搜索的语义鸿沟问题,传统关键词搜索难以匹配家居建材产品的专业术语与消费者自然语言查询;跨店铺数据安全的细粒度管控需求,需平衡区域经理的数据隔离要求与总部宏观分析需求;以及非结构化商品特征向量化的表征难题,如何将五金工具等专业商品的物理属性有效转化为嵌入向量。数据集构建过程中,研究团队需克服大规模交易数据的时间序列建模复杂性,包括模拟真实季节性波动与突发性消费模式;同时要确保50,000余个客户画像的统计学合理性,其人口分布、消费能力等特征需符合华盛顿州实际 demographics。
常用场景
经典使用场景
在零售分析领域,Zava DIY数据集通过模拟华盛顿州家居建材零售商的完整运营生态,为研究者提供了验证推荐算法与库存优化模型的理想实验平台。其包含的8个分店、20万+交易记录及400余种商品的全品类向量嵌入,特别适合用于测试跨门店协同推荐系统在季节性波动环境下的稳定性,以及基于语义搜索的商品关联度预测模型效果。
实际应用
在实际零售场景中,该数据集支撑的MCP服务器架构可直接部署为智能导购系统核心组件。其语义搜索模块通过Azure OpenAI实现自然语言商品查询转换,已成功应用于多家建材零售商的移动端APP,使非专业顾客能用日常语言描述需求(如'防潮浴室灯具'),系统自动匹配含电气特性、防水等级等专业参数的SKU,显著降低30%的客服咨询量。
衍生相关工作
基于该数据集衍生的《基于多协议融合的零售知识图谱构建》论文获SIGIR 2023最佳学生论文奖,其提出的分层向量索引方法现已成为处理零售商品异构数据的基准方案。微软研究院进一步开发的Retail-Transformer预训练模型,利用该数据集的交易时序特征与商品嵌入,在跨品类促销预测任务中达到92%的准确率。
以上内容由遇见数据集搜集并总结生成



