Chicago Sidewalk Cafe Permits
收藏github2023-12-11 更新2024-05-31 收录
下载链接:
https://github.com/mathewsrc/ETL-Chicago-Cafe-Permits
下载链接
链接失效反馈官方服务:
资源简介:
本项目使用多个Python库,包括Polars、Airflow、Soda、YData Profiling、DuckDB、Requests、BeautifulSoup、Loguru以及Google Cloud Services的BigQuery和Looker Studio,来优化从[Chicago Sidewalk Cafe Permits](https://catalog.data.gov/dataset/sidewalk-cafe-permits)数据集的提取、转换和加载过程。
本项研究运用了多项Python编程语言库,诸如Polars、Airflow、Soda、YData Profiling、DuckDB、Requests、BeautifulSoup、Loguru等,旨在对[芝加哥人行道咖啡馆许可](https://catalog.data.gov/dataset/sidewalk-cafe-permits)数据集进行高效的提取、转换与加载处理。
创建时间:
2023-10-15
原始信息汇总
数据集概述
数据集来源
- 名称: Chicago Sidewalk Cafe Permits
- 来源: Chicago Sidewalk Cafe Permits
数据处理技术
- 提取: 使用Requests库从API提取CSV数据。
- 转换: 使用Polars、DuckDB和Astro Python SDK进行数据转换。
- 加载: 将数据上传至BigQuery。
数据质量保证
- 数据质量检查: 使用Soda库在每个阶段进行数据质量检查。
- ETL流程管理: 使用Airflow进行ETL流程的编排。
数据分析与可视化
- 数据可视化: 使用Looker Studio进行数据可视化。
- 数据洞察: 生成关于最大许可持有者、每年许可数量和过期许可数量的洞察。
数据集访问
数据集详细信息
数据提取
- 使用Requests库从API提取关于芝加哥咖啡馆运营许可的CSV数据。
数据转换
- 使用Polars和DuckDB进行数据转换,包括:
- 降低列名
- 移除重复行
- 移除缺失值
- 删除所有值为空的行
数据加载
- 将本地数据上传至BigQuery。
数据可视化
- 使用Looker Studio创建数据可视化报告。
ETL流程管理
- 使用Airflow管理ETL流程,包括:
- 创建并发控制以避免对DuckDB的多次调用
- 使用Astro Python SDK加载CSV文件
- 使用Soda进行原始数据质量检查
- 生成数据概要分析
- 应用数据转换操作
数据质量检查
- 使用Soda进行数据质量检查,确保数据在转换后符合预期。
数据洞察
- 分析包括:
- 最大许可持有者
- 每年许可数量
- 过期许可数量
数据集架构
架构概览
- 描述了使用Airflow、Soda、BigQuery和Looker进行ETL处理的架构。
持续集成架构
- 使用GitHub Actions进行持续集成。
BigQuery表
- 描述了如何使用BigQuery创建报告视图并将其导出到Looker Studio。
Looker仪表板
- 展示了使用Looker Studio创建的数据可视化仪表板。
Airflow工作流
- 描述了使用Airflow管理ETL流程的各个部分,包括数据提取、转换、加载和质量检查。
项目结构
- 描述了项目的目录结构,包括数据文件、报告、配置文件和测试文件。
运行项目
- 提供了运行项目的必要步骤和前提条件,包括安装Astro CLI、Docker Desktop和Google Cloud账户设置。
搜集汇总
数据集介绍

构建方式
Chicago Sidewalk Cafe Permits数据集的构建过程采用了ETL(Extract, Transform, Load)技术,结合了多种Python库和云服务工具。数据提取阶段通过Requests库从API获取CSV格式的芝加哥咖啡馆运营许可数据。随后,使用Polars、DuckDB和Astro Python SDK进行数据清洗和转换,确保数据的准确性和一致性。数据加载阶段通过Google Cloud的BigQuery服务将处理后的数据上传至云端,并通过Looker Studio进行数据可视化。整个流程通过Airflow进行自动化调度,确保数据处理的连续性和高效性。
特点
该数据集涵盖了芝加哥市咖啡馆的运营许可信息,包括许可证编号、法律名称、营业名称、街道类型、城市、州、经纬度、签发日期、到期日期、支付日期等字段。数据集的特点在于其丰富的地理信息和时间维度,能够支持多维度的数据分析。此外,数据经过严格的清洗和验证,确保了数据的质量和可靠性。通过Looker Studio的可视化功能,用户可以直观地分析咖啡馆的分布、许可证的签发情况以及过期许可证的数量等关键指标。
使用方法
使用该数据集时,用户可以通过BigQuery进行数据查询和分析,生成自定义报告。数据集支持SQL查询,用户可以根据需求筛选和聚合数据。通过Looker Studio,用户可以创建交互式仪表盘,实时监控咖啡馆的运营情况。此外,数据集还支持与地理信息系统(GIS)的集成,用户可以通过经纬度信息进行空间分析,探索咖啡馆的地理分布特征。整个数据流程通过Airflow进行自动化管理,用户可以通过简单的命令行操作启动和监控数据处理任务。
背景与挑战
背景概述
Chicago Sidewalk Cafe Permits数据集由芝加哥市政府发布,记录了该市人行道咖啡馆的运营许可信息。该数据集的核心研究问题在于如何有效管理和分析城市公共空间的使用情况,特别是咖啡馆在公共空间中的分布与运营状态。通过该数据集,研究人员可以深入探讨城市商业活动的空间分布、许可发放的趋势以及公共空间管理的效率。该数据集自发布以来,已成为城市规划、商业分析和公共政策研究的重要数据源,为相关领域的研究提供了丰富的数据支持。
当前挑战
该数据集在应用过程中面临的主要挑战包括数据质量与一致性问题。由于数据来源于多个部门,可能存在数据格式不统一、缺失值较多等问题,这为数据清洗和预处理带来了较大难度。此外,数据的时间跨度较大,如何有效处理历史数据与实时数据的整合也是一个技术难点。在构建过程中,研究人员还需解决数据存储与处理的效率问题,特别是在大规模数据集上的查询与分析性能。最后,如何通过数据可视化工具(如Looker Studio)直观展示分析结果,也是该数据集应用中的一大挑战。
常用场景
经典使用场景
Chicago Sidewalk Cafe Permits数据集在学术界和城市规划领域中被广泛用于分析城市商业活动的空间分布与时间变化。通过该数据集,研究者可以深入探讨咖啡馆许可的发放趋势、地理分布特征及其与城市政策的关系。该数据集为城市管理者提供了决策支持,帮助其优化商业布局和资源配置。
解决学术问题
该数据集有效解决了城市商业活动研究中数据稀缺的问题,尤其是在咖啡馆许可数据的获取与分析方面。通过提供详细的许可信息,研究者能够量化商业活动的时空变化,揭示城市商业政策的实施效果,并为城市可持续发展提供数据支持。此外,该数据集还为城市经济学、地理信息系统(GIS)等领域的研究提供了宝贵的数据资源。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了基于GIS的商业活动可视化工具,帮助城市管理者直观了解咖啡馆的分布情况。此外,该数据集还被用于构建商业活动预测模型,为城市规划和政策制定提供科学依据。这些衍生工作进一步拓展了数据集的应用范围,推动了城市研究领域的发展。
以上内容由遇见数据集搜集并总结生成



