Lyft Dataset

github2023-12-18 更新2024-05-31 收录

下载链接：

https://github.com/snehalsmalladi/Lyft-Analytics-Data-Engineering-GCP-Mage-ETL

下载链接

链接失效反馈

官方服务：

资源简介：

本项目使用的数据集是从nyc.gov网站获取的TLC黄色和绿色出租车行程记录，包括上车和下车时间、地点、行程距离、详细费用、费率类型、支付类型和司机报告的计数。

The dataset used in this project consists of TLC yellow and green taxi trip records obtained from the nyc.gov website. These records include pickup and dropoff times and locations, trip distance, detailed fare information, rate types, payment types, and driver-reported counts.

创建时间：

2023-12-18

原始信息汇总

数据集概述

数据来源

数据集来源于nyc.gov网站，包含TLC黄色和绿色出租车行程记录。
数据字段包括：上车和下车时间、地点、行程距离、详细费用、费率类型、支付类型和司机报告的计数。

数据集详细信息

官方网站：https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page
数据字典下载：https://www.nyc.gov/assets/tlc/downloads/pdf/data_dictionary_trip_records_yellow.pdf

数据处理

数据模型设计：通过Lucid进行视觉设计，随后在Python环境中实现为数据帧。
数据转换与ETL：使用Mage AI工具进行数据格式转换，并将数据加载到云端。

云服务使用

云服务提供商：Google Cloud Platform (GCP)。
主要服务：Compute Engine用于虚拟计算实例，Cloud Storage BigQuery作为数据仓库，Looker Studio用于创建分析仪表板。

数据模型与框架

数据模型和框架的视觉表示图在README文件中以图片形式提供。

分析输出

分析结果通过Looker Studio创建的仪表板展示。

搜集汇总

数据集介绍

构建方式

Lyft数据集的构建过程始于从nyc.gov网站获取的TLC黄色和绿色出租车记录数据。这些数据涵盖了乘客上下车时间、地点、行程距离、详细费用、费率类型、支付方式以及司机报告的数量等字段。随后，通过Mage AI工具进行数据提取、转换和加载（ETL），将数据模型设计为事实表和维度表，并在Google Cloud Platform（GCP）上进行存储和处理。最终，数据被加载到BigQuery中，以便进行查询和分析。

特点

Lyft数据集的特点在于其丰富的字段信息，能够全面反映纽约市出租车的运营情况。数据集不仅包含基础的行程信息，还涵盖了详细的费用结构和支付方式，为分析提供了多维度的视角。此外，数据集经过精心设计的数据模型，确保了数据的一致性和可扩展性，使其能够支持复杂的分析需求。通过GCP和Mage AI的结合，数据集的处理效率得到了显著提升，适合大规模数据分析任务。

使用方法

Lyft数据集的使用方法主要包括数据获取、数据建模、ETL处理以及可视化分析。用户首先从nyc.gov网站下载原始数据，随后使用Mage AI工具进行数据清洗和转换，生成适合分析的数据模型。数据模型设计完成后，通过GCP的BigQuery进行存储和查询，最终利用Looker Studio构建交互式仪表盘，实现对数据的可视化分析。这一流程不仅确保了数据的高效处理，还为用户提供了直观的分析结果，支持决策制定。

背景与挑战

背景概述

Lyft数据集是由Lyft公司创建的一个用于分析共享出行服务的数据集，旨在通过数据工程和云计算技术优化出行服务的效率与用户体验。该数据集主要来源于纽约市出租车和豪华轿车委员会（TLC）的黄色和绿色出租车记录，涵盖了乘客上下车时间、地点、行程距离、费用明细、费率类型、支付方式等关键信息。该项目的核心研究问题在于如何通过数据建模、ETL（提取、转换、加载）流程以及云计算技术，构建一个端到端的数据分析管道，并最终通过Looker Studio生成可视化分析仪表盘。这一数据集及其分析流程为共享出行领域的运营优化和决策支持提供了重要的数据基础。

当前挑战

Lyft数据集在应用过程中面临多重挑战。首先，数据量庞大且复杂，涉及多维度信息的整合与清洗，这对数据建模和ETL流程提出了较高的技术要求。其次，数据来源的多样性和异构性增加了数据一致性处理的难度，尤其是在整合不同出租车公司的记录时，需要确保数据的准确性和完整性。此外，由于数据规模庞大，本地处理能力受限，必须依赖云计算平台（如GCP）进行高效的数据存储与计算，这对云服务的配置和优化提出了挑战。最后，如何通过Looker Studio等工具将复杂的数据分析结果以直观的方式呈现，也是项目成功的关键挑战之一。

常用场景

经典使用场景

Lyft数据集在数据工程和分析领域中被广泛用于构建端到端的数据处理管道。通过整合Python、GCP和Mage AI工具，研究人员能够从原始数据中提取有价值的信息，并将其转化为可视化的分析仪表板。这种流程不仅适用于Lyft的运营数据分析，还可推广至其他共享出行平台的数据处理场景。

衍生相关工作

基于Lyft数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了基于机器学习的出行需求预测模型，为动态定价和车辆调度提供了技术支持。此外，该数据集还被用于构建城市交通流量模拟系统，帮助城市规划者评估不同交通政策的影响。这些衍生工作进一步拓展了数据集的应用范围和学术价值。

数据集最近研究