five

TLC Trip Record Data

收藏
github2024-06-22 更新2024-06-23 收录
下载链接:
https://github.com/RITIKSHARMAOFFICIAL/Uber-Data-Engineering
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含黄色和绿色出租车的行程记录,包括字段如上车和下车日期/时间、位置、距离、项目化费用、费率类型、支付方式和司机报告的乘客数量。

This dataset contains trip records for yellow and green taxis, including fields such as pickup and dropoff date and time, pickup and dropoff locations, trip distance, itemized fares, rate type, payment method, and the passenger count reported by the driver.
创建时间:
2024-06-22
原始信息汇总

数据集概述

数据集介绍

目标

该项目旨在使用多种工具和技术分析Uber行程数据,包括Google Cloud Platform (GCP)存储、Python、Compute Engine、Mage数据管道工具、BigQuery和Looker Studio。分析旨在回答以下关键问题:

  1. 按行程数量排名的前10个上车地点是什么?
  2. 按乘客数量统计的行程数量是多少?
  3. 平均票价在一天中的不同时间段如何变化?

数据集详情

TLC行程记录数据

该数据集包括黄色和绿色出租车的行程记录,包含字段如上车和下车日期/时间、地点、距离、明细票价、费率类型、支付方式和司机报告的乘客数量。

使用的技术

编程语言

  • Python

Google Cloud Platform组件

  1. Google Storage
  2. Compute Engine
  3. BigQuery
  4. Looker Studio

数据管道工具

  • Mage

项目步骤

数据建模和实体关系图

使用Python开发转换代码

创建GCP项目和存储桶

  • 将数据上传到存储桶,设置服务器并配置必要的权限。

在GCP中生成虚拟机实例

  • 设置VM的命令:

    sudo apt-get install update sudo apt-get install python3-distutils sudo apt-get install python3-apt sudo apt-get install wget wget https://bootstrap.pypa.io/get-pip.py sudo python3 get-pip.py

将VM连接到Mage项目并设置依赖项

使用Mage构建数据管道

  • 使用Mage块如数据加载器、转换器和导出器。将转换代码集成到数据转换器中。

配置GCP凭据

  • io_config.yaml配置文件中包含GCP凭据。

使用BigQuery进行数据查询和ETL操作

在Looker Studio中开发仪表板

  • 构建仪表板以可视化洞察。也可以使用Power BI或Tableau等替代方案。

SQL查询和结果

前10个上车地点

SQL SELECT pickup_location_id, count(pickup_location_id) AS Trip_Num FROM uber_data_engineering_yt.fact_table GROUP BY pickup_location_id ORDER BY Trip_Num DESC LIMIT 10;

按乘客数量统计的行程数量

SQL SELECT passenger_count, count(passenger_count) AS passenger_trip FROM uber_data_engineering_yt.tbl_analytics GROUP BY passenger_count ORDER BY passenger_trip DESC;

按小时统计的平均票价

SQL SELECT d.pick_hour, ROUND(AVG(fare_amount), 2) AS fare FROM uber_data_engineering_yt.fact_table f JOIN uber_data_engineering_yt.datetime_dim d ON f.datetime_id = d.datetime_id GROUP BY d.pick_hour ORDER BY fare DESC;

搜集汇总
数据集介绍
main_image_url
构建方式
TLC Trip Record Data数据集的构建基于纽约市出租车和豪华轿车委员会(TLC)的记录,涵盖了黄色和绿色出租车的行程数据。该数据集包括了多个关键字段,如上车和下车的时间与地点、行程距离、详细费用、费率类型、支付方式以及司机报告的乘客数量。这些数据通过TLC的官方网站定期更新,确保了数据的时效性和准确性。数据集的构建过程涉及对原始数据的清洗、标准化处理,以及根据分析需求进行必要的字段提取和转换,最终形成了一个结构化的数据集,便于后续的分析和应用。
特点
TLC Trip Record Data数据集的主要特点在于其全面性和实时性。该数据集不仅包含了行程的基本信息,还详细记录了费用和支付方式,为研究乘客行为和市场动态提供了丰富的数据支持。此外,数据集的结构化设计使得数据易于访问和处理,支持大规模的数据分析和机器学习任务。通过与Google Cloud Platform等现代数据处理工具的结合,该数据集能够实现高效的存储、查询和可视化,满足不同层次的数据分析需求。
使用方法
使用TLC Trip Record Data数据集时,用户首先需要访问TLC官方网站下载最新数据,并根据数据字典进行数据解析。随后,用户可以通过Python等编程语言对数据进行预处理和清洗,以确保数据质量。在数据处理阶段,用户可以利用Google Cloud Platform的存储和计算资源,结合Mage等数据管道工具,实现数据的ETL操作。最后,通过BigQuery进行数据查询和分析,并使用Looker Studio或其他可视化工具创建仪表盘,以直观展示分析结果。整个使用流程旨在提供一个高效、灵活的数据分析环境,满足不同用户的需求。
背景与挑战
背景概述
TLC Trip Record Data是由纽约市出租车和豪华轿车委员会(TLC)提供的一个包含黄色和绿色出租车行程记录的数据集。该数据集涵盖了从接送日期和时间、地点、距离、详细费用、费率类型、支付方式到司机报告的乘客数量等多个字段。自其创建以来,该数据集已成为研究城市交通模式、乘客行为和出租车运营效率的重要资源。主要研究人员和机构通过分析这些数据,旨在揭示城市交通系统的动态变化,并为政策制定者提供数据支持,以优化城市交通管理。
当前挑战
TLC Trip Record Data在解决城市交通领域问题时面临多项挑战。首先,数据集的规模庞大,包含数百万条记录,这要求高效的存储和处理能力。其次,数据质量问题,如缺失值和异常值,需要通过复杂的预处理步骤来解决。此外,数据隐私和安全问题也是一大挑战,尤其是在涉及乘客和司机的敏感信息时。最后,如何从海量数据中提取有意义的洞察,并将其转化为可操作的建议,是该数据集在实际应用中的另一大难题。
常用场景
经典使用场景
在交通数据分析领域,TLC Trip Record Data数据集被广泛应用于探索和优化城市交通系统。通过分析该数据集,研究者能够识别出城市中出租车服务的繁忙时段和热门区域,从而为交通管理和调度提供科学依据。例如,通过统计不同时间段的乘客数量和行程距离,可以优化车辆的调度策略,提高服务效率。此外,该数据集还可用于研究乘客的出行模式和偏好,为城市规划和公共交通系统的改进提供重要参考。
解决学术问题
TLC Trip Record Data数据集在学术研究中解决了多个关键问题。首先,它为城市交通流量的动态变化提供了详细的数据支持,有助于研究交通拥堵的成因和解决方案。其次,通过分析乘客的出行行为,该数据集为城市规划和交通政策制定提供了科学依据,特别是在优化公共交通线路和站点布局方面。此外,该数据集还为研究城市经济活动和区域发展提供了宝贵的地理信息数据,有助于理解城市空间结构的演变。
衍生相关工作
基于TLC Trip Record Data数据集,许多相关研究和工作得以展开。例如,有研究利用该数据集开发了预测模型,用于预测未来的交通流量和需求,从而提前进行资源调配。此外,还有研究通过分析该数据集,提出了新的交通优化算法,旨在减少城市交通拥堵。在学术界,该数据集也被广泛用于教学和培训,帮助学生和研究人员掌握数据分析和交通管理的前沿技术。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作