2017 NYC Taxi Trip dataset
收藏github2024-08-24 更新2024-08-25 收录
下载链接:
https://github.com/ad1tyx666/Automatidata
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由纽约市出租车和豪华轿车委员会(TLC)提供,用于开发回归模型,预测基于位置和时间的出租车行程持续时间。数据集包含来自超过200,000个出租车和豪华轿车许可证持有者的信息,每天大约有一百万次合并行程。注意:此项目的数据集是为教育目的人工创建的,并不代表真实的纽约市出租车骑行行为。
This dataset is provided by the New York City Taxi and Limousine Commission (TLC) to support the development of regression models for predicting taxi trip duration based on geographic location and temporal information. It contains information from over 200,000 taxi and limousine license holders, with approximately one million combined trips taking place daily. Note: The dataset for this project was artificially created for educational purposes and does not reflect real New York City taxi ride behavior.
创建时间:
2024-08-24
原始信息汇总
Automatidata 数据分析项目提案
数据集描述
Automatidata 是一家数据咨询公司,帮助企业最大化其数据潜力。他们与客户合作,将原始数据转化为强大的洞察和解决方案,如性能仪表板、面向客户的工具和战略业务建议。他们的方法侧重于将数据分析与客户的业务需求相结合,以推动更好的决策并实现业务目标。总体而言,Automatidata 的使命是将数据转化为数字时代的战略资产,推动增长和成功。
项目背景
Automatidata 受委托为纽约市出租车和豪华轿车委员会(TLC)开发一个回归模型,以基于位置和时间预测乘车时长。该项目的目标是帮助 TLC 更好地了解和控制纽约市的出租车和豪华轿车服务。TLC 的数据来自超过 20 万出租车和豪华轿车许可证持有者,每天大约有 100 万次合并行程。
项目活动
为了实现这一目标,项目团队需要完成以下任务:
- 项目全局文档编制:与高级项目经理合作,准备一份涵盖项目目标和里程碑的项目文档。
- TLC 数据集检查:在分析之前,TLC 数据集需要进行一般检查。数据团队应进行探索性数据分析(EDA)以了解数据集的内容。
- 回归模型开发:项目重点是开发一个回归模型,为 TLC 提供洞察。数据分析总监强调,在向 TLC 分享洞察之前,确保模型符合项目范围的重要性。
- 创建视觉化:TLC 的运营经理要求团队开发视觉化内容,以便向 TLC 高管展示。
- 变量关系建立:数据分析总监建议团队使用 A/B 测试来确定 TLC 数据集中变量之间的关系。
- 向 TLC 展示洞察:一旦最终模型建立,数据团队应确定关键点向 TLC 展示。
业务问题
TLC 负责监管和许可纽约市的出租车和租赁车辆。为了有效管理和规范这些服务,TLC 需要了解乘车时长并确定改进领域。目前手动收集乘车时长数据的过程既耗时又昂贵。因此,TLC 与 Automatidata 合作,开发一个基于位置和时间的乘车时长预测回归模型。
问题和考虑
-
项目针对对象:项目针对 TLC 的高级管理层,包括财务和行政主管以及运营经理。
-
项目目标:该项目旨在开发一个基于位置和时间预测乘车时长的回归模型,帮助 TLC 更好地管理和规范出租车和豪华轿车服务。该模型提供了一种高效、成本有效的替代手动数据收集过程的方法,使 TLC 能够确定需要改进的领域,优化服务,提高客户满意度,减少等待时间,并提高资源效率。此外,该模型还可以帮助估计行程费用并改善交通流量。
-
需要问或回答的问题:
- 数据集的状态是什么?
- 如何防止过度依赖启发式方法?
- 应该在回归模型中包含哪些变量?
- 需要进行哪些转换以提高模型性能?
- 应该应用哪种类型的回归模型?(例如,线性回归,多项式回归)
- 如何评估和验证模型?
- 如何设计模型以在生产环境中进行实时预测?
- 数据中还有哪些额外的洞察或趋势可以为 TLC 的决策提供帮助?
- 如何将模型集成到 TLC 的现有流程中?
-
完成项目所需:
- 数据:包含出租车和豪华轿车行程记录的大型数据集,包括位置、时间和乘车时长。
- Jupyter Notebook
- 时间和预算:项目成功可能需要充足的时间和预算。
- 利益相关者输入
-
所需交付物:
- 数据探索报告:详细说明数据清洗和预处理的过程,提供数据分布的洞察,识别缺失值,并探索变量之间的相关性。
- 模型选择报告:概述评估的机器学习模型,它们的优缺点,以及选择最合适模型的过程。
- 回归模型报告:描述回归模型的开发过程,包括特征工程和选择。
- 预测结果报告:总结最终模型的预测结果和性能指标,并解释结果。
- 发现结果的演示:总结关键洞察和结果的演示,使用可视化和图表解释模型的性能和其他重要发现。
搜集汇总
数据集介绍

构建方式
在Google高级数据分析专业证书的独立项目中,2017年纽约市出租车行程数据集通过Python构建数据框架并进行数据清洗,以实现探索性数据分析(EDA)。此过程涉及识别关键变量,进行数据汇总,包括数据聚合和变量分布的检查,以及深入研究支付类型和供应商识别号等特定领域,从而为后续的预测模型奠定了基础。
特点
该数据集的显著特点在于其丰富的变量和详尽的记录,涵盖了从行程时间到支付方式的多个维度。通过数据汇总和分布分析,揭示了数据集内部的复杂结构和潜在模式。此外,对特定领域的深入挖掘,如支付类型和供应商识别,进一步增强了数据集的实用性和研究价值。
使用方法
使用该数据集时,用户需下载必要的Python包,并导航至相应的文件夹以访问数据和笔记本。数据文件夹包含所有数据集,笔记本文件夹则提供了三个课程结束时的分析笔记本。用户可以根据兴趣和学习目标,自由探索这些内容,并通过执行笔记本中的代码进行数据分析和模型构建。
背景与挑战
背景概述
2017 NYC Taxi Trip数据集是由Google高级数据分析专业证书项目的一部分独立研究项目中创建的。该项目由主要研究人员利用Python进行数据框架构建和数据清洗,旨在通过探索性数据分析(EDA)揭示关键变量,为未来的预测模型提供基础。该数据集的核心研究问题集中在纽约市出租车行程的分析上,特别是对支付类型和供应商识别号码的深入研究。这一研究不仅为城市交通管理提供了宝贵的见解,还对相关领域的数据分析方法论产生了积极影响。
当前挑战
2017 NYC Taxi Trip数据集在构建过程中面临多项挑战。首先,数据清洗和预处理是确保分析准确性的关键步骤,这需要处理大量数据中的噪声和缺失值。其次,探索性数据分析(EDA)过程中,研究人员需识别并处理数据中的异常值和非典型分布,以确保分析结果的可靠性。此外,该数据集在处理支付类型和供应商识别号码时,需解决数据标准化和一致性问题,以提升后续分析的效率和准确性。
常用场景
经典使用场景
2017 NYC Taxi Trip数据集的经典使用场景主要集中在城市交通管理和优化领域。通过分析出租车行程数据,研究者能够深入理解纽约市交通流量的动态变化,识别高峰时段和拥堵区域,从而为城市交通规划提供科学依据。此外,该数据集还可用于预测乘客需求,优化出租车调度策略,提升服务效率和乘客满意度。
解决学术问题
该数据集在学术研究中解决了多个关键问题,包括交通流量预测、乘客行为分析和城市交通优化。通过详细的数据分析,研究者能够揭示乘客出行模式和偏好,为交通模型构建提供基础数据。此外,数据集还支持研究支付方式和供应商识别,有助于理解市场结构和经济影响,推动相关领域的理论和实践发展。
衍生相关工作
基于2017 NYC Taxi Trip数据集,衍生出多项经典工作,涵盖交通预测、乘客行为建模和城市规划等多个领域。例如,有研究利用该数据集开发了高效的交通流量预测模型,显著提升了预测精度。此外,还有工作通过分析乘客出行数据,提出了新的城市交通优化策略,推动了智能交通系统的发展。这些衍生工作不仅丰富了相关领域的研究内容,也为实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成



