NYC-trip-duration-dataset
收藏github2020-06-12 更新2024-05-31 收录
下载链接:
https://github.com/Sumitadm21/NYC-trip-duration-dataset-Exploratory-Data-Analysis-EDA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含纽约市出租车行程的详细信息,包括行程标识、供应商代码、上车和下车时间、乘客数量、上车和下车经纬度、行程是否存储转发标志以及行程持续时间(以秒为单位)。
This dataset encompasses detailed information on taxi trips in New York City, including trip identifiers, vendor codes, pickup and drop-off times, passenger counts, pickup and drop-off latitude and longitude, whether the trip was stored and forwarded, and the duration of the trip in seconds.
创建时间:
2020-06-12
原始信息汇总
数据集概述
数据集变量/特征描述
- id: 每条行程的唯一标识符。
- vendor_id: 与行程记录相关联的服务提供商代码。
- pickup_datetime: 计价器开始计时的日期和时间。
- dropoff_datetime: 计价器停止计时的日期和时间。
- passenger_count: 车辆中的乘客数量(司机输入的值)。
- pickup_longitude: 计价器开始计时位置的经度。
- pickup_latitude: 计价器开始计时位置的纬度。
- dropoff_longitude: 计价器停止计时位置的经度。
- dropoff_latitude: 计价器停止计时位置的纬度。
- store_and_fwd_flag: 指示行程记录是否因车辆未连接到服务器而被保存在车辆内存中,然后发送给供应商(Y=存储并转发;N=非存储并转发行程)。
- trip_duration: 行程持续时间(目标变量),以秒为单位。
搜集汇总
数据集介绍

构建方式
NYC-trip-duration-dataset的构建基于纽约市的出租车行程数据,涵盖了从乘客上车到下车期间的详细信息。数据采集过程中,通过车载设备记录了每次行程的唯一标识、供应商代码、上下车时间、乘客数量、上下车地点的经纬度坐标,以及行程持续时间等关键信息。此外,数据还包含了车辆是否因网络问题而暂时存储行程记录的标志,确保了数据的完整性和真实性。
特点
该数据集的特点在于其丰富的地理和时间维度信息,能够支持对城市交通模式的深入分析。每个行程的唯一标识确保了数据的独立性,而上下车的时间和地点信息则为研究城市交通流量和热点区域提供了基础。乘客数量和行程持续时间等变量进一步扩展了数据集的应用场景,使其不仅适用于交通研究,还可用于乘客行为分析和行程预测。
使用方法
使用NYC-trip-duration-dataset时,可通过数据清洗和预处理步骤去除异常值和缺失数据,确保分析结果的准确性。随后,利用上下车时间和地点信息进行时空分析,探索城市交通的时空分布规律。乘客数量和行程持续时间可用于构建预测模型,例如预测行程时间或乘客需求。此外,结合地理信息系统(GIS)工具,可进一步可视化交通热点区域和路径优化方案。
背景与挑战
背景概述
NYC-trip-duration-dataset数据集聚焦于纽约市的出租车行程数据,旨在通过分析行程时间、乘客数量、地理位置等多维度信息,揭示城市交通模式与效率。该数据集由Sumitadm21等研究人员或机构创建,主要研究问题包括行程时间的预测与影响因素分析,以及城市交通网络的优化。通过对大量真实行程数据的挖掘,该数据集为城市交通规划、出租车调度优化等领域提供了重要的数据支持,推动了相关研究的深入发展。
当前挑战
NYC-trip-duration-dataset面临的挑战主要集中在两个方面。其一,行程时间的预测受多种复杂因素影响,如交通拥堵、天气状况、乘客需求波动等,如何准确建模这些非线性关系是核心难题。其二,数据构建过程中存在数据质量与完整性问题,例如GPS坐标漂移、时间记录误差以及部分字段缺失,这些噪声数据对模型的训练与评估提出了更高要求。此外,如何在保护用户隐私的前提下充分利用数据,也是该领域亟待解决的重要问题。
常用场景
经典使用场景
NYC-trip-duration-dataset数据集在交通流量分析和预测模型中具有广泛的应用。通过分析纽约市的出租车行程数据,研究人员能够深入理解城市交通模式,优化路线规划,并预测高峰时段的交通拥堵情况。该数据集为交通工程和城市规划领域提供了宝贵的数据支持。
解决学术问题
该数据集解决了交通研究中关于行程时间预测和交通流量管理的核心问题。通过精确的行程时间和地理坐标数据,研究者能够开发出高效的预测模型,从而提升交通系统的整体效率。此外,数据集还为研究城市交通网络的动态变化提供了基础。
衍生相关工作
基于NYC-trip-duration-dataset,许多经典研究工作得以展开。例如,研究者开发了基于机器学习的行程时间预测模型,这些模型在交通管理和智能导航系统中得到了广泛应用。此外,该数据集还催生了一系列关于城市交通网络优化的研究,推动了交通工程领域的技术进步。
以上内容由遇见数据集搜集并总结生成



