Nyc yellow taxi cab trips data
收藏github2022-11-26 更新2024-05-31 收录
下载链接:
https://github.com/karthik-d/Data-Mining_Preprocessing-Analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Google BigQuery公共数据集的子集,包含纽约市黄色出租车行程数据的随机10,000,000行。数据集用于实验和学习价格预测的回归模型,同时也提供了大量的数据清洗、异常值处理以及模型训练、测试和验证的空间。
This dataset is a subset of the Google BigQuery public dataset, containing a random selection of 10,000,000 rows of yellow taxi trip data from New York City. It is utilized for experimenting with and learning regression models for price prediction, and also offers ample scope for data cleaning, outlier handling, as well as model training, testing, and validation.
创建时间:
2022-09-13
原始信息汇总
数据集概述
数据集来源
- 该数据集是Google BigQuery公共数据集中的纽约黄色出租车行程数据的一个子集,包含随机抽取的10,000,000行数据。
数据集目的
- 用于实验和学习回归模型进行价格预测。
- 提供大量数据用于模型训练、测试和验证。
数据集访问
- 数据集可通过Kaggle公开访问。
数据属性
| 列名 | 类型 | 是否可为空 | 描述 |
|---|---|---|---|
| vendor_id | text | 必需 | 提供记录的TPEP提供商代码。1= Creative Mobile Technologies, LLC; 2= VeriFone Inc |
| pickup_datetime | datetime | 可为空 | 计价器启动的日期和时间。 |
| dropoff_datetime | datetime | 可为空 | 计价器停止的日期和时间。 |
| passenger_count | integer | 可为空 | 车辆中的乘客数量,由司机输入。 |
| trip_distance | numeric | 可为空 | 由计价器报告的行程距离(英里)。 |
| rate_code | string | 可为空 | 行程结束时的最终费率代码。1=标准费率 2=JFK 3=Newark 4=Nassau或Westchester 5=议价费率 6=团体乘车 |
| storeandfwd_flag | string | 可为空 | 是否在发送给供应商之前在车辆内存中保存行程记录的标志。Y=存储和转发行程 N=非存储和转发行程 |
| payment_type | string | 可为空 | 乘客支付方式的数字代码。1=信用卡 2=现金 3=免费 4=争议 5=未知 6=取消行程 |
| fare_amount | numeric | 可为空 | 由计价器计算的时间和距离费用。 |
| extra | numeric | 可为空 | 杂项额外费用和附加费。目前仅包括$0.50和$1的交通高峰和夜间费用。 |
| mta_tax | numeric | 可为空 | 自动根据使用的计费率触发的$0.50 MTA税。 |
| tip_amount | numeric | 可为空 | 小费金额,自动填充信用卡小费,现金小费不包括在内。 |
| tolls_amount | numeric | 可为空 | 行程中所有过路费的总金额。 |
| imp_surcharge | numeric | 可为空 | 在起步价上加收的$0.30改进附加费,自2015年开始征收。 |
| total_amount | numeric | 可为空 | 向乘客收取的总金额,不包括现金小费。 |
| pickuplocationid | string | 可为空 | 计价器启动的TLC Taxi Zone。 |
| dropofflocationid | string | 可为空 | 计价器停止的TLC Taxi Zone。 |
分析步骤
- 数据集提供了分析、清洗和转换的步骤,但具体步骤未在README文件中详细说明。
搜集汇总
数据集介绍

构建方式
Nyc yellow taxi cab trips data数据集是从Google BigQuery公共数据集中随机抽取的10,000,000行数据子集,旨在为价格预测的回归模型提供实验和学习的基础。该数据集包含了丰富的原始数据,涵盖了出租车行程的多个维度,如行程时间、距离、乘客数量等,为数据清洗、异常值处理以及模型训练、测试和验证提供了充足的空间。
特点
该数据集的特点在于其多样性和真实性,包含了出租车行程的多个关键属性,如行程起止时间、乘客数量、行程距离、费用明细等。这些数据不仅反映了出租车运营的实际状况,还为数据挖掘和分析提供了丰富的素材。此外,数据集中存在大量的异常值和需要清洗的部分,这为数据预处理和探索性数据分析提供了良好的实践机会。
使用方法
该数据集的使用方法主要包括数据清洗、转换和分析。用户可以通过Python Notebook进行数据预处理和探索性数据分析,具体步骤包括处理缺失值、识别并处理异常值、进行数据转换等。此外,数据集还可用于回归模型的训练和测试,特别是针对价格预测的应用场景。用户可以通过Kaggle平台访问该数据集,并参考提供的分析报告和代码进行进一步的研究和应用。
背景与挑战
背景概述
Nyc yellow taxi cab trips data数据集源自Google BigQuery公共数据集,由纽约市黄色出租车行程数据构成,旨在为数据挖掘和机器学习领域提供丰富的实验材料。该数据集由UCS1629课程的学生团队提取并上传,包含1000万条随机抽样的行程记录,主要用于价格预测模型的训练与验证。数据集涵盖了多个关键属性,如行程时间、乘客数量、行程距离、支付方式等,为研究者提供了多维度的分析视角。该数据集不仅为学术界提供了宝贵的研究资源,也为城市交通管理和出租车行业的优化决策提供了数据支持。
当前挑战
Nyc yellow taxi cab trips data数据集在应用过程中面临多重挑战。首先,数据集中存在大量异常值和缺失值,如乘客数量为零或负值、行程距离异常等,这要求研究者在数据预处理阶段进行细致的清洗和修正。其次,数据的时间跨度较大,涉及不同时间段的价格波动和交通状况变化,增加了模型训练的复杂性。此外,数据的地理信息(如上下车位置)虽然丰富,但其编码方式较为复杂,需进行额外的转换和映射处理。这些挑战不仅考验研究者的数据处理能力,也对模型的鲁棒性和泛化能力提出了更高的要求。
常用场景
经典使用场景
Nyc yellow taxi cab trips data数据集在数据挖掘和机器学习领域中被广泛用于回归模型的训练与测试。该数据集包含了纽约市黄色出租车的行程记录,涵盖了乘客数量、行程距离、费用金额等丰富信息,为研究者提供了一个真实且复杂的数据环境。通过该数据集,研究者可以深入探索时间序列分析、价格预测模型以及异常检测等经典问题。
实际应用
在实际应用中,Nyc yellow taxi cab trips data数据集被用于优化城市交通管理、提升出租车服务效率以及支持智能出行系统的开发。例如,基于该数据集的分析结果,城市交通管理部门可以制定更合理的出租车调度策略,减少空驶率;出行平台则可以利用这些数据为用户提供更精准的行程费用预估和路线规划服务。
衍生相关工作
该数据集衍生了许多经典研究工作,例如基于机器学习的出租车费用预测模型、行程时间估计算法以及乘客行为分析框架。此外,一些研究还利用该数据集探索了时空数据分析方法,为城市交通流量预测和拥堵缓解提供了理论支持。这些工作不仅推动了数据挖掘领域的发展,也为智慧城市建设提供了重要的技术支撑。
以上内容由遇见数据集搜集并总结生成



