new_york_citibike
收藏github2024-06-27 更新2024-07-10 收录
下载链接:
https://github.com/NguyenDangXuanLinh/Predict-trip-time-for-NewYorkBikes-rental-services
下载链接
链接失效反馈官方服务:
资源简介:
该公共数据集包含两个BigQuery表,其中使用的表是`citybike_trips`,包含超过5800万条记录。`tripduration`字段表示每次自行车租赁的持续时间(以秒为单位),其他字段作为潜在特征。
This public dataset contains two BigQuery tables. The table utilized in this dataset is `citybike_trips`, which holds over 58 million records. The `tripduration` field denotes the duration of each bicycle rental in seconds, while the remaining fields serve as potential features.
创建时间:
2024-06-12
原始信息汇总
数据集概述
数据集信息
- 数据集名称:
new_york_citibike - 数据表:
citybike_trips - 数据量: 超过5800万条记录
- 标签:
tripduration(骑行时长,以秒为单位) - 特征: 其他字段
数据处理
- 数据预处理: 清洗、处理缺失值、转换日期时间变量、特征缩放
- 数据分割: 将数据集分为三部分,用于模型选择、评估和测试,以月份作为分割标准
模型选择与评估
- 模型选择: 线性回归模型
- 评估指标: 均方误差(MSE)
- 模型优化: 通过多次调整提高模型性能
模型评估结果
- 模型1:
trip_duration_by_stations,MSE = 111.2176 - 模型2:
trip_duration_by_stations_and_day,MSE = 98.0522 - 模型3:
trip_duration_by_stations_day_age,MSE = 110.8004
结论
- 预测结果: 共进行了1,548,371次预测,预测值与实际值的差距小于15分钟
- 准确率: 在89.6%的案例中,模型能够预测骑行时长与实际值的差距小于15分钟,且能够预测骑行费用的平均绝对误差为6.8分钟
推荐策略
- 定价模型策略: 采用季度票价和定期支付模式
- 用户故事: 当用户在特定日期从起点站选择自行车并指定目的地时,模型能够预测骑行时长和费用
- 模型性能: 模型能够预测骑行时长和费用,准确率分别为89.6%和平均绝对误差6.8分钟
搜集汇总
数据集介绍

构建方式
该数据集名为new_york_citibike,源自BigQuery公共数据集中的citybike_trips表。其构建过程包括数据预处理,如清洗、处理缺失值、转换日期时间变量及特征缩放。数据集被划分为三个子集,分别用于模型选择、评估和测试,其中月份被用作划分依据。通过这些步骤,数据集为后续的线性回归模型训练提供了坚实的基础。
使用方法
使用new_york_citibike数据集时,首先需进行数据预处理,确保数据质量和一致性。随后,用户可根据需求选择合适的特征,构建线性回归模型。模型训练完成后,可通过评估指标如均方误差(MSE)来衡量模型性能。最终,该模型可应用于移动应用程序中,为用户提供骑行时间和费用的预测服务,显著提升用户体验。
背景与挑战
背景概述
纽约市自行车租赁数据集(new_york_citibike)是由BigQuery公共数据集中的`citybike_trips`表提供,主要用于预测自行车租赁的行程时间和费用。该数据集包含了超过5800万条记录,涵盖了自行车租赁的各个方面,如租赁时长、出发和到达站点等。其核心研究问题在于通过线性回归模型,准确预测用户从某一站点到另一站点的租赁行程时间,从而提升用户体验和决策效率。该数据集的创建和应用,对于城市交通管理和智能出行领域具有重要意义,尤其是在优化租赁服务和定价策略方面。
当前挑战
该数据集在构建和应用过程中面临多项挑战。首先,数据预处理阶段需要处理大量数据中的缺失值和时间变量的转换,确保数据的完整性和可用性。其次,模型选择和评估过程中,如何有效地划分数据集以进行模型训练和测试,是一个关键问题。此外,尽管线性回归模型在预测行程时间方面表现良好,但其预测精度仍需进一步提升,特别是在处理复杂的城市交通状况和用户行为模式时。最后,如何在实际应用中确保模型的稳定性和可靠性,以应对不断变化的城市环境和用户需求,也是一项重要挑战。
常用场景
经典使用场景
在纽约市自行车租赁服务中,`new_york_citibike`数据集的经典使用场景主要集中在预测自行车租赁的行程时间和费用。通过分析历史租赁数据,模型能够根据用户的出发站和到达站,以及租赁的具体日期,准确预测行程的平均时间和费用。这种预测能力不仅提升了用户体验,还为租赁服务的定价策略提供了科学依据。
解决学术问题
该数据集解决了城市交通研究中的一个关键问题,即如何准确预测自行车租赁的行程时间。通过使用线性回归模型,研究者能够量化不同因素对行程时间的影响,从而为城市交通规划提供数据支持。此外,该数据集还为机器学习模型的优化提供了实际案例,展示了如何通过数据预处理和模型评估来提高预测精度。
实际应用
在实际应用中,`new_york_citibike`数据集被广泛用于开发智能租赁系统。例如,通过集成到移动应用程序中,用户可以在租赁前获取行程时间和费用的预测,从而做出更明智的决策。此外,租赁公司可以利用这些预测数据优化资源分配,提高运营效率,并制定更具竞争力的定价策略。
数据集最近研究
最新研究方向
在城市交通管理与优化领域,纽约市共享单车数据集(new_york_citibike)的最新研究方向聚焦于通过机器学习模型提升骑行时间预测的准确性。这一研究不仅有助于用户更精确地规划行程,还能为共享单车运营商提供数据支持,优化资源配置与定价策略。当前,研究者们正利用线性回归模型,结合出发站、到达站、日期及用户年龄等特征,以最小化均方误差为目标,不断优化预测模型。这种精细化管理策略,不仅提升了用户体验,也为城市交通系统的智能化发展提供了新的思路。
以上内容由遇见数据集搜集并总结生成



