Uber Data Science Dataset

github2024-09-29 更新2024-10-24 收录

下载链接：

https://github.com/BIKASH1002/Uber-Data-Science

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含336行和7列，每行代表一天中某个小时的数据。列包括日期、本地时间、打开Uber应用的用户数量、未看到可用车辆的用户数量、成功完成的行程数量、行程请求数量和可用司机数量。数据集反映了2012年9月期间用户活动、请求、完成行程和司机登录情况。

This dataset comprises 336 rows and 7 columns, with each row representing data for a specific hour of a day. The columns include date, local time, count of users who opened the Uber app, count of users who failed to spot available vehicles, count of successfully completed trips, count of trip requests, and count of available drivers. This dataset reflects user activities, trip requests, completed trips, and driver availability during September 2012.

创建时间：

2024-09-29

原始信息汇总

Uber Data Science - Exploration and Insight

概述

本项目涉及对Uber提供的数据集进行探索性数据分析（EDA），旨在通过解决与用户活动、司机供需分析相关的特定问题，从数据中提取洞察。

数据集描述

数据集大小: 336行，7列。
数据时间范围: 2012年9月。
列描述:
- Date: 数据记录的日期。
- Time (Local): 当地时间的时段（0-23）。
- Eyeballs: 在该小时内打开Uber应用的用户数量。
- Zeroes: 打开应用但未看到可用车辆的用户数量。
- Completed Trips: 该小时内成功完成的行程数量。
- Requests: 该小时内发出的行程请求数量。
- Unique Drivers: 该小时内可用的司机数量。

问题陈述

在两周期间，哪一天完成的行程最多？
在24小时内完成的最高行程数量是多少？
在两周期间，一天中的哪个小时请求最多？
在两周期间，所有零请求中发生在周末（周五下午5点到周日凌晨3点）的百分比是多少？
在两周期间，每位司机完成行程的加权平均比率是多少？
在两周期间，以8小时为班次，哪8个小时的连续请求最繁忙？
司机供应是否总是在需求增加时增加？
在哪72小时内，零请求与眼球数的比率最高？
如果在两周期间的每一天的某个小时增加5名司机，应该选择哪个小时？
数据分析中是否正好有两周的数据？
从所有两周的数据来看，哪个时间可能是最合理的“结束日”？

可视化

供需图: 显示用户打开应用数量与司机登录数量之间的关系。
行程随时间变化图: 显示两周期间完成的行程数量。

结论

本项目提供了用户需求在一天内波动的清晰图景，并分析了司机供应如何满足需求。识别了未满足需求的时段，并建议增加司机可用性的时间。

搜集汇总

数据集介绍

构建方式

该数据集由Uber提供，涵盖了2012年9月某两周内的用户与司机互动数据。数据集包含336行和7列，每行代表一天中某一小时的数据。数据集通过记录用户打开Uber应用的次数、未看到可用车辆的次数、成功完成的行程数、行程请求数以及可用司机数，全面捕捉了用户行为与司机供应的动态关系。数据集的构建旨在通过详细的时序数据，揭示用户需求与司机供应之间的复杂关系，为后续的数据分析提供坚实的基础。

特点

该数据集的显著特点在于其精细的时间粒度和丰富的数据维度。每小时的数据记录不仅提供了用户行为和司机供应的即时状态，还通过多维度的指标（如Eyeballs、Zeroes、Completed Trips等）深入剖析了供需关系的微观动态。此外，数据集涵盖了两周的时间跨度，使得分析能够捕捉到周期性变化和趋势，为深入理解Uber平台的运营模式提供了宝贵的数据支持。

使用方法

使用该数据集时，首先需导入相关Python库（如Pandas、Matplotlib和Seaborn）进行数据加载和预处理。随后，可通过探索性数据分析（EDA）方法，如绘制供需关系图、时间序列图等，来揭示数据中的模式和趋势。具体分析可围绕用户行为、司机供应与需求平衡、以及特定时间段的优化策略展开。通过解答README中列出的问题，用户可以获得对Uber平台运营的深入洞察，并为决策提供数据驱动的支持。

背景与挑战

背景概述

Uber Data Science Dataset是由Uber提供的一个数据集，旨在通过探索性数据分析（EDA）揭示用户与司机之间的互动模式。该数据集记录了2012年9月某段时间内，用户活动、请求、完成行程以及司机登录情况的小时级数据。主要研究人员或机构未明确提及，但其核心研究问题围绕用户行为、司机供应与需求分析以及相关指标的计算。该数据集对理解城市交通中的供需动态具有重要意义，为优化司机调度和服务质量提供了宝贵的见解。

当前挑战

Uber Data Science Dataset在构建和分析过程中面临多项挑战。首先，数据集需处理用户行为与司机供应之间的复杂关系，特别是在高峰时段的供需匹配问题。其次，计算加权平均比率等复杂指标时，需确保数据的准确性和一致性。此外，数据集还需应对周末与工作日之间的差异，以及如何在72小时周期内找到Zeroes与Eyeballs比率最高的时段。这些挑战不仅涉及数据分析的技术层面，还需深入理解城市交通的动态特性。

常用场景

经典使用场景

在Uber数据科学数据集中，经典的使用场景包括对用户行为、司机供应与需求以及关键指标的深入分析。通过探索性数据分析（EDA），研究者能够识别出用户活跃度的高峰时段、完成行程最多的日期以及司机供应与需求之间的不平衡。这些分析不仅有助于优化司机调度策略，还能提升用户体验，确保在高峰时段有足够的司机资源满足用户需求。

衍生相关工作

基于Uber数据科学数据集，衍生出了一系列相关研究和工作。例如，有研究利用该数据集开发了预测模型，用于预测未来的用户需求和司机供应情况。此外，还有工作探讨了如何通过机器学习算法优化司机调度策略，以减少供需不平衡。这些研究不仅丰富了数据科学领域的理论基础，也为实际应用提供了有力的技术支持。

数据集最近研究