zomato_delivery_EDA
收藏Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/allenborochin/zomato_delivery_EDA
下载链接
链接失效反馈官方服务:
资源简介:
Zomato Delivery Operations 数据集是一个关于印度多个城市食品配送物流的真实世界数据集。该数据集包含45,584行原始数据,经过清洗和特征工程后,最终包含38,964行和22列。目标变量为`Time_taken (min)`,表示配送总时间(分钟)。数据集涵盖了配送员的属性(如年龄、评分)、天气条件(如晴天、多云、雾、风暴等)、交通密度(如低、中、高、拥堵)、GPS坐标(餐厅和客户的经纬度)以及配送结果。此外,数据集还包含两个 engineered 特征:`distance_km`(餐厅与客户之间的直线距离)和`delivery_speed`(配送速度分类:快、平均、慢)。该数据集适用于表格分类和回归任务,特别适合用于探索天气、交通、配送员经验等因素对配送时间的影响。
创建时间:
2026-04-03
原始信息汇总
Zomato Delivery Operations — EDA & Dataset 数据集概述
数据集基本信息
- 来源:Kaggle — saurabhbadole/zomato-delivery-operations-analytics-dataset (https://www.kaggle.com/datasets/saurabhbadole/zomato-delivery-operations-analytics-dataset)
- 许可协议:mit
- 任务类别:表格分类、表格回归
- 语言:英语
- 领域:食品配送物流,印度
- 数据规模:10K<n<100K
- 原始数据规模:45,584 行 × 20 列
- 最终数据规模:38,964 行 × 22 列
- 目标变量:
Time_taken (min)
研究问题
- 天气与交通:极端天气(风暴、雾)是否总是会减慢配送速度,或者有时会因道路畅通而实际导致更快的配送结果?
- 经验缓冲:评分更高或经验更丰富的配送员是否花费更少的配送时间?
- 距离与现实:使用 Haversine 距离计算,延迟是否仅仅因为客户距离远,还是运营因素才是真正的瓶颈?
数据准备与特征工程
数据清洗步骤
- 删除了缺失关键列(
Weather_conditions、Road_traffic_density、multiple_deliveries)的行。 - 移除了重复行(未发现)。
- 将
Time_taken (min)转换为整数。 - 清除了所有分类列中的空白字符。
- 移除了 3,410 行 GPS 坐标损坏(经纬度为 0,0)的行。
- 移除了 272 行物理上不可能的距离(>25公里,高于第99百分位数)的行。
工程化特征
| 列名 | 描述 |
|---|---|
distance_km |
餐厅与客户之间的 Haversine 直线距离(公里) |
delivery_speed |
分类分箱:快(<19 分钟)/ 平均(19–33 分钟)/ 慢(>33 分钟) |
delivery_speed 的阈值基于 Time_taken (min) 的第25和第75百分位数选择,以确保平衡分割(26.2% / 51.2% / 22.6%)。
有意保留的缺失值
Delivery_person_Age(缺失 1,019 个)和 Delivery_person_Ratings(缺失 1,055 个)被有意保留。这些行仍对研究问题1和3有贡献,在研究问题2的分析中,pandas 会自动跳过 NaN 值。
异常值检测
- 配送时间:未检测到异常值(范围 10–54 分钟,均在 IQR 范围内)。
- 距离:无异常值(已过滤至 ≤25公里)。
- 配送员评分:1,024 个低于 3.9 的值被标记为统计异常值,但被有意保留,因为它们代表了与研究问题2相关的真实低评分配送员。
关键发现
研究问题1 — 天气与交通
- 天气状况 vs. 配送时间:晴天配送最快(中位数 21 分钟)。风暴和沙尘暴的表现与大风条件相当(均为 26 分钟)。雾天和阴天最慢(29 分钟)。
- 交通密度 vs. 配送时间:交通密度有明确但非线性的影响。从低(21.5 分钟)到中(26.9 分钟)的跳跃显著,但从中到高(27.4 分钟)几乎相同。只有拥堵条件会造成有意义的额外延迟(31.4 分钟)。
- 天气与交通的交互作用:晴天天气能缓冲甚至重度交通的影响。雾天/阴天与拥堵的组合是最差组合(36.8–36.9 分钟),而风暴和沙尘暴在重度交通下的表现明显好于预期。
研究问题2 — 经验缓冲
- 配送员评分是数据集中最强的预测因子(r = -0.360),强于距离(r = 0.322)。高评分配送员配送速度持续更快。
- 年龄较大的配送员往往更慢(r = 0.298),表明仅凭经验并不能弥补——服务质量更重要。
研究问题3 — 距离与现实
- 距离有影响,但它不是真正的瓶颈。每次行程的多次配送(r = 0.384)是比距离(r = 0.322)更强的预测因子。
- 一次处理 3 次配送的配送员平均耗时 47.8 分钟,是单次配送平均耗时(23.1 分钟)的两倍多。
相关性总结
| 特征 | 与 Time_taken 的相关性 |
|---|---|
multiple_deliveries |
+0.384 |
Delivery_person_Ratings |
−0.360 |
distance_km |
+0.322 |
Delivery_person_Age |
+0.298 |
列参考
| 列名 | 类型 | 描述 |
|---|---|---|
ID |
字符串 | 唯一订单 ID |
Delivery_person_ID |
字符串 | 配送员 ID |
Delivery_person_Age |
整数 | 配送员年龄 |
Delivery_person_Ratings |
浮点数 | 配送员评分(1–5) |
Restaurant_latitude |
浮点数 | 餐厅 GPS 纬度 |
Restaurant_longitude |
浮点数 | 餐厅 GPS 经度 |
Delivery_location_latitude |
浮点数 | 客户 GPS 纬度 |
Delivery_location_longitude |
浮点数 | 客户 GPS 经度 |
Order_Date |
字符串 | 订单日期 |
Time_Orderd |
字符串 | 下单时间 |
Time_Order_picked |
字符串 | 取餐时间 |
Weather_conditions |
字符串 | 晴天 / 阴天 / 雾天 / 风暴 / 大风 / 沙尘暴 |
Road_traffic_density |
字符串 | 低 / 中 / 高 / 拥堵 |
Vehicle_condition |
整数 | 车辆状况(0–2) |
Type_of_order |
字符串 | 小吃 / 正餐 / 饮料 / 自助餐 |
Type_of_vehicle |
字符串 | 摩托车 / 踏板车 / 电动踏板车 |
multiple_deliveries |
整数 | 行程中的额外停靠点数量(0–3) |
Festival |
字符串 | 是 / 否 — 是否有活跃的节日 |
City |
字符串 | 大都市 / 城市 / 半城市 |
Time_taken (min) |
整数 | 目标变量 — 总配送时间(分钟) |
distance_km |
浮点数 | 工程化特征 — Haversine 距离(公里) |
delivery_speed |
类别 | 工程化特征 — 快 / 平均 / 慢 |
搜集汇总
数据集介绍

构建方式
在食品配送物流领域,数据质量直接影响分析结论的可靠性。该数据集源自Zomato在印度多个城市的真实配送运营记录,原始包含45,584行与20列数据。构建过程经历了严谨的数据清洗与特征工程阶段:首先剔除了关键字段缺失的行,并清除了GPS坐标异常或配送距离超出合理范围(如大于25公里)的记录,最终得到38,964行有效数据。此外,通过哈弗辛公式计算餐厅与顾客间的直线距离,生成了`distance_km`特征,并依据配送时间百分位数将配送速度划分为快、中、慢三类,从而增强了数据集的解析维度与实用性。
特点
该数据集深刻反映了印度食品配送生态的复杂性,其核心特征体现在多维度的运营变量上。数据集不仅涵盖了配送员年龄、评分、车辆状况及订单类型等基本属性,还整合了天气条件、交通密度与城市类型等环境因素。尤为突出的是,通过特征工程引入了配送直线距离与速度分类,使得分析能够超越表面关联,深入探究物流效率的内在机制。数据集中故意保留的部分缺失值(如配送员评分)并未削弱其分析价值,反而为研究不同情境下的配送表现提供了灵活空间。这些特征共同构成一个层次丰富、贴近现实运营场景的结构化数据框架。
使用方法
该数据集主要服务于探索性数据分析与预测建模任务,尤其适合研究物流效率的影响因素。使用者可将其应用于监督学习,以`Time_taken (min)`为目标变量进行回归分析,或利用`delivery_speed`进行多分类预测。在分析方法上,建议遵循数据集中概述的研究问题框架:首先考察天气与交通的交互效应,其次评估配送员经验对时效的缓冲作用,最后辨析距离与实际运营瓶颈的差异。数据集中提供的相关矩阵与可视化结果可作为基准参考,帮助研究者验证假设并发现非线性的关联模式。此外,数据集支持对印度不同城市层级(大都市、城市、半城市)的配送模式进行对比研究,为区域化运营策略提供数据支撑。
背景与挑战
背景概述
Zomato Delivery Operations EDA 数据集源于对印度食品配送物流效率的深入研究,由数据科学家 Saurabh Badole 于 Kaggle 平台公开构建。该数据集聚焦于现实世界中的配送运营数据,旨在揭示影响配送时效的关键因素,如天气状况、交通密度、配送员属性及多单配送等复杂变量。其核心研究问题在于量化并解析这些因素如何交互作用,从而优化配送网络效率,对物流管理与运营研究领域提供了宝贵的实证基础。
当前挑战
该数据集致力于解决食品配送物流中的时效预测与瓶颈识别问题,其挑战在于多变量非线性关系的建模,例如天气与交通的交互效应可能抵消直观预期。构建过程中的挑战则体现在数据清洗的迭代性,初始探索性分析后需二次处理隐藏异常,如无效GPS坐标与超常配送距离;同时,面对配送员年龄与评分等关键字段的缺失值,需权衡数据完整性与分析目标,策略性保留部分记录以支撑多维研究问题。
常用场景
经典使用场景
在物流与运营分析领域,Zomato配送数据集常被用于探索性数据分析(EDA),以揭示影响食品配送效率的关键因素。研究者通过整合配送员属性、天气状况、交通密度及GPS坐标等多维特征,系统评估配送时长与各变量间的复杂关系。经典应用场景包括构建预测模型,以优化配送路线规划,或通过交互式可视化深入解析天气与交通的耦合效应,为运营决策提供数据驱动的见解。
衍生相关工作
基于该数据集衍生的经典工作包括多目标优化算法的设计,以平衡配送效率与资源分配。后续研究常借鉴其特征工程方法,如哈弗辛距离的计算与配送速度分类,应用于更广泛的时空数据分析中。此外,其关于天气-交通交互效应的发现,激发了城市物流韧性研究的新方向,促进了跨学科方法在供应链管理中的融合。
数据集最近研究
最新研究方向
在食品配送物流领域,Zomato配送运营数据集正推动研究从单一因素分析转向复杂系统建模。前沿探索聚焦于多变量交互效应,特别是天气与交通状况的非线性耦合如何重塑配送效率。研究发现,极端天气未必导致最严重延误,而晴朗天气下的交通拥堵可能成为隐性瓶颈,这挑战了传统认知。同时,配送员评分相较于地理距离展现出更强的预测力,凸显了人力因素在运营优化中的核心地位。当前热点在于利用此类高粒度数据构建动态风险预测模型,以应对印度城市特有的交通波动与季节性气候影响,为实时调度算法提供决策支持,其成果对提升全球新兴市场配送网络的韧性具有重要参考价值。
以上内容由遇见数据集搜集并总结生成



