zomato_delivery_EDA

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/allenborochin/zomato_delivery_EDA

下载链接

链接失效反馈

官方服务：

资源简介：

Zomato Delivery Operations 数据集是一个关于印度多个城市食品配送物流的真实世界数据集。该数据集包含45,584行原始数据，经过清洗和特征工程后，最终包含38,964行和22列。目标变量为`Time_taken (min)`，表示配送总时间（分钟）。数据集涵盖了配送员的属性（如年龄、评分）、天气条件（如晴天、多云、雾、风暴等）、交通密度（如低、中、高、拥堵）、GPS坐标（餐厅和客户的经纬度）以及配送结果。此外，数据集还包含两个 engineered 特征：`distance_km`（餐厅与客户之间的直线距离）和`delivery_speed`（配送速度分类：快、平均、慢）。该数据集适用于表格分类和回归任务，特别适合用于探索天气、交通、配送员经验等因素对配送时间的影响。

创建时间：

2026-04-03

原始信息汇总

Zomato Delivery Operations — EDA & Dataset 数据集概述

数据集基本信息

来源：Kaggle — saurabhbadole/zomato-delivery-operations-analytics-dataset (https://www.kaggle.com/datasets/saurabhbadole/zomato-delivery-operations-analytics-dataset)
许可协议：mit
任务类别：表格分类、表格回归
语言：英语
领域：食品配送物流，印度
数据规模：10K<n<100K
原始数据规模：45,584 行 × 20 列
最终数据规模：38,964 行 × 22 列
目标变量：Time_taken (min)

研究问题

天气与交通：极端天气（风暴、雾）是否总是会减慢配送速度，或者有时会因道路畅通而实际导致更快的配送结果？
经验缓冲：评分更高或经验更丰富的配送员是否花费更少的配送时间？
距离与现实：使用 Haversine 距离计算，延迟是否仅仅因为客户距离远，还是运营因素才是真正的瓶颈？

数据准备与特征工程

数据清洗步骤

删除了缺失关键列（Weather_conditions、Road_traffic_density、multiple_deliveries）的行。
移除了重复行（未发现）。
将 Time_taken (min) 转换为整数。
清除了所有分类列中的空白字符。
移除了 3,410 行 GPS 坐标损坏（经纬度为 0,0）的行。
移除了 272 行物理上不可能的距离（>25公里，高于第99百分位数）的行。

工程化特征

列名	描述
`distance_km`	餐厅与客户之间的 Haversine 直线距离（公里）
`delivery_speed`	分类分箱：快（<19 分钟）/ 平均（19–33 分钟）/ 慢（>33 分钟）

delivery_speed 的阈值基于 Time_taken (min) 的第25和第75百分位数选择，以确保平衡分割（26.2% / 51.2% / 22.6%）。

有意保留的缺失值

Delivery_person_Age（缺失 1,019 个）和 Delivery_person_Ratings（缺失 1,055 个）被有意保留。这些行仍对研究问题1和3有贡献，在研究问题2的分析中，pandas 会自动跳过 NaN 值。

异常值检测

配送时间：未检测到异常值（范围 10–54 分钟，均在 IQR 范围内）。
距离：无异常值（已过滤至 ≤25公里）。
配送员评分：1,024 个低于 3.9 的值被标记为统计异常值，但被有意保留，因为它们代表了与研究问题2相关的真实低评分配送员。

关键发现

研究问题1 — 天气与交通

天气状况 vs. 配送时间：晴天配送最快（中位数 21 分钟）。风暴和沙尘暴的表现与大风条件相当（均为 26 分钟）。雾天和阴天最慢（29 分钟）。
交通密度 vs. 配送时间：交通密度有明确但非线性的影响。从低（21.5 分钟）到中（26.9 分钟）的跳跃显著，但从中到高（27.4 分钟）几乎相同。只有拥堵条件会造成有意义的额外延迟（31.4 分钟）。
天气与交通的交互作用：晴天天气能缓冲甚至重度交通的影响。雾天/阴天与拥堵的组合是最差组合（36.8–36.9 分钟），而风暴和沙尘暴在重度交通下的表现明显好于预期。

研究问题2 — 经验缓冲

配送员评分是数据集中最强的预测因子（r = -0.360），强于距离（r = 0.322）。高评分配送员配送速度持续更快。
年龄较大的配送员往往更慢（r = 0.298），表明仅凭经验并不能弥补——服务质量更重要。

研究问题3 — 距离与现实

距离有影响，但它不是真正的瓶颈。每次行程的多次配送（r = 0.384）是比距离（r = 0.322）更强的预测因子。
一次处理 3 次配送的配送员平均耗时 47.8 分钟，是单次配送平均耗时（23.1 分钟）的两倍多。

列参考

列名	类型	描述
`ID`	字符串	唯一订单 ID
`Delivery_person_ID`	字符串	配送员 ID
`Delivery_person_Age`	整数	配送员年龄
`Delivery_person_Ratings`	浮点数	配送员评分（1–5）
`Restaurant_latitude`	浮点数	餐厅 GPS 纬度
`Restaurant_longitude`	浮点数	餐厅 GPS 经度
`Delivery_location_latitude`	浮点数	客户 GPS 纬度
`Delivery_location_longitude`	浮点数	客户 GPS 经度
`Order_Date`	字符串	订单日期
`Time_Orderd`	字符串	下单时间
`Time_Order_picked`	字符串	取餐时间
`Weather_conditions`	字符串	晴天 / 阴天 / 雾天 / 风暴 / 大风 / 沙尘暴
`Road_traffic_density`	字符串	低 / 中 / 高 / 拥堵
`Vehicle_condition`	整数	车辆状况（0–2）
`Type_of_order`	字符串	小吃 / 正餐 / 饮料 / 自助餐
`Type_of_vehicle`	字符串	摩托车 / 踏板车 / 电动踏板车
`multiple_deliveries`	整数	行程中的额外停靠点数量（0–3）
`Festival`	字符串	是 / 否 — 是否有活跃的节日
`City`	字符串	大都市 / 城市 / 半城市
`Time_taken (min)`	整数	目标变量 — 总配送时间（分钟）
`distance_km`	浮点数	工程化特征 — Haversine 距离（公里）
`delivery_speed`	类别	工程化特征 — 快 / 平均 / 慢

搜集汇总

数据集介绍

构建方式

在食品配送物流领域，数据质量直接影响分析结论的可靠性。该数据集源自Zomato在印度多个城市的真实配送运营记录，原始包含45,584行与20列数据。构建过程经历了严谨的数据清洗与特征工程阶段：首先剔除了关键字段缺失的行，并清除了GPS坐标异常或配送距离超出合理范围（如大于25公里）的记录，最终得到38,964行有效数据。此外，通过哈弗辛公式计算餐厅与顾客间的直线距离，生成了`distance_km`特征，并依据配送时间百分位数将配送速度划分为快、中、慢三类，从而增强了数据集的解析维度与实用性。

特点

该数据集深刻反映了印度食品配送生态的复杂性，其核心特征体现在多维度的运营变量上。数据集不仅涵盖了配送员年龄、评分、车辆状况及订单类型等基本属性，还整合了天气条件、交通密度与城市类型等环境因素。尤为突出的是，通过特征工程引入了配送直线距离与速度分类，使得分析能够超越表面关联，深入探究物流效率的内在机制。数据集中故意保留的部分缺失值（如配送员评分）并未削弱其分析价值，反而为研究不同情境下的配送表现提供了灵活空间。这些特征共同构成一个层次丰富、贴近现实运营场景的结构化数据框架。

使用方法

该数据集主要服务于探索性数据分析与预测建模任务，尤其适合研究物流效率的影响因素。使用者可将其应用于监督学习，以`Time_taken (min)`为目标变量进行回归分析，或利用`delivery_speed`进行多分类预测。在分析方法上，建议遵循数据集中概述的研究问题框架：首先考察天气与交通的交互效应，其次评估配送员经验对时效的缓冲作用，最后辨析距离与实际运营瓶颈的差异。数据集中提供的相关矩阵与可视化结果可作为基准参考，帮助研究者验证假设并发现非线性的关联模式。此外，数据集支持对印度不同城市层级（大都市、城市、半城市）的配送模式进行对比研究，为区域化运营策略提供数据支撑。

背景与挑战

背景概述

Zomato Delivery Operations EDA 数据集源于对印度食品配送物流效率的深入研究，由数据科学家 Saurabh Badole 于 Kaggle 平台公开构建。该数据集聚焦于现实世界中的配送运营数据，旨在揭示影响配送时效的关键因素，如天气状况、交通密度、配送员属性及多单配送等复杂变量。其核心研究问题在于量化并解析这些因素如何交互作用，从而优化配送网络效率，对物流管理与运营研究领域提供了宝贵的实证基础。

当前挑战

该数据集致力于解决食品配送物流中的时效预测与瓶颈识别问题，其挑战在于多变量非线性关系的建模，例如天气与交通的交互效应可能抵消直观预期。构建过程中的挑战则体现在数据清洗的迭代性，初始探索性分析后需二次处理隐藏异常，如无效GPS坐标与超常配送距离；同时，面对配送员年龄与评分等关键字段的缺失值，需权衡数据完整性与分析目标，策略性保留部分记录以支撑多维研究问题。

常用场景

经典使用场景

在物流与运营分析领域，Zomato配送数据集常被用于探索性数据分析（EDA），以揭示影响食品配送效率的关键因素。研究者通过整合配送员属性、天气状况、交通密度及GPS坐标等多维特征，系统评估配送时长与各变量间的复杂关系。经典应用场景包括构建预测模型，以优化配送路线规划，或通过交互式可视化深入解析天气与交通的耦合效应，为运营决策提供数据驱动的见解。

衍生相关工作

基于该数据集衍生的经典工作包括多目标优化算法的设计，以平衡配送效率与资源分配。后续研究常借鉴其特征工程方法，如哈弗辛距离的计算与配送速度分类，应用于更广泛的时空数据分析中。此外，其关于天气-交通交互效应的发现，激发了城市物流韧性研究的新方向，促进了跨学科方法在供应链管理中的融合。

数据集最近研究

特征	与 Time_taken 的相关性
`multiple_deliveries`	+0.384
`Delivery_person_Ratings`	−0.360
`distance_km`	+0.322
`Delivery_person_Age`	+0.298