five

zomato_delivery_EDA

收藏
Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/allenborochin/zomato_delivery_EDA
下载链接
链接失效反馈
官方服务:
资源简介:
Zomato Delivery Operations 数据集是一个关于印度多个城市食品配送物流的真实世界数据集。该数据集包含45,584行原始数据,经过清洗和特征工程后,最终包含38,964行和22列。目标变量为`Time_taken (min)`,表示配送总时间(分钟)。数据集涵盖了配送员的属性(如年龄、评分)、天气条件(如晴天、多云、雾、风暴等)、交通密度(如低、中、高、拥堵)、GPS坐标(餐厅和客户的经纬度)以及配送结果。此外,数据集还包含两个 engineered 特征:`distance_km`(餐厅与客户之间的直线距离)和`delivery_speed`(配送速度分类:快、平均、慢)。该数据集适用于表格分类和回归任务,特别适合用于探索天气、交通、配送员经验等因素对配送时间的影响。
创建时间:
2026-04-03
原始信息汇总

Zomato Delivery Operations — EDA & Dataset 数据集概述

数据集基本信息

  • 来源:Kaggle — saurabhbadole/zomato-delivery-operations-analytics-dataset (https://www.kaggle.com/datasets/saurabhbadole/zomato-delivery-operations-analytics-dataset)
  • 许可协议:mit
  • 任务类别:表格分类、表格回归
  • 语言:英语
  • 领域:食品配送物流,印度
  • 数据规模:10K<n<100K
  • 原始数据规模:45,584 行 × 20 列
  • 最终数据规模:38,964 行 × 22 列
  • 目标变量Time_taken (min)

研究问题

  1. 天气与交通:极端天气(风暴、雾)是否总是会减慢配送速度,或者有时会因道路畅通而实际导致更快的配送结果?
  2. 经验缓冲:评分更高或经验更丰富的配送员是否花费更少的配送时间?
  3. 距离与现实:使用 Haversine 距离计算,延迟是否仅仅因为客户距离远,还是运营因素才是真正的瓶颈?

数据准备与特征工程

数据清洗步骤

  1. 删除了缺失关键列(Weather_conditionsRoad_traffic_densitymultiple_deliveries)的行。
  2. 移除了重复行(未发现)。
  3. Time_taken (min) 转换为整数。
  4. 清除了所有分类列中的空白字符。
  5. 移除了 3,410 行 GPS 坐标损坏(经纬度为 0,0)的行。
  6. 移除了 272 行物理上不可能的距离(>25公里,高于第99百分位数)的行。

工程化特征

列名 描述
distance_km 餐厅与客户之间的 Haversine 直线距离(公里)
delivery_speed 分类分箱:快(<19 分钟)/ 平均(19–33 分钟)/ 慢(>33 分钟)

delivery_speed 的阈值基于 Time_taken (min) 的第25和第75百分位数选择,以确保平衡分割(26.2% / 51.2% / 22.6%)。

有意保留的缺失值

Delivery_person_Age(缺失 1,019 个)和 Delivery_person_Ratings(缺失 1,055 个)被有意保留。这些行仍对研究问题1和3有贡献,在研究问题2的分析中,pandas 会自动跳过 NaN 值。

异常值检测

  • 配送时间:未检测到异常值(范围 10–54 分钟,均在 IQR 范围内)。
  • 距离:无异常值(已过滤至 ≤25公里)。
  • 配送员评分:1,024 个低于 3.9 的值被标记为统计异常值,但被有意保留,因为它们代表了与研究问题2相关的真实低评分配送员。

关键发现

研究问题1 — 天气与交通

  • 天气状况 vs. 配送时间:晴天配送最快(中位数 21 分钟)。风暴和沙尘暴的表现与大风条件相当(均为 26 分钟)。雾天和阴天最慢(29 分钟)。
  • 交通密度 vs. 配送时间:交通密度有明确但非线性的影响。从低(21.5 分钟)到中(26.9 分钟)的跳跃显著,但从中到高(27.4 分钟)几乎相同。只有拥堵条件会造成有意义的额外延迟(31.4 分钟)。
  • 天气与交通的交互作用:晴天天气能缓冲甚至重度交通的影响。雾天/阴天与拥堵的组合是最差组合(36.8–36.9 分钟),而风暴和沙尘暴在重度交通下的表现明显好于预期。

研究问题2 — 经验缓冲

  • 配送员评分是数据集中最强的预测因子(r = -0.360),强于距离(r = 0.322)。高评分配送员配送速度持续更快。
  • 年龄较大的配送员往往更慢(r = 0.298),表明仅凭经验并不能弥补——服务质量更重要。

研究问题3 — 距离与现实

  • 距离有影响,但它不是真正的瓶颈。每次行程的多次配送(r = 0.384)是比距离(r = 0.322)更强的预测因子。
  • 一次处理 3 次配送的配送员平均耗时 47.8 分钟,是单次配送平均耗时(23.1 分钟)的两倍多。

相关性总结

特征 与 Time_taken 的相关性
multiple_deliveries +0.384
Delivery_person_Ratings −0.360
distance_km +0.322
Delivery_person_Age +0.298

列参考

列名 类型 描述
ID 字符串 唯一订单 ID
Delivery_person_ID 字符串 配送员 ID
Delivery_person_Age 整数 配送员年龄
Delivery_person_Ratings 浮点数 配送员评分(1–5)
Restaurant_latitude 浮点数 餐厅 GPS 纬度
Restaurant_longitude 浮点数 餐厅 GPS 经度
Delivery_location_latitude 浮点数 客户 GPS 纬度
Delivery_location_longitude 浮点数 客户 GPS 经度
Order_Date 字符串 订单日期
Time_Orderd 字符串 下单时间
Time_Order_picked 字符串 取餐时间
Weather_conditions 字符串 晴天 / 阴天 / 雾天 / 风暴 / 大风 / 沙尘暴
Road_traffic_density 字符串 低 / 中 / 高 / 拥堵
Vehicle_condition 整数 车辆状况(0–2)
Type_of_order 字符串 小吃 / 正餐 / 饮料 / 自助餐
Type_of_vehicle 字符串 摩托车 / 踏板车 / 电动踏板车
multiple_deliveries 整数 行程中的额外停靠点数量(0–3)
Festival 字符串 是 / 否 — 是否有活跃的节日
City 字符串 大都市 / 城市 / 半城市
Time_taken (min) 整数 目标变量 — 总配送时间(分钟)
distance_km 浮点数 工程化特征 — Haversine 距离(公里)
delivery_speed 类别 工程化特征 — 快 / 平均 / 慢
搜集汇总
数据集介绍
main_image_url
构建方式
在食品配送物流领域,数据质量直接影响分析结论的可靠性。该数据集源自Zomato在印度多个城市的真实配送运营记录,原始包含45,584行与20列数据。构建过程经历了严谨的数据清洗与特征工程阶段:首先剔除了关键字段缺失的行,并清除了GPS坐标异常或配送距离超出合理范围(如大于25公里)的记录,最终得到38,964行有效数据。此外,通过哈弗辛公式计算餐厅与顾客间的直线距离,生成了`distance_km`特征,并依据配送时间百分位数将配送速度划分为快、中、慢三类,从而增强了数据集的解析维度与实用性。
特点
该数据集深刻反映了印度食品配送生态的复杂性,其核心特征体现在多维度的运营变量上。数据集不仅涵盖了配送员年龄、评分、车辆状况及订单类型等基本属性,还整合了天气条件、交通密度与城市类型等环境因素。尤为突出的是,通过特征工程引入了配送直线距离与速度分类,使得分析能够超越表面关联,深入探究物流效率的内在机制。数据集中故意保留的部分缺失值(如配送员评分)并未削弱其分析价值,反而为研究不同情境下的配送表现提供了灵活空间。这些特征共同构成一个层次丰富、贴近现实运营场景的结构化数据框架。
使用方法
该数据集主要服务于探索性数据分析与预测建模任务,尤其适合研究物流效率的影响因素。使用者可将其应用于监督学习,以`Time_taken (min)`为目标变量进行回归分析,或利用`delivery_speed`进行多分类预测。在分析方法上,建议遵循数据集中概述的研究问题框架:首先考察天气与交通的交互效应,其次评估配送员经验对时效的缓冲作用,最后辨析距离与实际运营瓶颈的差异。数据集中提供的相关矩阵与可视化结果可作为基准参考,帮助研究者验证假设并发现非线性的关联模式。此外,数据集支持对印度不同城市层级(大都市、城市、半城市)的配送模式进行对比研究,为区域化运营策略提供数据支撑。
背景与挑战
背景概述
Zomato Delivery Operations EDA 数据集源于对印度食品配送物流效率的深入研究,由数据科学家 Saurabh Badole 于 Kaggle 平台公开构建。该数据集聚焦于现实世界中的配送运营数据,旨在揭示影响配送时效的关键因素,如天气状况、交通密度、配送员属性及多单配送等复杂变量。其核心研究问题在于量化并解析这些因素如何交互作用,从而优化配送网络效率,对物流管理与运营研究领域提供了宝贵的实证基础。
当前挑战
该数据集致力于解决食品配送物流中的时效预测与瓶颈识别问题,其挑战在于多变量非线性关系的建模,例如天气与交通的交互效应可能抵消直观预期。构建过程中的挑战则体现在数据清洗的迭代性,初始探索性分析后需二次处理隐藏异常,如无效GPS坐标与超常配送距离;同时,面对配送员年龄与评分等关键字段的缺失值,需权衡数据完整性与分析目标,策略性保留部分记录以支撑多维研究问题。
常用场景
经典使用场景
在物流与运营分析领域,Zomato配送数据集常被用于探索性数据分析(EDA),以揭示影响食品配送效率的关键因素。研究者通过整合配送员属性、天气状况、交通密度及GPS坐标等多维特征,系统评估配送时长与各变量间的复杂关系。经典应用场景包括构建预测模型,以优化配送路线规划,或通过交互式可视化深入解析天气与交通的耦合效应,为运营决策提供数据驱动的见解。
衍生相关工作
基于该数据集衍生的经典工作包括多目标优化算法的设计,以平衡配送效率与资源分配。后续研究常借鉴其特征工程方法,如哈弗辛距离的计算与配送速度分类,应用于更广泛的时空数据分析中。此外,其关于天气-交通交互效应的发现,激发了城市物流韧性研究的新方向,促进了跨学科方法在供应链管理中的融合。
数据集最近研究
最新研究方向
在食品配送物流领域,Zomato配送运营数据集正推动研究从单一因素分析转向复杂系统建模。前沿探索聚焦于多变量交互效应,特别是天气与交通状况的非线性耦合如何重塑配送效率。研究发现,极端天气未必导致最严重延误,而晴朗天气下的交通拥堵可能成为隐性瓶颈,这挑战了传统认知。同时,配送员评分相较于地理距离展现出更强的预测力,凸显了人力因素在运营优化中的核心地位。当前热点在于利用此类高粒度数据构建动态风险预测模型,以应对印度城市特有的交通波动与季节性气候影响,为实时调度算法提供决策支持,其成果对提升全球新兴市场配送网络的韧性具有重要参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作