Cainiao-AI/LaDe
收藏Hugging Face2024-05-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Cainiao-AI/LaDe
下载链接
链接失效反馈官方服务:
资源简介:
LaDe是一个公开的最后一公里配送数据集,包含来自工业界的数百万个包裹。该数据集具有三个独特特点:(1) 大规模:涉及21,000名快递员在6个月内的10,677k个包裹的真实操作数据。(2) 信息全面:提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和任务完成等事件发生时的位置和时间。(3) 多样性:数据集包含来自不同场景(如包裹取件和配送)和多个城市的数据,每个城市由于其独特的人口特征等因素,具有不同的时空模式。数据集分为两个子数据集:LaDe-D(包裹配送场景)和LaDe-P(包裹取件场景),每个子数据集包含五个CSV文件,分别代表来自不同城市的数据。
LaDe是一个公开的最后一公里配送数据集,包含来自工业界的数百万个包裹。该数据集具有三个独特特点:(1) 大规模:涉及21,000名快递员在6个月内的10,677k个包裹的真实操作数据。(2) 信息全面:提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和任务完成等事件发生时的位置和时间。(3) 多样性:数据集包含来自不同场景(如包裹取件和配送)和多个城市的数据,每个城市由于其独特的人口特征等因素,具有不同的时空模式。数据集分为两个子数据集:LaDe-D(包裹配送场景)和LaDe-P(包裹取件场景),每个子数据集包含五个CSV文件,分别代表来自不同城市的数据。
提供机构:
Cainiao-AI
原始信息汇总
数据集概述
数据集名称: LaDe
数据集特点:
- 大规模: 包含10,677k个包裹,涉及21k快递员,覆盖6个月的实际运营数据。
- 信息全面: 提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和完成时的位置和时间。
- 多样性: 数据涵盖多种场景,如包裹取件和配送,来自多个城市,每个城市都有其独特的时空模式。
数据集组成:
- LaDe-D: 包裹配送场景的数据集。
- LaDe-P: 包裹取件场景的数据集。
数据格式: CSV
数据结构:
- ./data/raw/
- delivery
- delivery_sh.csv
- ...
- pickup
- pickup_sh.csv
- ...
- road-network
- roads.csv
- data_with_trajectory_20s
- courier_detailed_trajectory_20s.pkl.xz
- delivery
城市数据分布:
- 上海: 中国最繁荣的城市之一,每日订单量大。
- 杭州: 电子商务发达的大城市,每日订单量大。
- 重庆: 道路条件复杂的大城市,订单量大。
- 吉林: 中等规模城市,每日订单量较小。
- 烟台: 小城市,每日订单量小。
数据集详细字段
LaDe-P
- Package information:
- package_id: 包裹唯一标识
- time_window_start: 所需时间窗口开始
- time_window_end: 所需时间窗口结束
- Stop information:
- lng/lat: 每个停靠点的坐标
- city: 城市
- region_id: 区域ID
- aoi_id: 关注区域ID
- aoi_type: 关注区域类型
- Courier Information:
- courier_id: 快递员ID
- Task-event Information:
- accept_time: 快递员接受任务的时间
- accept_gps_time: 接近接受时间的GPS时间点
- accept_gps_lng/lat: 快递员接受任务时的坐标
- pickup_time: 快递员取件时间
- pickup_gps_time: 接近取件时间的GPS时间点
- pickup_gps_lng/lat: 快递员取件时的坐标
- Context information:
- ds: 包裹取件日期
LaDe-D
- Package information:
- package_id: 包裹唯一标识
- Stop information:
- lng/lat: 每个停靠点的坐标
- city: 城市
- region_id: 区域ID
- aoi_id: 关注区域ID
- aoi_type: 关注区域类型
- Courier Information:
- courier_id: 快递员ID
- Task-event Information:
- accept_time: 快递员接受任务的时间
- accept_gps_time: 接近接受时间的GPS时间点
- accept_gps_lng/accept_gps_lat: 快递员接受任务时的坐标
- delivery_time: 快递员完成配送的时间
- delivery_gps_time: 接近配送时间的GPS时间点
- delivery_gps_lng/delivery_gps_lat: 快递员完成任务时的坐标
- Context information:
- ds: 包裹配送日期
引用信息
shell @misc{wu2023lade, title={LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry}, author={Lixia Wu and Haomin Wen and Haoyuan Hu and Xiaowei Mao and Yutong Xia and Ergang Shan and Jianbin Zhen and Junhong Lou and Yuxuan Liang and Liuqing Yang and Roger Zimmermann and Youfang Lin and Huaiyu Wan}, year={2023}, eprint={2306.10675}, archivePrefix={arXiv}, primaryClass={cs.DB} }
搜集汇总
数据集介绍

构建方式
LaDe数据集的构建基于大规模的实际运营数据,涵盖了10,677,000个包裹和21,000名快递员在六个月内的活动。数据集通过整合原始包裹信息、任务事件记录以及快递员的时空轨迹,形成了全面且细致的数据结构。具体而言,数据集分为两个子集:LaDe-D和LaDe-P,分别对应包裹配送和包裹取件场景。每个子集以CSV格式呈现,便于研究人员进行数据处理和分析。
特点
LaDe数据集的显著特点包括其大规模性、信息全面性和多样性。大规模性体现在其包含的包裹数量和快递员数量上,为研究提供了丰富的样本。信息全面性则体现在数据集不仅记录了包裹的基本信息,还详细记录了任务事件的时间和地点,以及快递员的轨迹数据。多样性则体现在数据集涵盖了不同城市和不同场景的数据,每个城市因其独特的时空特征而呈现出不同的数据模式。
使用方法
LaDe数据集的使用方法相对直接,研究人员可以通过下载数据集并将其存储在指定的文件结构中,然后使用Python等编程语言进行数据读取和处理。例如,使用Pandas库可以轻松读取CSV文件,并进行数据分析和模型训练。数据集的详细字段描述和示例代码在README文件中均有提供,便于用户快速上手。此外,数据集还提供了不同方法在特定任务上的性能表现,为研究者提供了参考基准。
背景与挑战
背景概述
LaDe数据集,由Cainiao-AI团队于2023年发布,是首个公开的末端配送数据集,涵盖了数百万个来自实际行业的包裹数据。该数据集由主要研究人员Lixia Wu、Haomin Wen等人创建,旨在解决末端配送中的复杂问题,如路径优化和时间预测。LaDe数据集不仅规模庞大,涉及10,677k个包裹和21k名快递员在六个月内的实际操作,还提供了全面的包裹信息和任务事件记录,包括位置和时间要求。此外,数据集的多样性体现在涵盖了多种场景和多个城市,每个城市因其独特的时空模式而具有不同的数据特征。LaDe数据集的发布对物流和末端配送领域的研究具有重要影响,为研究人员提供了丰富的数据资源,以推动相关技术的进步。
当前挑战
LaDe数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,涉及数百万个包裹和长时间跨度的数据,这要求高效的存储和处理技术。其次,数据集包含多种场景和多个城市的数据,每个城市的时空模式各异,这增加了模型训练和预测的复杂性。此外,数据集中的任务事件信息需要精确的时间和位置记录,这对数据采集和处理提出了高要求。最后,LaDe数据集的应用领域广泛,包括路径预测、到达时间估计和时空图预测等,这些任务都需要高精度的模型和算法支持。因此,LaDe数据集的挑战不仅在于数据的复杂性和多样性,还在于如何利用这些数据推动物流和末端配送领域的技术创新。
常用场景
经典使用场景
LaDe数据集在物流和最后一公里配送领域中,经典的使用场景包括路径预测、预计到达时间(ETA)预测以及时空图预测。通过分析大规模的包裹配送数据,研究人员可以开发出更高效的配送路径规划算法,优化配送员的任务分配,从而显著提升配送效率和服务质量。
解决学术问题
LaDe数据集解决了物流领域中多个关键的学术研究问题,如复杂城市环境下的路径优化、实时配送任务调度以及时空数据的预测分析。其大规模和多样化的数据特性,为研究者提供了丰富的实验数据,推动了物流优化算法和时空数据分析技术的发展,具有重要的学术价值和应用前景。
衍生相关工作
基于LaDe数据集,研究者们开展了多项经典工作,包括路径预测模型、ETA预测算法以及时空图预测技术的研究。例如,Graph2Route模型在路径预测中表现优异,FDNET在ETA预测中取得了显著成果。这些研究不仅推动了物流领域的技术进步,也为相关领域的研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



