five

Cainiao-AI/LaDe|最后一公里配送数据集|时空数据分析数据集

收藏
hugging_face2024-05-07 更新2024-03-04 收录
最后一公里配送
时空数据分析
下载链接:
https://hf-mirror.com/datasets/Cainiao-AI/LaDe
下载链接
链接失效反馈
资源简介:
LaDe是一个公开的最后一公里配送数据集,包含来自工业界的数百万个包裹。该数据集具有三个独特特点:(1) 大规模:涉及21,000名快递员在6个月内的10,677k个包裹的真实操作数据。(2) 信息全面:提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和任务完成等事件发生时的位置和时间。(3) 多样性:数据集包含来自不同场景(如包裹取件和配送)和多个城市的数据,每个城市由于其独特的人口特征等因素,具有不同的时空模式。数据集分为两个子数据集:LaDe-D(包裹配送场景)和LaDe-P(包裹取件场景),每个子数据集包含五个CSV文件,分别代表来自不同城市的数据。

LaDe是一个公开的最后一公里配送数据集,包含来自工业界的数百万个包裹。该数据集具有三个独特特点:(1) 大规模:涉及21,000名快递员在6个月内的10,677k个包裹的真实操作数据。(2) 信息全面:提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和任务完成等事件发生时的位置和时间。(3) 多样性:数据集包含来自不同场景(如包裹取件和配送)和多个城市的数据,每个城市由于其独特的人口特征等因素,具有不同的时空模式。数据集分为两个子数据集:LaDe-D(包裹配送场景)和LaDe-P(包裹取件场景),每个子数据集包含五个CSV文件,分别代表来自不同城市的数据。
提供机构:
Cainiao-AI
原始信息汇总

数据集概述

数据集名称: LaDe

数据集特点:

  1. 大规模: 包含10,677k个包裹,涉及21k快递员,覆盖6个月的实际运营数据。
  2. 信息全面: 提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和完成时的位置和时间。
  3. 多样性: 数据涵盖多种场景,如包裹取件和配送,来自多个城市,每个城市都有其独特的时空模式。

数据集组成:

  • LaDe-D: 包裹配送场景的数据集。
  • LaDe-P: 包裹取件场景的数据集。

数据格式: CSV

数据结构:

  • ./data/raw/
    • delivery
      • delivery_sh.csv
      • ...
    • pickup
      • pickup_sh.csv
      • ...
    • road-network
      • roads.csv
    • data_with_trajectory_20s
      • courier_detailed_trajectory_20s.pkl.xz

城市数据分布:

  • 上海: 中国最繁荣的城市之一,每日订单量大。
  • 杭州: 电子商务发达的大城市,每日订单量大。
  • 重庆: 道路条件复杂的大城市,订单量大。
  • 吉林: 中等规模城市,每日订单量较小。
  • 烟台: 小城市,每日订单量小。

数据集详细字段

LaDe-P

  • Package information:
    • package_id: 包裹唯一标识
    • time_window_start: 所需时间窗口开始
    • time_window_end: 所需时间窗口结束
  • Stop information:
    • lng/lat: 每个停靠点的坐标
    • city: 城市
    • region_id: 区域ID
    • aoi_id: 关注区域ID
    • aoi_type: 关注区域类型
  • Courier Information:
    • courier_id: 快递员ID
  • Task-event Information:
    • accept_time: 快递员接受任务的时间
    • accept_gps_time: 接近接受时间的GPS时间点
    • accept_gps_lng/lat: 快递员接受任务时的坐标
    • pickup_time: 快递员取件时间
    • pickup_gps_time: 接近取件时间的GPS时间点
    • pickup_gps_lng/lat: 快递员取件时的坐标
  • Context information:
    • ds: 包裹取件日期

LaDe-D

  • Package information:
    • package_id: 包裹唯一标识
  • Stop information:
    • lng/lat: 每个停靠点的坐标
    • city: 城市
    • region_id: 区域ID
    • aoi_id: 关注区域ID
    • aoi_type: 关注区域类型
  • Courier Information:
    • courier_id: 快递员ID
  • Task-event Information:
    • accept_time: 快递员接受任务的时间
    • accept_gps_time: 接近接受时间的GPS时间点
    • accept_gps_lng/accept_gps_lat: 快递员接受任务时的坐标
    • delivery_time: 快递员完成配送的时间
    • delivery_gps_time: 接近配送时间的GPS时间点
    • delivery_gps_lng/delivery_gps_lat: 快递员完成任务时的坐标
  • Context information:
    • ds: 包裹配送日期

引用信息

shell @misc{wu2023lade, title={LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry}, author={Lixia Wu and Haomin Wen and Haoyuan Hu and Xiaowei Mao and Yutong Xia and Ergang Shan and Jianbin Zhen and Junhong Lou and Yuxuan Liang and Liuqing Yang and Roger Zimmermann and Youfang Lin and Huaiyu Wan}, year={2023}, eprint={2306.10675}, archivePrefix={arXiv}, primaryClass={cs.DB} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
LaDe数据集的构建基于大规模的实际运营数据,涵盖了10,677,000个包裹和21,000名快递员在六个月内的活动。数据集通过整合原始包裹信息、任务事件记录以及快递员的时空轨迹,形成了全面且细致的数据结构。具体而言,数据集分为两个子集:LaDe-D和LaDe-P,分别对应包裹配送和包裹取件场景。每个子集以CSV格式呈现,便于研究人员进行数据处理和分析。
特点
LaDe数据集的显著特点包括其大规模性、信息全面性和多样性。大规模性体现在其包含的包裹数量和快递员数量上,为研究提供了丰富的样本。信息全面性则体现在数据集不仅记录了包裹的基本信息,还详细记录了任务事件的时间和地点,以及快递员的轨迹数据。多样性则体现在数据集涵盖了不同城市和不同场景的数据,每个城市因其独特的时空特征而呈现出不同的数据模式。
使用方法
LaDe数据集的使用方法相对直接,研究人员可以通过下载数据集并将其存储在指定的文件结构中,然后使用Python等编程语言进行数据读取和处理。例如,使用Pandas库可以轻松读取CSV文件,并进行数据分析和模型训练。数据集的详细字段描述和示例代码在README文件中均有提供,便于用户快速上手。此外,数据集还提供了不同方法在特定任务上的性能表现,为研究者提供了参考基准。
背景与挑战
背景概述
LaDe数据集,由Cainiao-AI团队于2023年发布,是首个公开的末端配送数据集,涵盖了数百万个来自实际行业的包裹数据。该数据集由主要研究人员Lixia Wu、Haomin Wen等人创建,旨在解决末端配送中的复杂问题,如路径优化和时间预测。LaDe数据集不仅规模庞大,涉及10,677k个包裹和21k名快递员在六个月内的实际操作,还提供了全面的包裹信息和任务事件记录,包括位置和时间要求。此外,数据集的多样性体现在涵盖了多种场景和多个城市,每个城市因其独特的时空模式而具有不同的数据特征。LaDe数据集的发布对物流和末端配送领域的研究具有重要影响,为研究人员提供了丰富的数据资源,以推动相关技术的进步。
当前挑战
LaDe数据集在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,涉及数百万个包裹和长时间跨度的数据,这要求高效的存储和处理技术。其次,数据集包含多种场景和多个城市的数据,每个城市的时空模式各异,这增加了模型训练和预测的复杂性。此外,数据集中的任务事件信息需要精确的时间和位置记录,这对数据采集和处理提出了高要求。最后,LaDe数据集的应用领域广泛,包括路径预测、到达时间估计和时空图预测等,这些任务都需要高精度的模型和算法支持。因此,LaDe数据集的挑战不仅在于数据的复杂性和多样性,还在于如何利用这些数据推动物流和末端配送领域的技术创新。
常用场景
经典使用场景
LaDe数据集在物流和最后一公里配送领域中,经典的使用场景包括路径预测、预计到达时间(ETA)预测以及时空图预测。通过分析大规模的包裹配送数据,研究人员可以开发出更高效的配送路径规划算法,优化配送员的任务分配,从而显著提升配送效率和服务质量。
解决学术问题
LaDe数据集解决了物流领域中多个关键的学术研究问题,如复杂城市环境下的路径优化、实时配送任务调度以及时空数据的预测分析。其大规模和多样化的数据特性,为研究者提供了丰富的实验数据,推动了物流优化算法和时空数据分析技术的发展,具有重要的学术价值和应用前景。
衍生相关工作
基于LaDe数据集,研究者们开展了多项经典工作,包括路径预测模型、ETA预测算法以及时空图预测技术的研究。例如,Graph2Route模型在路径预测中表现优异,FDNET在ETA预测中取得了显著成果。这些研究不仅推动了物流领域的技术进步,也为相关领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)

CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。

国家青藏高原科学数据中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录