five

LaDe|末端配送数据集|物流管理数据集

收藏
arXiv2024-01-03 更新2024-06-21 收录
末端配送
物流管理
下载链接:
https://huggingface.co/datasets/Cainiao-AI/LaDe
下载链接
链接失效反馈
资源简介:
LaDe是首个由工业界提供的全面末端配送数据集,包含21000名快递员在6个月内处理的10677000个包裹数据。数据集提供了详细的包裹信息、任务事件信息以及快递员轨迹信息,涵盖了从包裹揽收到配送的全过程。LaDe不仅规模庞大,而且信息全面且多样化,适用于物流运营管理、时空数据挖掘等多个研究领域,旨在解决末端配送中的路径规划、预计到达时间预测等问题。
提供机构:
菜鸟网络
创建时间:
2023-06-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
LaDe数据集的构建基于中国最大的物流平台之一——菜鸟网络的真实运营数据。数据收集过程涵盖了包裹的取件和派送两个主要场景,分别命名为LaDe-P和LaDe-D。数据采集自中国五个不同城市的21,000名快递员,时间跨度为六个月,共涉及10,677,000个包裹。为了确保数据的多样性和代表性,研究人员从每个城市中随机选择了30个区域,并从中随机抽取快递员,记录其在六个月内所有取件和派送包裹的详细信息。为了保护用户隐私,数据中的经纬度信息经过扰动处理,精度限制在10米以内。
特点
LaDe数据集具有三个显著特点:首先,其规模庞大,涵盖了超过1000万个包裹和21,000名快递员的轨迹数据,是目前公开的最大的最后一公里配送数据集之一。其次,数据集提供了全面的信息,包括包裹的原始信息(如位置和时间要求)、任务事件信息(如快递员接受任务和完成任务的时间和地点)以及快递员的轨迹信息。最后,数据集具有多样性,涵盖了不同城市的取件和派送场景,每个城市由于其独特的人口和地理特征,呈现出不同的时空模式。
使用方法
LaDe数据集可用于多种最后一公里配送相关的研究任务,如路径预测、预计到达时间(ETA)预测和时空图预测。研究人员可以通过访问数据集主页(https://huggingface.co/datasets/Cainiao-AI/LaDe)下载数据,并按照任务需求进行数据预处理和模型训练。数据集以CSV格式提供,每条记录包含包裹的详细信息、快递员的轨迹信息以及任务事件的时间戳。研究人员可以根据具体任务构建标签,例如通过计算包裹的实际到达时间与查询时间的差值来进行ETA预测。
背景与挑战
背景概述
LaDe数据集是由菜鸟网络、北京交通大学、新加坡国立大学和香港科技大学(广州)的研究团队共同创建的首个公开的最后一公里配送数据集。该数据集于2023年发布,旨在填补物流、供应链管理和时空数据挖掘领域的研究空白。LaDe数据集包含了超过1000万个包裹的配送数据,涵盖了21,000名快递员在6个月内的真实操作记录。其独特之处在于其大规模性、信息全面性和多样性,涵盖了多个城市的包裹取件和配送过程。LaDe的发布为研究者提供了一个宝贵的资源,推动了最后一公里配送相关算法的开发与评估。
当前挑战
LaDe数据集在解决最后一公里配送领域的核心问题时面临多重挑战。首先,最后一公里配送的复杂性和动态性使得诸如路径规划、预计到达时间(ETA)预测等任务极具挑战性。其次,数据集的构建过程中也面临诸多困难,包括数据的隐私保护、大规模数据的采集与处理,以及不同城市间时空模式的多样性。此外,LaDe-P子数据集中的动态任务分配问题进一步增加了研究的复杂性,要求算法能够实时适应不断变化的配送需求。这些挑战不仅推动了相关领域的研究进展,也为未来的算法优化提供了新的方向。
常用场景
经典使用场景
LaDe数据集在物流和供应链管理领域具有广泛的应用场景,尤其是在最后一公里配送的研究中。该数据集通过提供大规模的包裹信息、配送员轨迹和任务事件记录,支持了多种经典任务,如路径规划、预计到达时间(ETA)预测和时空图预测。这些任务在物流优化、配送效率提升以及客户满意度改善中起到了关键作用。
解决学术问题
LaDe数据集解决了最后一公里配送研究中的多个学术问题。首先,它填补了公开数据集的空白,为研究者提供了一个大规模、全面的真实世界数据源。其次,通过提供详细的包裹信息、任务事件记录和配送员轨迹,LaDe支持了路径规划、ETA预测和时空图预测等任务的研究,推动了这些领域的算法创新和模型优化。此外,LaDe的多样性和动态性也为研究不同城市和场景下的配送模式提供了丰富的数据基础。
衍生相关工作
LaDe数据集的发布催生了许多相关研究工作。例如,基于LaDe的路径预测模型Graph2Route和ETA预测模型RankETPA在学术界和工业界都得到了广泛应用。此外,LaDe还支持了时空图预测任务的研究,推动了时空数据挖掘领域的发展。许多研究者利用LaDe数据集开发了新的算法和模型,进一步提升了最后一公里配送的效率和智能化水平。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Med-MAT

Med-MAT是一个包含106个开源医学数据集的视觉问答(VQA)数据集,旨在推动医学多模态大语言模型(MLLMs)的泛化实验和训练。数据集通过将图像-标签对转换为VQA格式,展示了组合泛化(CG)是MLLMs理解未见图像的关键机制。数据集包括106个医学数据集的问答对、53个按模态、解剖区域和任务(MAT)分类的子集的问答对,以及部分数据集的图像下载链接。

huggingface 收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集,由萨里大学创建,旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本,来源于多个流行电视节目,通过手动标注确保高质量的讽刺标签。创建过程中,研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测,帮助机器理解并识别讽刺语境,解决讽刺识别中的多模态挑战。

arXiv 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录