Cainiao-AI/LaDe|最后一公里配送数据集|时空数据分析数据集
收藏数据集概述
数据集名称: LaDe
数据集特点:
- 大规模: 包含10,677k个包裹,涉及21k快递员,覆盖6个月的实际运营数据。
- 信息全面: 提供原始包裹信息,如位置和时间要求,以及任务事件信息,记录快递员在任务接受和完成时的位置和时间。
- 多样性: 数据涵盖多种场景,如包裹取件和配送,来自多个城市,每个城市都有其独特的时空模式。
数据集组成:
- LaDe-D: 包裹配送场景的数据集。
- LaDe-P: 包裹取件场景的数据集。
数据格式: CSV
数据结构:
- ./data/raw/
- delivery
- delivery_sh.csv
- ...
- pickup
- pickup_sh.csv
- ...
- road-network
- roads.csv
- data_with_trajectory_20s
- courier_detailed_trajectory_20s.pkl.xz
- delivery
城市数据分布:
- 上海: 中国最繁荣的城市之一,每日订单量大。
- 杭州: 电子商务发达的大城市,每日订单量大。
- 重庆: 道路条件复杂的大城市,订单量大。
- 吉林: 中等规模城市,每日订单量较小。
- 烟台: 小城市,每日订单量小。
数据集详细字段
LaDe-P
- Package information:
- package_id: 包裹唯一标识
- time_window_start: 所需时间窗口开始
- time_window_end: 所需时间窗口结束
- Stop information:
- lng/lat: 每个停靠点的坐标
- city: 城市
- region_id: 区域ID
- aoi_id: 关注区域ID
- aoi_type: 关注区域类型
- Courier Information:
- courier_id: 快递员ID
- Task-event Information:
- accept_time: 快递员接受任务的时间
- accept_gps_time: 接近接受时间的GPS时间点
- accept_gps_lng/lat: 快递员接受任务时的坐标
- pickup_time: 快递员取件时间
- pickup_gps_time: 接近取件时间的GPS时间点
- pickup_gps_lng/lat: 快递员取件时的坐标
- Context information:
- ds: 包裹取件日期
LaDe-D
- Package information:
- package_id: 包裹唯一标识
- Stop information:
- lng/lat: 每个停靠点的坐标
- city: 城市
- region_id: 区域ID
- aoi_id: 关注区域ID
- aoi_type: 关注区域类型
- Courier Information:
- courier_id: 快递员ID
- Task-event Information:
- accept_time: 快递员接受任务的时间
- accept_gps_time: 接近接受时间的GPS时间点
- accept_gps_lng/accept_gps_lat: 快递员接受任务时的坐标
- delivery_time: 快递员完成配送的时间
- delivery_gps_time: 接近配送时间的GPS时间点
- delivery_gps_lng/delivery_gps_lat: 快递员完成任务时的坐标
- Context information:
- ds: 包裹配送日期
引用信息
shell @misc{wu2023lade, title={LaDe: The First Comprehensive Last-mile Delivery Dataset from Industry}, author={Lixia Wu and Haomin Wen and Haoyuan Hu and Xiaowei Mao and Yutong Xia and Ergang Shan and Jianbin Zhen and Junhong Lou and Yuxuan Liang and Liuqing Yang and Roger Zimmermann and Youfang Lin and Huaiyu Wan}, year={2023}, eprint={2306.10675}, archivePrefix={arXiv}, primaryClass={cs.DB} }

ROBEL
ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。
arXiv 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国逐日降水数据集(1961-2022,0.1°/0.25°/0.5°)
CHM_PRE数据集基于中国境内及周边1961至今共2839个站点的日降水观测,在传统的“降水背景场 + 降水比值场”的数据集构建思路上,尝试应用月值降水约束和地形特征校正,并依据中国范围内约4万个高密度站点2015–2019年的日降水量插值后数据进行精度评价。经评估认为,CHM_PRE可以较好的表征降水的空间变异性,其日值时间序列与高密度站点日值降水观测结果之间的相关系数中位数为0.78,均方根误差中位数为8.8 mm/d,KGE值中位数为0.69,与目前常用的降水数据集(CGDPA、CN05.1、CMA V2.0)有很好的一致性。 数据集的时间范围为1961年至今,空间分辨率为0.1°、0.25°和0.5°,经纬度范围为18°N–54°N, 72°E–136°E。
国家青藏高原科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录