VRP Benchmark Based on Real-world Online-shopping Data
收藏github2025-05-11 更新2025-05-26 收录
下载链接:
https://github.com/NVlabs/olist-vrp-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该仓库介绍了一个基于Olist真实世界电子商务数据的车辆路径问题(VRP)基准测试。仓库包括一个即时问题生成器和一个用于参考的固定测试问题集。
This repository presents a Vehicle Routing Problem (VRP) benchmark based on real-world e-commerce data from Olist. It includes an on-the-fly problem generator and a fixed test problem set for reference.
创建时间:
2025-05-11
原始信息汇总
VRP基准数据集概述
数据集基本信息
- 名称:VRP Benchmark Based on Real-world Online-shopping Data
- 来源:基于Olist提供的巴西电子商务真实数据
- 类型:车辆路径问题(VRP)基准数据集
- 数据量:
- 里约热内卢区域:8,758个订单
- 圣保罗区域:23,197个订单
数据集内容
- 位置数据:
- 客户位置(基于邮政编码随机生成)
- 仓库位置(基于卖家位置)
- 距离数据:
- 驾驶模式(基于OSRM包计算的行驶时间)
- 飞行模式(欧几里得距离)
- 需求数据:
- 订单需求(基于产品体积计算)
- 默认车辆容量:160升
数据集结构
- 坐标数据:
coordinates_rio_test.csvcoordinates_rio_train.csvcoordinates_rio_validation.csvcoordinates_sao_paulo_test.csvcoordinates_sao_paulo_train.csvcoordinates_sao_paulo_validation.csv
- 距离矩阵:
cross_distances_*.npzdistances_*.npy
- 测试问题集:
- 包含50-500个节点规模的问题实例
- 每个规模包含256个测试问题和64个验证问题
使用方法
- 生成新问题:
- 下载并解压
coordinates.zip - 使用
data_loader.py生成问题实例
- 下载并解压
- 加载测试问题:
- 下载并解压
test_problems.zip - 使用pickle加载预生成的问题实例
- 下载并解压
数据集特点
- 基于真实电子商务数据
- 包含两种距离计算模式
- 提供最佳已知解决方案参考
- 支持不同规模的问题生成
引用信息
- 相关论文:Accelerating Vehicle Routing via AI-Initialized Genetic Algorithms
- arXiv链接:https://arxiv.org/abs/2504.06126
搜集汇总
数据集介绍

构建方式
该数据集基于巴西电子商务平台Olist的真实订单数据构建,专注于车辆路径问题(VRP)的基准测试。研究团队从超过10万条订单记录中提取了里约热内卢和圣保罗两个地理区域的订单数据,通过邮政编码匹配随机生成客户坐标,并采用OSRM包计算基于实际道路网络的驾驶时间。订单需求通过商品体积的聚合计算获得,异常值经过中位数替换和100升上限截断处理,最终转化为整数值以确保计算精度。
特点
该数据集突破了传统VRP基准的局限性,具有显著的现实分布特征。其空间分布呈现典型的城市集群模式,与均匀分布假设形成鲜明对比;距离矩阵支持欧式距离和实际驾驶时间两种模式;车辆容量设置为平均需求的10倍(160升),更贴近实际物流场景。数据集包含256个测试问题和64个验证问题,节点规模从50到500不等,并附有当前最优解作为参考基准。
使用方法
使用该数据集时,用户可选择生成随机问题实例或加载预设测试集。随机生成需指定地理区域(里约/圣保罗)、距离模式(驾驶/飞行)、节点数量和车辆容量等参数,通过调用data_loader模块实现。预设测试集以pkl格式存储,包含位置坐标、距离矩阵、需求数组和容量标量等关键字段。研究团队推荐将本数据集用于评估机器学习算法在非均匀分布、多规模VRP问题上的泛化能力,特别是检验算法对现实空间分布和道路网络的适应性。
背景与挑战
背景概述
VRP Benchmark Based on Real-world Online-shopping Data是由NVIDIA团队基于Olist提供的巴西电子商务公开数据集构建的车辆路径问题(VRP)基准测试集。该数据集发布于2025年,旨在解决传统VRP基准测试中存在的局限性,如节点数量固定、分布单一等问题。数据集聚焦于里约热内卢和圣保罗两个地区的真实订单数据,包含地理位置、驾驶时间、订单需求等关键信息,为机器学习方法在VRP领域的应用提供了更贴近现实的测试环境。其构建依托于10万条2016至2018年间的真实电商订单数据,通过OSRM包计算道路导航时间,显著提升了基准测试的实用性和挑战性。
当前挑战
该数据集主要面临两大挑战:在领域问题层面,传统VRP基准测试的节点分布和距离计算过于理想化,难以反映真实场景中的道路网络和订单分布特征,而该数据集通过引入真实地理位置和驾驶时间计算,有效解决了这一问题;在构建过程层面,数据预处理面临订单位置去重、缺失需求值填充、容量异常值截断等技术难题,同时还需平衡车辆容量与订单需求的合理比例,确保问题实例的可行性。此外,隐私保护要求对原始数据进行匿名化处理,进一步增加了数据清洗和标准化的复杂度。
常用场景
经典使用场景
在物流优化领域,VRP Benchmark Based on Real-world Online-shopping Data数据集为车辆路径问题(VRP)的研究提供了真实世界的电商数据支持。该数据集基于Olist平台的巴西电商订单数据,生成了包含客户位置、需求量和行驶时间的复杂问题实例。研究者可利用该数据集测试不同VRP算法的性能,特别是在处理大规模、非均匀分布的客户节点时的表现。数据集提供的动态问题生成器和固定测试集,使得算法评估既灵活又具有可比性。
解决学术问题
该数据集有效解决了VRP研究中数据分布单一、规模受限的问题。传统VRP基准通常采用均匀分布的节点和小规模问题设置,导致算法容易过拟合。而该数据集基于真实电商订单,节点分布呈现自然聚类特征,更贴近实际物流场景。通过提供不同规模、不同区域(里约热内卢和圣保罗)的问题实例,数据集支持算法在多样化场景下的泛化能力评估,推动了VRP研究从理论到实践的转变。
衍生相关工作
该数据集已催生多项重要研究,其中最著名的是NVIDIA团队提出的AI初始化遗传算法。相关论文《Accelerating Vehicle Routing via AI-Initialized Genetic Algorithms》利用该数据集验证了新算法在大规模VRP问题上的优越性。此外,数据集还被用于评估深度强化学习、元启发式算法等各类VRP求解方法,成为连接传统运筹学与机器学习方法的重要桥梁。
以上内容由遇见数据集搜集并总结生成



