FreshRetailNet-50K
收藏arXiv2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/Dingdong-Inc/FreshRetailNet-50K
下载链接
链接失效反馈官方服务:
资源简介:
FreshRetailNet-50K是一个大规模的生鲜零售库存缺货标注的审查需求数据集,旨在解决生鲜零售中需求估计的挑战。该数据集包含来自18个主要城市898家商店的50,000条详细的每小时销售数据,涵盖了863种生鲜SKU,并仔细标注了缺货事件。独特的每小时库存状态记录,加上丰富的上下文协变量,包括促销折扣、降雨量和时间特征,使得研究能够超越现有解决方案。数据集的开放性质为需求插补、生鲜库存优化和因果零售分析等领域的创新研究提供了新的方向。
FreshRetailNet-50K is a large-scale annotated dataset designed for stockout audit in fresh retail inventory management, aiming to tackle the core challenges of demand estimation in fresh retail operations. This dataset encompasses 50,000 detailed hourly sales records collected from 898 stores across 18 major cities, covering 863 fresh produce SKUs, with meticulously annotated stockout events. The unique hourly inventory status records, combined with rich contextual covariates including promotional discounts, rainfall data and temporal features, enable researchers to develop solutions that outperform existing approaches. The open-access nature of this dataset provides new research directions for innovative studies in fields such as demand imputation, fresh inventory optimization and causal retail analysis.
提供机构:
丁咚有限公司
创建时间:
2025-05-22
原始信息汇总
FreshRetailNet-50K 数据集概述
数据集基本信息
- 语言: 英语
- 许可证: CC BY 4.0
- 任务类别: 时间序列预测
- 标签: 生鲜零售、需求截断、每小时库存状态
- 规模: 1M < n < 10M
- 配置: 默认配置包含训练集和评估集
数据集详情
- 名称: FreshRetailNet-50K
- 概述: 首个大规模生鲜零售领域需求截断估计基准数据集,包含约20%自然发生的缺货数据
- 数据量: 50,000个商店-产品90天时间序列
- 覆盖范围: 18个主要城市898家商店的863种易腐SKU
- 独特特征: 每小时库存状态记录,丰富的上下文协变量(促销折扣、降水等时间特征)
数据字段
| 字段 | 类型 | 描述 |
|---|---|---|
| city_id | int64 | 编码城市ID |
| store_id | int64 | 编码商店ID |
| management_group_id | int64 | 编码管理组ID |
| first_category_id | int64 | 编码一级类别ID |
| second_category_id | int64 | 编码二级类别ID |
| third_category_id | int64 | 编码三级类别ID |
| product_id | int64 | 编码产品ID |
| dt | string | 日期 |
| sale_amount | float64 | 全局归一化后的日销售额 |
| hours_sale | Sequence(float64) | 全局归一化后的每小时销售额 |
| stock_hour6_22_cnt | int32 | 6:00-22:00缺货小时数 |
| hours_stock_status | Sequence(int32) | 每小时缺货状态 |
| discount | float64 | 折扣率 |
| holiday_flag | int32 | 假期标志 |
| activity_flag | int32 | 活动标志 |
| precpt | float64 | 总降水量 |
| avg_temperature | float64 | 平均温度 |
| avg_humidity | float64 | 平均湿度 |
| avg_wind_level | float64 | 平均风力 |
层级结构
- 仓库: city_id > store_id
- 产品类别: management_group_id > first_category_id > second_category_id > third_category_id > product_id
使用方式
python from datasets import load_dataset dataset = load_dataset("Dingdong-Inc/FreshRetailNet-50K") print(dataset)
许可证与使用条款
- 许可证: 知识共享署名4.0国际许可协议 (CC BY 4.0)
- 数据开发者: Dingdong-Inc
- 发布日期: 2025年5月8日
- 数据版本: 1.0
预期用途
- 用于改进潜在需求恢复和需求预测技术
- 用户需自行检查数据集许可证是否适用于预期目的
引用
@article{2025freshretailnet-50k, title={FreshRetailNet-50K: A Stockout-Annotated Censored Demand Dataset for Latent Demand Recovery and Forecasting in Fresh Retail}, author={Yangyang Wang, Jiawei Gu, Li Long, Xin Li, Li Shen, Zhouyu Fu, Xiangjun Zhou, Xu Jiang}, year={2025}, eprint={2505.16319}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2505.16319}, }
相关资源
搜集汇总
数据集介绍

构建方式
FreshRetailNet-50K数据集通过整合来自18个主要城市898家门店的多源运营数据构建而成,覆盖了2024年3月至6月的三个月观察期。数据集包含863种易腐商品的每小时销售数据,并通过仓库管理系统精确追踪库存水平。销售数据与在线订单交易系统同步,确保库存消耗与潜在需求之间的精确对应。此外,数据集还融合了营销活动标注、每日气象数据及法定节假日信息,以全面捕捉影响需求波动的外生因素。所有数据均经过匿名化处理,以符合隐私保护法规。
使用方法
该数据集支持两阶段需求建模方法:首先利用精确的每小时缺货标注恢复缺货期间的潜在需求,随后基于恢复的需求训练鲁棒的需求预测模型。研究者可通过整合历史销售、促销活动、天气条件及日历特征,构建时间序列预测模型。数据集特别适用于评估算法在缺货诱导的截断需求下的表现,并提供了衡量需求恢复准确性和预测偏差的专门指标,如加权绝对百分比误差(WAPE)和加权百分比误差(WPE)。其开放获取性质鼓励学术界和产业界探索截断感知需求建模的新方向。
背景与挑战
背景概述
FreshRetailNet-50K数据集由Dingdong Ltd.与中山大学等机构的研究团队于2025年5月发布,旨在解决生鲜零售领域因缺货导致的销售数据截断问题。该数据集包含18个城市898家门店863种生鲜商品的5万条小时级销售时序数据,首次标注了缺货事件及库存状态,并整合了促销折扣、降水等多元协变量。其创新性在于突破了传统零售数据集在时间粒度与截断标注上的局限,为潜在需求重建与库存优化研究提供了标准化基准,推动了因果零售分析与时效性补货策略的发展。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题上,需解决缺货期间真实需求不可观测导致的系统性预测偏差,传统方法将零销售错误解读为零需求;构建过程中,需精确标注小时级缺货事件以区分真实需求缺失与库存耗尽的差异,同时处理生鲜商品的高替代性与短保质期带来的数据稀疏性。此外,多源异构数据(气象、促销等)的时空对齐与隐私保护也增加了数据集构建的复杂度。
常用场景
经典使用场景
FreshRetailNet-50K数据集在生鲜零售领域的经典使用场景主要包括库存优化和需求预测。该数据集通过每小时销售数据和详细的缺货标注,使研究人员能够精确识别缺货事件,从而恢复潜在需求。这种高时间分辨率的数据特别适用于捕捉生鲜产品的日内需求波动,例如早晨和傍晚的购买高峰,为实时补货决策提供科学依据。
解决学术问题
FreshRetailNet-50K解决了生鲜零售中因缺货导致的需求截断问题,填补了现有数据集中缺乏明确缺货标注和时间粒度不足的空白。通过提供精确的缺货事件标注和丰富的上下文协变量,该数据集支持开发新型需求恢复模型,显著减少了系统性需求低估偏差,为学术研究提供了可靠的基准平台。
实际应用
在实际应用中,FreshRetailNet-50K数据集被广泛用于生鲜零售企业的库存管理和动态定价策略优化。通过结合促销活动、天气数据和节假日效应,企业能够更准确地预测需求波动,减少因缺货或过度库存导致的损失。此外,该数据集还支持跨区域需求分析,帮助企业在不同城市和气候条件下制定差异化的供应链策略。
数据集最近研究
最新研究方向
FreshRetailNet-50K数据集在生鲜零售领域的最新研究方向主要集中在潜在需求恢复与库存感知预测模型的开发。该数据集通过提供小时级销售数据、精确的缺货标注以及多维协变量(如促销活动、天气因素等),为研究缺货情况下的需求重建提供了前所未有的数据支持。前沿研究探索了多周期模型、注意力机制填补方法以及不确定性感知生成器在需求恢复任务中的应用,同时结合时间融合变换器(TFT)等先进预测模型,显著提升了预测精度并减少了系统性低估偏差。此外,该数据集还推动了跨领域研究,如气候弹性供应链规划和动态定价策略优化,为生鲜零售行业的库存管理和需求预测提供了新的方法论基础。
相关研究论文
- 1FreshRetailNet-50K: A Stockout-Annotated Censored Demand Dataset for Latent Demand Recovery and Forecasting in Fresh Retail中山大学 · 2025年
以上内容由遇见数据集搜集并总结生成



