five

POI-Graph

收藏
arXiv2025-07-26 更新2025-08-13 收录
下载链接:
https://github.com/yazeedalrubyli/poi-covisitation-prediction
下载链接
链接失效反馈
官方服务:
资源简介:
POI-Graph数据集包含9490万条共同访问记录,涵盖92,486个品牌和48个美国州。该数据集用于研究人口规模下兴趣点(POI)的共同访问模式预测,旨在帮助城市规划、零售分析和基于位置的服务。数据集通过整合商业分类知识,使用可学习的嵌入来预测人口规模共同访问模式,并通过空间、时间和社会经济特征在一个端到端框架中实现。

The POI-Graph dataset contains 94.9 million co-visit records, covering 92,486 brands and spanning 48 U.S. states. This dataset is developed for studying the prediction of point-of-interest (POI) co-visit patterns at the population scale, aiming to assist urban planning, retail analytics, and location-based services. By integrating business classification knowledge, the dataset uses learnable embeddings to forecast population-scale co-visit patterns, and accomplishes this predictive workflow within an end-to-end framework that incorporates spatial, temporal, and socio-economic features.
提供机构:
沙特阿拉伯国王苏丹大学, 意大利博洛尼亚大学, 英特尔马蒂克斯, 美国麻省理工学院
创建时间:
2025-07-26
搜集汇总
数据集介绍
main_image_url
构建方式
POI-Graph数据集构建基于美国本土2018年1月至2020年3月期间的两组专有移动定位数据。通过聚合2860万条月度POI记录与2.515亿条周级品牌共访记录,采用品牌级节点聚合策略(每个品牌对应其最频繁的6位NAICS代码),并设置每月5次设备共访的阈值构建州级子图。最终形成包含92,486个品牌节点、4590万条边的跨48州网络,集成276个NAICS行业代码与38项社会经济指标,通过时空对齐和异常值过滤确保数据质量。
特点
该数据集具有三个显著特征:首先,其共访关系建模覆盖45.3亿潜在品牌对的稀疏空间(99.9%零共访),捕捉五数量级的交互强度差异;其次,深度融合北美行业分类系统(NAICS)的语义层次,通过16维可学习嵌入编码276个6位行业代码的细粒度业务关系;最后,多模态特性体现在系统整合空间距离、周期性时间编码、品牌流行度及滞后社会经济指标,为人口级移动模式预测提供多维上下文。
使用方法
使用该数据集需遵循时空边回归框架:将州级子图输入5层GraphSAGE网络,节点特征融合NAICS嵌入与流行度分数,边特征组合空间距离、月份循环编码及社会经济指标。采用平衡小批量训练(正负边1:1采样)优化MSE损失,通过邻居采样(扇出序列[15,10,5])控制计算开销。预测阶段将学习到的节点表征与工程化边特征经两阶段MLP融合,输出连续共访强度预测,适用于零售选址评估、城市混合用地规划等场景。
背景与挑战
背景概述
POI-Graph数据集由Yazeed Alrubyli等研究人员于2025年提出,旨在解决大规模兴趣点(POI)共现预测问题。该数据集由来自48个美国州的92,486个品牌和94.9百万条共现记录组成,覆盖了286百万条原始POI记录。核心研究问题是通过整合空间邻近性和商业关系,预测人口规模的POI共现模式。POI-Graph的提出填补了现有移动性数据集中共现关系建模的空白,为零售分析、城市规划和经济韧性研究等领域提供了重要支持。
当前挑战
POI-Graph数据集面临的主要挑战包括:1) 领域问题方面,共现矩阵极度稀疏(99.9%的品牌对每月零共现),且存在五个数量级的交互强度变化,传统协同过滤方法难以应对;2) 构建过程中,需要处理跨276个商业类别和4.2亿潜在品牌对的复杂语义关系,同时整合空间、时间和社会经济特征。此外,数据的地理偏差和季节性变化也为建模带来了额外难度。
常用场景
经典使用场景
POI-Graph数据集在预测大规模兴趣点(POI)共访模式方面具有经典应用场景。通过整合商业分类学知识(如NAICS编码)与空间邻近性,该数据集能够揭示不同商业场所之间的潜在关联,例如咖啡店与快餐店之间的高共访率,而纯空间模型无法解释此类现象。这种预测能力为零售选址、城市规划等提供了数据支持。
解决学术问题
POI-Graph数据集解决了极端数据稀疏性和复杂空间-语义交互带来的学术挑战。传统方法仅依赖地理距离,难以捕捉商业语义对共访模式的影响。该数据集通过图神经网络(如NAICS-aware GraphSAGE)整合多模态特征,将预测性能提升157%(R2从0.243增至0.625),为空间交互建模和边缘回归任务设立了新基准。
衍生相关工作
该数据集衍生了多个经典研究方向:1)基于NAICS嵌入的商业语义增强模型(如Hierarchical Category-aware Transformer);2)时空超图学习框架(STHGCN)在POI推荐中的改进应用;3)边缘中心图神经网络(EdgeGNN)对稀疏共访图的适应性优化。这些工作共同推动了空间时序图神经网络在商业智能领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作