POI-Graph

Name: POI-Graph
Creator: 沙特阿拉伯国王苏丹大学, 意大利博洛尼亚大学, 英特尔马蒂克斯, 美国麻省理工学院
Published: 2025-07-26 06:31:45
License: 暂无描述

arXiv2025-07-26 更新2025-08-13 收录

下载链接：

https://github.com/yazeedalrubyli/poi-covisitation-prediction

下载链接

链接失效反馈

官方服务：

资源简介：

POI-Graph数据集包含9490万条共同访问记录，涵盖92,486个品牌和48个美国州。该数据集用于研究人口规模下兴趣点（POI）的共同访问模式预测，旨在帮助城市规划、零售分析和基于位置的服务。数据集通过整合商业分类知识，使用可学习的嵌入来预测人口规模共同访问模式，并通过空间、时间和社会经济特征在一个端到端框架中实现。

The POI-Graph dataset contains 94.9 million co-visit records, covering 92,486 brands and spanning 48 U.S. states. This dataset is developed for studying the prediction of point-of-interest (POI) co-visit patterns at the population scale, aiming to assist urban planning, retail analytics, and location-based services. By integrating business classification knowledge, the dataset uses learnable embeddings to forecast population-scale co-visit patterns, and accomplishes this predictive workflow within an end-to-end framework that incorporates spatial, temporal, and socio-economic features.

提供机构：

沙特阿拉伯国王苏丹大学, 意大利博洛尼亚大学, 英特尔马蒂克斯, 美国麻省理工学院

创建时间：

2025-07-26

搜集汇总

数据集介绍

构建方式

POI-Graph数据集构建基于美国本土2018年1月至2020年3月期间的两组专有移动定位数据。通过聚合2860万条月度POI记录与2.515亿条周级品牌共访记录，采用品牌级节点聚合策略（每个品牌对应其最频繁的6位NAICS代码），并设置每月5次设备共访的阈值构建州级子图。最终形成包含92,486个品牌节点、4590万条边的跨48州网络，集成276个NAICS行业代码与38项社会经济指标，通过时空对齐和异常值过滤确保数据质量。

特点

该数据集具有三个显著特征：首先，其共访关系建模覆盖45.3亿潜在品牌对的稀疏空间（99.9%零共访），捕捉五数量级的交互强度差异；其次，深度融合北美行业分类系统（NAICS）的语义层次，通过16维可学习嵌入编码276个6位行业代码的细粒度业务关系；最后，多模态特性体现在系统整合空间距离、周期性时间编码、品牌流行度及滞后社会经济指标，为人口级移动模式预测提供多维上下文。

使用方法

使用该数据集需遵循时空边回归框架：将州级子图输入5层GraphSAGE网络，节点特征融合NAICS嵌入与流行度分数，边特征组合空间距离、月份循环编码及社会经济指标。采用平衡小批量训练（正负边1:1采样）优化MSE损失，通过邻居采样（扇出序列[15,10,5]）控制计算开销。预测阶段将学习到的节点表征与工程化边特征经两阶段MLP融合，输出连续共访强度预测，适用于零售选址评估、城市混合用地规划等场景。

背景与挑战

背景概述

POI-Graph数据集由Yazeed Alrubyli等研究人员于2025年提出，旨在解决大规模兴趣点（POI）共现预测问题。该数据集由来自48个美国州的92,486个品牌和94.9百万条共现记录组成，覆盖了286百万条原始POI记录。核心研究问题是通过整合空间邻近性和商业关系，预测人口规模的POI共现模式。POI-Graph的提出填补了现有移动性数据集中共现关系建模的空白，为零售分析、城市规划和经济韧性研究等领域提供了重要支持。

当前挑战

POI-Graph数据集面临的主要挑战包括：1) 领域问题方面，共现矩阵极度稀疏（99.9%的品牌对每月零共现），且存在五个数量级的交互强度变化，传统协同过滤方法难以应对；2) 构建过程中，需要处理跨276个商业类别和4.2亿潜在品牌对的复杂语义关系，同时整合空间、时间和社会经济特征。此外，数据的地理偏差和季节性变化也为建模带来了额外难度。

常用场景

经典使用场景

POI-Graph数据集在预测大规模兴趣点（POI）共访模式方面具有经典应用场景。通过整合商业分类学知识（如NAICS编码）与空间邻近性，该数据集能够揭示不同商业场所之间的潜在关联，例如咖啡店与快餐店之间的高共访率，而纯空间模型无法解释此类现象。这种预测能力为零售选址、城市规划等提供了数据支持。

解决学术问题

POI-Graph数据集解决了极端数据稀疏性和复杂空间-语义交互带来的学术挑战。传统方法仅依赖地理距离，难以捕捉商业语义对共访模式的影响。该数据集通过图神经网络（如NAICS-aware GraphSAGE）整合多模态特征，将预测性能提升157%（R2从0.243增至0.625），为空间交互建模和边缘回归任务设立了新基准。

衍生相关工作

该数据集衍生了多个经典研究方向：1）基于NAICS嵌入的商业语义增强模型（如Hierarchical Category-aware Transformer）；2）时空超图学习框架（STHGCN）在POI推荐中的改进应用；3）边缘中心图神经网络（EdgeGNN）对稀疏共访图的适应性优化。这些工作共同推动了空间时序图神经网络在商业智能领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集