five

Foursquare_FGCRec, Gowalla_FGCRec, Foursquare_FGRec, Yelp_FGRec, Foursquare_CARec, Yelp_CARec, Foursquare_MUC, Gowalla_MUC

收藏
github2021-12-13 更新2024-05-31 收录
下载链接:
https://github.com/YijunSu/LBSN_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
这些数据集可用于POI/下一个POI推荐、轨迹推荐、朋友推荐(链接预测)、活动推荐、团体推荐和社区发现任务。每个数据集都提供了用户数量、POI数量、签到数量等详细统计信息,并根据用户的签到时间将数据集分为训练集、调整集和测试集。

These datasets can be utilized for POI/next POI recommendation, trajectory recommendation, friend recommendation (link prediction), activity recommendation, group recommendation, and community detection tasks. Each dataset provides detailed statistics such as the number of users, the number of POIs, the number of check-ins, and is divided into training, validation, and test sets based on the check-in times of users.
创建时间:
2021-08-12
原始信息汇总

数据集概述

数据集用途

  • POI/next-POI推荐
  • 轨迹推荐
  • 朋友推荐(链接预测)
  • 活动推荐
  • 群组推荐
  • 社区发现任务

数据集统计

FGCRec数据集
数据集 用户数 POI数 签到数 用户-POI矩阵密度
Foursquare_FGCRec 7,642 28,484 512,523 0.13%
Gowalla_FGCRec 5,628 31,803 620,683 0.22%
FGRec数据集
数据集 用户数 POI数 类别数 签到数 社交链接数 用户-POI矩阵密度
Foursquare_FGRec 2,551 13,474 10 124,933 32,512 0.291%
Yelp_FGRec 30,887 30,887 624 860,888 860,888 0.14%
CARec数据集
数据集 用户数 POI数 签到数 评论数 用户-POI矩阵密度
Foursquare_CARec 9,728 12,449 177,142 234,793 0.15%
Yelp_CARec 5,577 6,900 518,186 542,707 0.46%
MUC数据集
数据集 用户数 POI数 签到数 社交链接数
Foursquare_MUC 11,326 182,968 1,385,223 47,164
Gowalla_MUC 107,092 1,280,969 6,442,890 950,327

数据集分割

  • 训练集:用户最早70%的签到数据
  • 测试集:用户最近20%的签到数据
  • 调谐集:剩余10%的签到数据

数据集详细信息

  • Foursquare_FGCRec:数据范围从2012年4月至2013年9月
  • Gowalla_FGCRec:数据范围从2009年2月至2010年10月
  • Foursquare_FGRec:加州用户数据,范围从2009年12月至2013年6月
  • Yelp_FGRec:包含多个城市的POI和评论
  • Foursquare_CARec:筛选访问少于10个POI的用户和被少于10个用户访问的POI
  • Yelp_CARec:筛选访问少于32个POI的用户和被少于31个用户访问的POI
  • Foursquare_MUC:数据范围从2011年1月至2011年7月
  • Gowalla_MUC:数据范围从2009年2月至2010年10月
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于多个地理位置社交网络平台,包括Foursquare、Gowalla和Yelp等。数据收集时间跨度从2009年至2013年,涵盖了用户的签到记录、社交链接、评论信息等。数据集的划分依据用户签到时间,将每个用户的最早70%签到数据作为训练集,最近的20%作为测试集,剩余的10%作为调优集。通过这种时间序列的划分方式,确保了数据的时间连续性,适用于推荐系统的训练与评估。
特点
该数据集具有多样化的特点,涵盖了用户签到、社交链接、POI(兴趣点)信息以及用户评论等多维度数据。数据集规模庞大,用户数量从数千到数十万不等,POI数量从数千到数百万,签到记录从数十万到数百万条。数据稀疏性较低,用户-POI矩阵密度在0.13%至0.46%之间。此外,数据集还包含了丰富的社交链接信息,适用于多种推荐任务,如POI推荐、轨迹推荐、社交推荐等。
使用方法
该数据集适用于多种推荐系统任务,包括POI推荐、轨迹推荐、社交推荐等。使用时,首先加载数据集并按照时间序列划分训练集、调优集和测试集。通过分析用户签到记录、社交链接和POI信息,可以构建推荐模型。模型训练完成后,使用测试集进行评估,调优集用于参数优化。数据集的多维度特性使其能够支持复杂的推荐算法,如基于地理特征的推荐、基于内容的推荐以及社交网络分析等。
背景与挑战
背景概述
Foursquare_FGCRec、Gowalla_FGCRec、Foursquare_FGRec、Yelp_FGRec、Foursquare_CARec、Yelp_CARec、Foursquare_MUC和Gowalla_MUC数据集是基于位置社交网络(LBSN)研究的重要资源,广泛应用于兴趣点(POI)推荐、轨迹推荐、社交链接预测等任务。这些数据集由Yijun Su等研究人员及其团队在2018年至2020年间创建,旨在通过细粒度的地理特征建模和内容感知推荐方法,提升POI推荐的精度和个性化。其中,Foursquare和Gowalla数据集分别涵盖了2011年至2013年和2009年至2010年的用户签到数据,而Yelp数据集则包含了大量地理标记的商业信息和用户评论。这些数据集不仅为POI推荐领域提供了丰富的数据支持,还推动了基于社交网络和时空数据的推荐系统研究。
当前挑战
这些数据集在构建和应用过程中面临多重挑战。首先,数据稀疏性问题显著,用户-POI矩阵密度普遍低于1%,导致推荐模型的训练和泛化能力受限。其次,数据的时间动态性和空间异质性增加了建模难度,例如用户签到行为的时空分布不均以及POI的地理特征多样性。此外,数据预处理中的过滤策略(如用户和POI的最小访问次数限制)可能引入偏差,影响模型的公平性和鲁棒性。在应用层面,如何有效融合社交关系、用户行为轨迹和POI内容信息,以提升推荐系统的性能,仍是一个亟待解决的核心问题。
常用场景
经典使用场景
在基于位置的社会网络(LBSN)研究中,Foursquare_FGCRec、Gowalla_FGCRec等数据集被广泛用于兴趣点(POI)推荐、轨迹推荐、朋友推荐(链接预测)、活动推荐、群体推荐以及社区发现等任务。这些数据集通过用户签到数据、社交链接和POI信息,为研究者提供了丰富的实验材料,帮助构建和验证推荐系统的性能。
实际应用
在实际应用中,这些数据集为商业推荐系统提供了重要支持。例如,Foursquare和Yelp等平台可以利用这些数据优化用户的POI推荐体验,提升用户满意度和平台活跃度。此外,基于这些数据的轨迹推荐和群体推荐功能,能够帮助用户发现新的兴趣点或社交群体,增强用户粘性和平台价值。
衍生相关工作
这些数据集衍生了许多经典研究工作。例如,FGCRec框架通过细粒度地理特征建模,提出了新的POI推荐方法;CARec框架则通过内容感知的推荐算法,进一步优化了推荐效果。此外,MUC框架通过结合用户历史签到和社交关系,提出了下一签到位置预测的新方法。这些工作不仅推动了推荐系统领域的发展,也为后续研究提供了重要的理论基础和技术支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务