five

reczoo/Gowalla_m1

收藏
Hugging Face2023-12-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/Gowalla_m1
下载链接
链接失效反馈
官方服务:
资源简介:
Gowalla_m1数据集包含29,858个用户和40,981个物品,共有1,027,370次交互。其中,训练集包含810,128次交互,测试集包含217,242次交互,数据密度为0.00084。该数据集被多篇研究论文使用,包括LightGCN、SimpleX和UltraGCN等。

The Gowalla_m1 dataset comprises 29,858 users and 40,981 items, with a total of 1,027,370 interactions. Its training set contains 810,128 interactions, while the test set includes 217,242 interactions, with a data density of 0.00084. This dataset has been utilized in numerous research papers, including LightGCN, SimpleX, UltraGCN, and other relevant works.
提供机构:
reczoo
原始信息汇总

Gowalla_m1 数据集概述

数据集统计信息

数据集ID 用户数 物品数 交互次数 训练集大小 测试集大小 密度
Gowalla_m1 29,858 40,981 1,027,370 810,128 217,242 0.00084

数据完整性校验

bash $ md5sum *.txt 13b1c0d75b07b8cea9413f40042f476f item_list.txt c04e2c4bcd2389f53ed8281816166149 test.txt 5eec1eb2edb8dd648377d348b8e136cf train.txt f83ec6f2cd974ba6470e8808830cc144 user_list.txt

搜集汇总
数据集介绍
main_image_url
构建方式
在社交网络与位置服务研究领域,Gowalla_m1数据集源自斯坦福大学SNAP项目提供的公开签到数据。该数据集通过整合用户与地点间的交互记录构建而成,原始数据经过清洗与划分,形成包含用户、项目及交互三元组的结构化信息。构建过程中,采用常规的时序划分策略,将交互数据分割为训练集与测试集,确保数据在推荐任务中的时序有效性。数据集最终涵盖29,858名用户、40,981个项目及超过百万次交互,密度较低,反映了真实场景中用户行为的稀疏特性。
特点
Gowalla_m1数据集以其大规模、高稀疏性及真实世界背景著称。作为基于位置的社交网络数据,它捕捉了用户在实际地理位置上的签到行为,为研究隐式反馈推荐提供了丰富素材。数据集中用户与项目数量庞大,交互密度仅为0.00084,凸显了推荐系统中常见的数据稀疏挑战。该数据集已被多篇顶级会议论文采用,如SIGIR 2020的LightGCN与CIKM 2021的SimpleX、UltraGCN,验证了其在图神经网络与协同过滤基准测试中的权威性与实用性。
使用方法
使用Gowalla_m1数据集时,研究者可通过HuggingFace平台直接下载预处理好的文件,包括用户列表、项目列表、训练集与测试集。数据以文本格式存储,每行代表一次用户-项目交互,便于直接加载至推荐系统框架中。为确保数据完整性,建议利用提供的md5sum值进行校验。该数据集适用于训练与评估各类推荐模型,尤其在图卷积网络、协同过滤等前沿方法中,可作为标准基准以验证模型在稀疏交互场景下的性能。
背景与挑战
背景概述
在推荐系统领域,基于位置的社交网络数据为研究用户行为模式提供了丰富资源。Gowalla_m1数据集源于斯坦福大学网络分析平台(SNAP)公开的Gowalla签到数据,由RecZoo团队于2020年前后整理并发布,旨在支持协同过滤与图神经网络推荐模型的研究。该数据集收录了约2.9万用户、4.1万项目及超过百万次交互记录,核心研究问题聚焦于如何利用稀疏的隐式反馈数据提升推荐准确性。其被LightGCN、SimpleX等前沿模型广泛采用,显著推动了图卷积网络在推荐任务中的简化与优化进程,成为评估推荐算法性能的重要基准之一。
当前挑战
Gowalla_m1数据集致力于解决推荐系统中隐式反馈数据的协同过滤挑战,尤其针对用户-项目交互矩阵的极端稀疏性问题,其密度仅为0.00084,这要求模型具备从有限信号中挖掘深层关联的能力。在构建过程中,数据采集面临地理签到数据的噪声过滤与时序一致性维护等难题,例如用户签到行为的随机性和项目位置信息的缺失需通过清洗与对齐来保障质量。此外,划分训练与测试集时需保持用户行为序列的时序逻辑,避免数据泄漏,这对数据分割策略的严谨性提出了较高要求。
常用场景
经典使用场景
在推荐系统领域,Gowalla_m1数据集以其丰富的用户-物品交互记录,为协同过滤算法的研究提供了经典范例。该数据集常被用于评估基于图神经网络的推荐模型,如LightGCN,通过捕捉用户与地点之间的复杂关系,优化个性化推荐效果。其稀疏的交互密度与大规模用户物品数量,使得模型能够在真实世界场景中验证其泛化能力与鲁棒性。
解决学术问题
该数据集有效解决了推荐系统中数据稀疏性与可扩展性等核心学术问题。通过提供高维稀疏的交互矩阵,研究者能够深入探索如何利用图结构学习用户偏好,提升长尾物品的推荐准确性。其应用促进了轻量化图卷积网络等高效算法的发展,为处理大规模现实数据提供了理论支撑与实践基准。
衍生相关工作
围绕该数据集,多项经典工作推动了推荐算法的演进。LightGCN通过简化图卷积操作,在Gowalla_m1上验证了其高效性;SimpleX则构建了强基线模型,强调协同过滤的本质特征;UltraGCN进一步优化图结构学习,实现推荐性能的显著提升。这些研究共同丰富了稀疏交互数据处理的理论体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作