reczoo/Yelp18_m1
收藏Hugging Face2023-12-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/reczoo/Yelp18_m1
下载链接
链接失效反馈官方服务:
资源简介:
Yelp18_m1数据集包含31,668个用户和38,048个物品,共有1,561,406次交互。其中,训练集包含1,237,259次交互,测试集包含324,147次交互,数据密度为0.00130。数据格式为用户ID后跟物品ID列表。该数据集来源于Yelp,并已被多篇推荐系统相关论文使用。
Yelp18_m1数据集包含31,668个用户和38,048个物品,共有1,561,406次交互。其中,训练集包含1,237,259次交互,测试集包含324,147次交互,数据密度为0.00130。数据格式为用户ID后跟物品ID列表。该数据集来源于Yelp,并已被多篇推荐系统相关论文使用。
提供机构:
reczoo
原始信息汇总
Yelp18_m1 数据集概述
数据集描述
Yelp18_m1 数据集的统计信息如下:
| 数据集ID | 用户数 | 物品数 | 交互次数 | 训练集大小 | 测试集大小 | 密度 |
|---|---|---|---|---|---|---|
| Yelp18_m1 | 31,668 | 38,048 | 1,561,406 | 1,237,259 | 324,147 | 0.00130 |
数据格式
数据格式为:
user_id item1 item2 ...
数据完整性校验
使用以下命令检查数据的 MD5 校验和: bash $ md5sum *.txt 520fe559761ff2c654629201c807f353 item_list.txt 0d57d7399862c32152b045ec5d2698e7 test.txt 1b8b5d22a227e01d6de002c53d32b4c4 train.txt ae4f810cd6e827f10fc418753c7d92f9 user_list.txt
搜集汇总
数据集介绍

构建方式
在推荐系统研究领域,Yelp18_m1数据集作为Yelp公开数据集的一个子集,其构建过程体现了对真实世界用户交互数据的精心提炼。该数据集从Yelp平台原始数据中提取了31,668位用户与38,048个项目之间的交互记录,总计包含1,561,406条交互数据。通过特定的划分策略,这些交互被分割为训练集与测试集,其中训练集包含1,237,259条交互,测试集包含324,147条交互,整体数据密度为0.00130,反映了真实推荐场景中用户-项目交互的稀疏特性。数据格式以用户ID及其交互项目序列的形式组织,确保了数据的结构清晰与易于处理。
使用方法
使用Yelp18_m1数据集时,研究者通常遵循推荐系统领域的标准实验流程。数据以文本文件形式提供,包括用户列表、项目列表以及分别用于训练和测试的交互文件。用户可直接从HuggingFace平台下载原始数据,并利用提供的MD5校验和确保数据完整性。在模型训练阶段,使用train.txt中的交互数据学习用户与项目的嵌入表示;在评估阶段,则使用test.txt中的交互数据测试模型的预测性能,常见评估指标包括命中率、归一化折损累计增益等。该数据集适用于协同过滤、图神经网络等多种推荐算法的开发与比较研究。
背景与挑战
背景概述
Yelp18_m1数据集作为推荐系统领域的重要基准数据,源于2018年Yelp平台公开的商业评论数据,由RecZoo研究团队整理并发布。该数据集聚焦于用户与商户间的交互行为建模,旨在解决协同过滤中的稀疏性与可扩展性难题,为图神经网络等前沿推荐算法的评估提供了标准化环境。其构建受到He等学者在SIGIR 2020提出的LightGCN框架推动,后续被SimpleX、UltraGCN等多篇顶会论文采用,显著促进了推荐系统从传统矩阵分解向图结构学习的范式演进。
当前挑战
该数据集核心挑战体现在两方面:其一,在领域问题层面,极低的交互密度(0.0013%)加剧了数据稀疏性,使模型难以捕捉长尾物品的潜在关联;同时动态演化的用户偏好与商户属性,要求算法具备时序感知与冷启动适应能力。其二,在构建过程中,原始Yelp数据包含多模态信息与非结构化文本,需通过复杂的过滤、去噪与序列化处理,才能转化为标准的用户-物品交互序列,此过程涉及大规模异构数据融合与隐私保护的技术平衡。
常用场景
经典使用场景
在推荐系统领域,Yelp18_m1数据集作为基准数据集,广泛应用于评估协同过滤算法的性能。该数据集源自Yelp平台,记录了用户对商家的评分与交互行为,其稀疏性与大规模特性使其成为检验模型处理真实世界稀疏交互能力的理想选择。研究者常利用该数据集训练和测试图神经网络、矩阵分解等推荐模型,以优化用户与物品之间的潜在关系建模。
解决学术问题
该数据集有效解决了推荐系统中数据稀疏性和可扩展性两大核心学术问题。通过提供高维稀疏的真实交互数据,它支持研究者探索如何从有限用户行为中挖掘深层偏好,并推动模型在保持高效计算的同时提升推荐准确性。其应用促进了轻量化图卷积网络等创新方法的发展,为处理大规模隐式反馈数据提供了标准化的评估框架。
实际应用
在实际应用中,Yelp18_m1数据集被企业用于构建个性化商业推荐系统,例如帮助Yelp等平台为用户精准推荐餐厅、酒店等服务。基于该数据训练的模型能够分析用户历史行为,预测其未来兴趣,从而提升用户体验和平台参与度。此外,它还可用于市场趋势分析和商家竞争力评估,为商业决策提供数据支持。
数据集最近研究
最新研究方向
在推荐系统领域,Yelp18_m1数据集作为商业平台用户交互行为的典型代表,持续推动着图神经网络与协同过滤技术的融合与简化。前沿研究聚焦于轻量化图卷积架构的设计,例如LightGCN通过去除传统神经网络中的非线性变换与权重矩阵,显著提升了推荐效率与泛化能力。随后,SimpleX等研究进一步探索了负采样与损失函数的优化,在保持模型简洁性的同时增强了对隐式反馈的建模精度。近期,UltraGCN通过无限层图卷积的近似计算,将图结构信息与协同信号深度融合,为大规模稀疏场景下的实时推荐提供了新思路。这些进展不仅降低了计算复杂度,也促进了推荐系统在可扩展性与实用性方面的突破,对电商、社交平台等领域的个性化服务具有深远影响。
以上内容由遇见数据集搜集并总结生成



