Yelp dataset

github2020-09-16 更新2024-05-31 收录

下载链接：

https://github.com/arushakelkar/Yelp_Dataset_RecommenderSystem

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于挑战，可以从Yelp网站下载，用于预测活跃用户的最终评分。

This dataset is designed for a prediction challenge, which is downloadable from the Yelp website, and is intended to predict the final ratings of active users.

创建时间：

2020-03-03

原始信息汇总

数据集概述

数据集名称

Yelp dataset

数据集来源

可从https://www.yelp.com/dataset/challenge下载

数据集用途

用于预测活跃用户的最后一项评分，特别是对那些有5次或以上评论的用户，预测其最后一项评论的评分。

数据集相关模型

ALS
深度学习模型（使用嵌入层）
Factorization Machine (LightFM)
用户-物品偏差基线模型

数据集使用环境要求

Python 3.7.4
需要安装的包：pandas, numpy, surprise, pyspark, keras, LightFM, matplotlib
16 GB RAM 或使用 Google Colab

搜集汇总

数据集介绍

构建方式

Yelp数据集是通过Yelp平台上的用户评论和评分数据构建而成，涵盖了广泛的商业类别和地理区域。该数据集的设计旨在支持个性化推荐系统的研究，特别是针对用户行为预测的模型开发。数据集的构建过程包括从Yelp平台提取用户评论、商家信息和评分数据，并通过时间戳对用户的历史行为进行排序，以便于预测用户的最后一次评分。

特点

Yelp数据集的特点在于其丰富的用户交互数据，包括用户对商家的评分、评论内容以及时间戳信息。这些数据不仅反映了用户的偏好和消费习惯，还提供了时间维度上的动态变化，使得研究者能够深入分析用户行为的演变。此外，数据集涵盖了多样化的商业类别和地理区域，为跨领域和跨地域的研究提供了坚实的基础。

使用方法

使用Yelp数据集时，研究者可以通过加载数据集并利用Python中的数据处理库（如pandas和numpy）进行数据预处理。随后，可以使用机器学习框架（如Keras、LightFM）构建和训练模型，以预测用户的最后一次评分。数据集的丰富信息使得研究者能够尝试多种模型，如ALS、深度学习模型和因子分解机，并通过比较不同模型的性能来优化预测结果。

背景与挑战

背景概述

Yelp数据集自2013年发布以来，已成为学术界和工业界研究个性化推荐系统的重要资源。该数据集由Yelp公司提供，包含了大量用户对商家的评价、评分及评论信息。哥伦比亚大学的E4571个性化理论课程在2019年秋季学期中，由Brett Vintch教授指导，团队包括Arusha Kelkar、Tanvi Pareek和Priyanka Lahoti等成员，利用该数据集进行了深入研究。核心研究问题聚焦于预测活跃用户的最后一次评分，即对于有5条或以上评论的用户，预测其按时间顺序的最后一条评论的评分。这一研究不仅推动了推荐算法的发展，也为理解用户行为模式提供了新的视角。

当前挑战

Yelp数据集在解决个性化推荐问题时面临多重挑战。首先，用户评分行为的高度个性化使得预测模型需要具备强大的泛化能力。其次，数据集中包含的文本评论信息虽丰富，但其非结构化特性增加了特征提取的难度。在构建模型过程中，研究团队采用了ALS、深度学习嵌入层和因子分解机（LightFM）等多种方法，每种方法在处理高维稀疏数据时都面临计算效率和模型准确性的平衡问题。此外，数据预处理阶段的复杂性和计算资源的高需求也是构建高效预测模型时必须克服的障碍。

常用场景

经典使用场景

Yelp数据集在个性化推荐系统中扮演着重要角色，尤其是在用户行为分析和评分预测领域。该数据集常用于构建和测试推荐算法，通过分析用户的历史评分和评论，预测用户对未评分项目的可能评分。这种应用场景在电子商务和在线服务平台中尤为常见，帮助提升用户体验和满意度。

衍生相关工作

基于Yelp数据集，许多经典的研究工作得以展开，如使用ALS（交替最小二乘法）和LightFM（因子分解机）等算法进行评分预测。这些研究不仅验证了算法的有效性，还推动了推荐系统领域的创新。此外，深度学习模型的应用也为处理大规模数据集提供了新的思路和方法。

数据集最近研究