Yelp review dataset

github2023-12-11 更新2024-05-31 收录

下载链接：

https://github.com/AoyanLiang/USC-Data-Mining-Competition-23F-No.1-Solution

下载链接

链接失效反馈

官方服务：

资源简介：

使用Yelp评论数据集来构建推荐系统，预测给定用户和商家对的评分/星级。

Utilize the Yelp review dataset to construct a recommendation system, predicting the rating/star level for a given user and business pair.

创建时间：

2023-12-11

原始信息汇总

数据集概述

1. 数据集名称

名称: USC-Data-Mining-Competition-23F-No.1-Solution

2. 数据集用途

用途: 构建推荐系统，使用Yelp评论数据集预测给定用户和商家对的评分/星级。

3. 性能指标

测试数据RMSE: 0.9680267140533286

数据处理与特征工程

1. 特征工程

方法: 使用图嵌入技术，特别是PyTorch-BigGraph (PBG)，处理超过6500万边的图数据。
结果: 生成100维的用户ID、商家ID、城市和类别的向量。

2. 其他特征

处理: 从用户和商家JSON文件中提取和转换特征，具体转换过程在feature_process_noreview函数中定义。

模型优化与选择

1. 超参数调优

方法: 使用贝叶斯优化调整XGBoost模型的超参数。
结果: 经过13次迭代，验证集RMSE达到0.971097。

2. 模型选择

选择: 选择XGBoost模型，因其效率和效果的平衡。

模型评估

1. 错误分布

=0 and <1: 108400 =1 and <2: 28780 =2 and <3: 4532 =3 and <4: 332 =4: 0

2. RMSE

验证数据RMSE: 0.8909814953804016
测试数据RMSE: 0.9680267140533286

执行时间

PBG图嵌入: 1.5小时
超参数调优: 6小时（13次试验）
模型训练: 1.5小时
模型预测（包括特征处理）: 约270秒

搜集汇总

数据集介绍

构建方式

Yelp评论数据集的构建过程主要依赖于用户与商家之间的交互数据，包括用户评论、评分以及商家信息等。通过图嵌入技术，将用户与商家之间的关系转化为图结构，并利用PyTorch-BigGraph工具生成高维向量表示。此外，从用户和商家的JSON文件中提取了额外的特征，并对部分分类特征进行了数值化处理，最终形成了包含丰富信息的特征集。

使用方法

该数据集的使用方法主要包括特征工程、模型训练与评估。首先，通过图嵌入技术对用户和商家关系进行建模，生成高维向量表示。随后，利用贝叶斯优化方法对XGBoost模型的超参数进行调优，并在训练集和验证集上进行模型训练。最终，通过测试集评估模型的性能，确保推荐系统的预测精度达到预期目标。

背景与挑战

背景概述

Yelp review dataset是由Yelp公司发布的一个公开数据集，主要用于研究用户对商家的评价和评分。该数据集自2013年首次发布以来，已成为推荐系统和自然语言处理领域的重要资源。数据集包含了数百万条用户对商家的评论、评分以及用户和商家的元数据信息。其核心研究问题在于如何通过用户的历史行为和评论内容，预测用户对特定商家的评分。该数据集在学术界和工业界均产生了广泛影响，推动了推荐系统、情感分析和文本挖掘等领域的研究进展。

当前挑战

Yelp review dataset在应用过程中面临多重挑战。首先，数据的高维性和稀疏性使得传统的机器学习模型难以有效捕捉用户与商家之间的复杂关系。其次，评论文本的多样性和噪声增加了特征提取的难度，尤其是在情感分析和文本分类任务中。此外，数据集的规模庞大，处理数十亿条边的大规模图结构数据对计算资源和算法效率提出了极高要求。构建过程中，研究人员还需解决如何有效融合用户、商家、城市和类别等多源异构数据，以提升模型的预测精度。这些挑战促使研究者不断探索新的特征工程方法和高效的图嵌入技术，以应对大规模数据处理和复杂关系建模的需求。

常用场景

经典使用场景

Yelp评论数据集在推荐系统领域具有广泛的应用，尤其是在用户与商家之间的评分预测方面。通过分析用户对商家的评论和评分，研究者可以构建复杂的推荐模型，预测用户对特定商家的评分。这种预测不仅有助于提升用户体验，还能为商家提供有价值的反馈，优化其服务策略。

解决学术问题

Yelp评论数据集解决了推荐系统中评分预测的难题。通过引入图嵌入技术，研究者能够捕捉用户与商家之间的复杂关系，如社交网络、评论行为等，从而提升模型的预测精度。该数据集的使用显著降低了预测误差（RMSE），为推荐系统的研究提供了新的思路和方法。

实际应用

在实际应用中，Yelp评论数据集被广泛用于商业智能和个性化推荐。例如，餐饮平台可以利用该数据集预测用户对餐厅的评分，从而向用户推荐更符合其偏好的餐厅。此外，商家可以通过分析用户的评论和评分，了解自身的优势和不足，进而优化服务和产品。

数据集最近研究