five

Yelp dataset

收藏
github2020-09-16 更新2024-05-31 收录
下载链接:
https://github.com/arushakelkar/Yelp_Dataset_RecommenderSystem
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于挑战,可以从Yelp网站下载,用于预测活跃用户的最终评分。

This dataset is designed for a prediction challenge, which is downloadable from the Yelp website, and is intended to predict the final ratings of active users.
创建时间:
2020-03-03
原始信息汇总

数据集概述

数据集名称

  • Yelp dataset

数据集来源

数据集用途

  • 用于预测活跃用户的最后一项评分,特别是对那些有5次或以上评论的用户,预测其最后一项评论的评分。

数据集相关模型

  • ALS
  • 深度学习模型(使用嵌入层)
  • Factorization Machine (LightFM)
  • 用户-物品偏差基线模型

数据集使用环境要求

  • Python 3.7.4
  • 需要安装的包:pandas, numpy, surprise, pyspark, keras, LightFM, matplotlib
  • 16 GB RAM 或使用 Google Colab
搜集汇总
数据集介绍
main_image_url
构建方式
Yelp数据集是通过Yelp平台上的用户评论和评分数据构建而成,涵盖了广泛的商业类别和地理区域。该数据集的设计旨在支持个性化推荐系统的研究,特别是针对用户行为预测的模型开发。数据集的构建过程包括从Yelp平台提取用户评论、商家信息和评分数据,并通过时间戳对用户的历史行为进行排序,以便于预测用户的最后一次评分。
特点
Yelp数据集的特点在于其丰富的用户交互数据,包括用户对商家的评分、评论内容以及时间戳信息。这些数据不仅反映了用户的偏好和消费习惯,还提供了时间维度上的动态变化,使得研究者能够深入分析用户行为的演变。此外,数据集涵盖了多样化的商业类别和地理区域,为跨领域和跨地域的研究提供了坚实的基础。
使用方法
使用Yelp数据集时,研究者可以通过加载数据集并利用Python中的数据处理库(如pandas和numpy)进行数据预处理。随后,可以使用机器学习框架(如Keras、LightFM)构建和训练模型,以预测用户的最后一次评分。数据集的丰富信息使得研究者能够尝试多种模型,如ALS、深度学习模型和因子分解机,并通过比较不同模型的性能来优化预测结果。
背景与挑战
背景概述
Yelp数据集自2013年发布以来,已成为学术界和工业界研究个性化推荐系统的重要资源。该数据集由Yelp公司提供,包含了大量用户对商家的评价、评分及评论信息。哥伦比亚大学的E4571个性化理论课程在2019年秋季学期中,由Brett Vintch教授指导,团队包括Arusha Kelkar、Tanvi Pareek和Priyanka Lahoti等成员,利用该数据集进行了深入研究。核心研究问题聚焦于预测活跃用户的最后一次评分,即对于有5条或以上评论的用户,预测其按时间顺序的最后一条评论的评分。这一研究不仅推动了推荐算法的发展,也为理解用户行为模式提供了新的视角。
当前挑战
Yelp数据集在解决个性化推荐问题时面临多重挑战。首先,用户评分行为的高度个性化使得预测模型需要具备强大的泛化能力。其次,数据集中包含的文本评论信息虽丰富,但其非结构化特性增加了特征提取的难度。在构建模型过程中,研究团队采用了ALS、深度学习嵌入层和因子分解机(LightFM)等多种方法,每种方法在处理高维稀疏数据时都面临计算效率和模型准确性的平衡问题。此外,数据预处理阶段的复杂性和计算资源的高需求也是构建高效预测模型时必须克服的障碍。
常用场景
经典使用场景
Yelp数据集在个性化推荐系统中扮演着重要角色,尤其是在用户行为分析和评分预测领域。该数据集常用于构建和测试推荐算法,通过分析用户的历史评分和评论,预测用户对未评分项目的可能评分。这种应用场景在电子商务和在线服务平台中尤为常见,帮助提升用户体验和满意度。
衍生相关工作
基于Yelp数据集,许多经典的研究工作得以展开,如使用ALS(交替最小二乘法)和LightFM(因子分解机)等算法进行评分预测。这些研究不仅验证了算法的有效性,还推动了推荐系统领域的创新。此外,深度学习模型的应用也为处理大规模数据集提供了新的思路和方法。
数据集最近研究
最新研究方向
在个性化推荐系统领域,Yelp数据集的最新研究方向聚焦于用户行为预测与个性化评分模型的优化。近期研究通过结合协同过滤、深度学习嵌入层以及因子分解机(Factorization Machine)等先进算法,旨在提升对用户最后评分预测的准确性。这些研究不仅推动了推荐系统在商业应用中的精准度,还为理解用户偏好和消费行为提供了新的视角。特别是在处理大规模用户评论数据时,如何有效利用深度学习模型捕捉用户与项目之间的复杂关系,成为当前研究的热点。这些进展对提升用户体验和商业决策具有重要的现实意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作