five

Yelp Dataset|商业分析数据集|用户行为分析数据集

收藏
github2020-09-03 更新2024-05-31 收录
商业分析
用户行为分析
下载链接:
https://github.com/intellectape/Yelp-Dataset-Challenge
下载链接
链接失效反馈
资源简介:
该数据集包含多个JSON文件,分别记录了商业信息、用户评论、用户信息和提示信息。商业数据集包括商业ID、名称、星级评分、评论数量等;评论数据集包括评论ID、用户ID、商业ID、星级评分等;用户数据集包括用户ID、姓名、评论数量等;提示数据集包括提示文本、点赞数、商业ID等。

This dataset comprises multiple JSON files, each documenting business information, user reviews, user details, and tip information. The business dataset includes fields such as business ID, name, star rating, and review count. The review dataset contains review ID, user ID, business ID, and star rating. The user dataset features user ID, name, and review count. The tip dataset consists of tip text, like count, and business ID.
创建时间:
2017-03-23
原始信息汇总

数据集概述

数据集名称

  • Yelp-Dataset-Challenge

数据集目的

  • 基于用户评论,为新用户推荐餐厅的食品项目。

数据集组成

  1. yelp_academic_dataset_business.json

    • 字段:
      • business_id: 加密的商家ID
      • name: 商家名称
      • stars: 星级评分,四舍五入至半星
      • review_count: 评论数量
      • is_open: 0/1 (关闭/开放)
      • attributes: 属性数组,每个元素为字符串
      • categories: 类别数组,每个元素为字符串
      • type: "business"
  2. yelp_academic_dataset_review.json

    • 字段:
      • review_id: 加密的评论ID
      • user_id: 加密的用户ID
      • business_id: 加密的商家ID
      • stars: 星级评分,四舍五入至半星
      • text: 评论文本
      • useful: 有用投票数
      • funny: 有趣投票数
      • cool: 酷炫评论投票数
      • type: "review"
  3. yelp_academic_dataset_user.json

    • 字段:
      • user_id: 加密的用户ID
      • name: 名字
      • review_count: 评论数量
      • average_stars: 平均星级评分
      • type: "user"
  4. yelp_academic_dataset_tip.json

    • 字段:
      • text: 提示文本
      • date: 日期格式如 "2009-12-19"
      • likes: 点赞数
      • business_id: 加密的商家ID
      • user_id: 加密的用户ID
      • type: "tip"

重要属性

  • Business Dataset: Business ID, Review Count, Open or Close, Stars, Name
  • Review Dataset: User ID, Review ID, Business ID, useful, cool
  • User Dataset: User ID, Elite, yelping_since, name, review_count, friends, fan, useful, cool
  • Tip Dataset: Text, likes, business id, user_id, type
AI搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Dataset的构建基于Yelp Dataset Challenge,旨在通过用户评论数据解决商业智能领域的具体问题。该数据集以JSON格式存储,包含四个主要文件:yelp_academic_dataset_business.json、yelp_academic_dataset_review.json、yelp_academic_dataset_user.json和yelp_academic_dataset_tip.json。每个文件详细记录了商家、用户、评论和提示的相关信息,如商家ID、评论数量、星级评分、用户ID、评论文本等。通过这些数据,研究者可以深入分析用户行为和商家表现,从而为新用户推荐合适的餐饮项目。
特点
Yelp Dataset的特点在于其丰富的数据维度和详细的记录方式。数据集不仅涵盖了商家的基本信息,如名称、星级和评论数量,还包含了用户的详细资料,如平均星级和评论历史。此外,评论数据中的有用、有趣和酷的投票信息,以及提示中的点赞数,都为研究者提供了多角度的分析视角。这些特点使得该数据集在商业智能和用户行为分析领域具有广泛的应用潜力。
使用方法
使用Yelp Dataset时,研究者可以通过解析JSON文件获取所需数据,并结合具体研究问题进行分析。例如,可以利用商家和评论数据,通过自然语言处理技术分析用户评论,提取关键信息以推荐餐饮项目。同时,用户数据可以用于构建用户画像,进一步优化推荐系统。此外,提示数据中的文本和点赞信息也可用于情感分析和用户偏好研究。通过这些方法,研究者能够深入挖掘数据背后的商业价值和用户行为模式。
背景与挑战
背景概述
Yelp Dataset是由Yelp公司发起的学术数据集挑战项目,旨在通过用户评论数据解决商业智能领域的实际问题。该数据集的核心研究问题是如何基于用户评论为新用户推荐餐厅的特定食品。Yelp Dataset包含了多个JSON格式的文件,如yelp_academic_dataset_business.json、yelp_academic_dataset_review.json等,涵盖了商家信息、用户评论、用户信息及小贴士等内容。这些数据不仅为研究者提供了丰富的分析素材,还推动了自然语言处理、推荐系统等领域的研究进展。通过分析这些数据,研究者可以深入探讨用户行为、商家表现及市场趋势,从而为商业决策提供有力支持。
当前挑战
Yelp Dataset在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,包含了数百万条评论和用户信息,如何高效地处理和分析这些数据是一个技术难题。其次,用户评论的多样性和复杂性使得文本分析变得尤为困难,尤其是情感分析和主题提取方面。此外,数据集中涉及的隐私问题,如用户ID和商家ID的加密处理,增加了数据处理的复杂性。最后,如何从海量评论中提取有价值的信息,并据此为新用户提供精准的食品推荐,是该数据集在实际应用中的核心挑战。
常用场景
经典使用场景
Yelp Dataset的经典使用场景之一是基于用户评论的食品推荐系统。通过分析yelp_academic_dataset_review.json中的用户评论文本和评分,结合yelp_academic_dataset_business.json中的商家信息,可以构建模型来预测和推荐特定餐厅中最受欢迎的食品项目。这种方法不仅提升了用户体验,还为商家提供了有价值的反馈,帮助其优化菜单和服务。
衍生相关工作
Yelp Dataset的发布催生了许多相关研究工作,特别是在用户行为分析和推荐系统领域。例如,研究者利用该数据集开发了基于评论的情感分析模型,用于预测用户对特定食品的喜好。此外,还有研究探讨了如何利用社交网络信息来增强推荐系统的准确性,以及如何通过多源数据融合提升商家评级的可靠性。
数据集最近研究
最新研究方向
在餐饮与消费者行为分析领域,Yelp Dataset凭借其丰富的用户评论和商家信息,成为研究个性化推荐系统的热点。最新研究方向聚焦于利用深度学习技术,从海量评论文本中提取用户偏好,进而为新用户提供精准的餐饮推荐。此外,该数据集还被广泛应用于情感分析、用户行为预测及商家运营优化等前沿课题,为智能商业决策提供了有力支持。这些研究不仅推动了推荐算法的发展,也为提升用户体验和商家服务质量开辟了新的路径。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集