five

Yelp Dataset|消费者评论数据集|企业数据分析数据集

收藏
github2022-03-25 更新2024-05-31 收录
消费者评论
企业数据分析
下载链接:
https://github.com/2gotgrossman/yelp-dataset-challenge
下载链接
链接失效反馈
资源简介:
该数据集由Yelp提供,包含12个都市区域的470万条对15.6万家企业的评论,以及110万用户和100万条用户提示。数据集还包括每个企业的位置、平均评分、食品类别、营业时间以及顾客访问时间等信息。

This dataset, provided by Yelp, encompasses 4.7 million reviews of 156,000 businesses across 12 metropolitan areas, along with 1.1 million users and 1 million user tips. The dataset also includes information such as the location of each business, average ratings, food categories, business hours, and customer visit times.
创建时间:
2017-10-29
原始信息汇总

数据集概述

数据集来源

  • 数据由Yelp提供。

数据集内容

基本信息

  • 包含来自12个“大都会区”的数据。
  • 数据包括4.7百万条对156,000家企业的评论。
  • 涉及1.1百万用户和1百万条用户“提示”。

业务特征

  • 每家企业的位置、平均评分、食品类别信息、营业时间及顾客到访时间数据。

用户特征

  • 用户的朋友信息、用户的评论及评论数量。

数据分析目标

探索性分析

  • 探索变量间的简单相关性。
  • 分析包括但不限于:
    • 业务评分与评论数或提示数的关系。
    • 照片数量与平均评分的关系。
    • 地理位置(城市/州)与评论数的关系。
    • 业务评论数与业务签到数的关系。
    • 按城市统计的业务数量。
    • 按城市统计的评分分布。

单变量探索

  • 地理数据:按城市统计的业务数量及评分分布。
  • 时间数据:提示和评论的时间数据。
  • 签到数据。
  • 用户特征:用户加入Yelp的时间、个别用户分析。

数据存储与共享

  • 使用sqlite3数据库进行本地存储。
  • 新增特征通过json文件共享,并通过脚本加载到各自的sqlite3数据库中。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Dataset的构建基于Yelp平台提供的丰富数据资源,涵盖了12个都市区域的470万条评论,涉及15.6万家企业和110万用户。数据集不仅包括企业的基本信息如位置、平均评分、食品类别、营业时间及顾客到访记录,还涵盖了用户的社会关系、评论内容及评论数量等详细信息。通过精细的数据工程,该数据集被整合为结构化的JSON格式,并进一步转换为SQLite3数据库,以便于本地存储和高效查询。
使用方法
使用Yelp Dataset时,用户首先需要通过Yelp官方渠道获取原始数据集,并联系维护者获取经过工程处理的数据特征。数据集以SQLite3数据库形式存储,用户可以通过简单的脚本将新特征的JSON文件加载到本地数据库中。该数据集适用于探索性数据分析、用户行为研究、企业竞争分析等多种应用场景,支持Python等编程语言进行数据处理和分析。
背景与挑战
背景概述
Yelp Dataset由Mahsa Mirzargar博士领导的独立研究小组创建,成员包括Nathan Michaels、Devin Grossman和David Michaels。该数据集包含了来自12个都市区的470万条评论,涉及15.6万家企业和110万用户,以及100万条用户提示。数据集提供了丰富的商业和用户特征,如商业位置、平均评分、食品类别、营业时间、用户的朋友网络和评论历史等。这些数据为研究用户行为、商业竞争和地理分布提供了宝贵的资源,尤其在探索商业评级与用户互动之间的关系方面具有重要意义。
当前挑战
Yelp Dataset在构建和使用过程中面临多项挑战。首先,数据规模庞大,处理和存储这些数据需要高效的算法和足够的计算资源。其次,数据集的多样性和复杂性增加了数据清洗和预处理的难度,特别是如何处理缺失值和异常数据。此外,数据共享和存储也是一个难题,由于数据量过大,传统的文件共享方式如GitHub并不适用,需要探索如sqlite3数据库等更高效的存储和共享方法。最后,如何从海量数据中提取有意义的模式和洞察,尤其是在用户行为和商业竞争分析方面,是该数据集面临的主要挑战。
常用场景
经典使用场景
Yelp Dataset在商业分析和用户行为研究领域具有广泛的应用。该数据集的经典使用场景包括探索商家评分与评论数量之间的关系,分析用户社交网络对评论行为的影响,以及研究地理位置对商家评价分布的影响。通过这些分析,研究者能够深入理解消费者行为模式和市场竞争态势。
解决学术问题
Yelp Dataset为解决多个学术研究问题提供了丰富的数据支持。例如,它有助于研究用户评价的可靠性和影响力,探索商家评分与实际业务表现之间的关联,以及分析社交媒体对消费者决策的影响。这些研究不仅提升了对消费者行为的理解,还为市场营销策略的优化提供了科学依据。
实际应用
在实际应用中,Yelp Dataset被广泛用于商业智能和市场分析。企业可以利用该数据集进行竞争对手分析,优化营销策略,提升客户满意度。此外,地方政府和城市规划者也可以利用这些数据来评估商业区的活力和吸引力,从而制定更有效的城市发展策略。
数据集最近研究
最新研究方向
在社交网络与商业分析的交叉领域,Yelp数据集的最新研究方向主要集中在用户行为模式与商业表现的深度关联分析。研究者们通过探索用户评论、评分、以及社交网络中的互动,试图揭示影响商业成功的关键因素。例如,研究如何通过用户的朋友网络和评论历史来预测商业的受欢迎程度,以及如何利用地理信息和时间数据来优化商业策略。此外,数据集中的用户影响力分析也成为热点,研究者们致力于识别和量化那些对社区决策有重大影响的用户,从而为商业决策提供更为精准的参考。这些研究不仅深化了对消费者行为的理解,也为商业优化和市场策略提供了新的视角和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集