Dissecting-Yelp-Dataset

github2020-06-15 更新2024-05-31 收录

下载链接：

https://github.com/tanaymukherjee/Dissecting-Yelp-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是Yelp商业、评论和用户数据的子集，最初是为Yelp数据集挑战而创建，供学生进行研究和分析。数据集中包含四个国家11个都市区的商业信息。

This dataset is a subset of Yelp's business, review, and user data, originally created for the Yelp Dataset Challenge, intended for students to conduct research and analysis. The dataset includes business information from 11 metropolitan areas across four countries.

创建时间：

2020-04-25

原始信息汇总

数据集概述

数据集名称

Dissecting-Yelp-Dataset

数据集内容

数据类型: 包含Yelp的商业数据、评论、用户信息、贴士和签到数据。
数据范围: 涵盖11个都市区的商业信息，涉及四个国家。

数据集用途

原始目的: 为Yelp数据集挑战而准备，供学生进行研究和分析。

数据集分析概要

Part 1: 安装与初始设置

数据加载: 使用PySpark将数据加载为数据框。
数据存储: 数据存储在S3桶中。

Part 2: 分析类别

类别处理: 将类别字段分解为多个行。
类别统计: 统计唯一类别数量，按类别计数，展示前20个最常见的商业类别。

Part 3: Yelp评论是否偏向负面？

分析方法: 计算评论星级与平均星级的偏差。
结果可视化: 展示偏差分布图。

Part 4: 精英用户是否可信？

数据整合: 合并商业、用户和评论数据集。
用户分类: 区分精英用户与非精英用户。
分析结果: 比较精英用户与非精英用户的评分差异。

额外信用: 自动化数据上传至S3

自动化脚本: 使用Kaggle API下载数据并通过AWS boto3上传至S3。

搜集汇总

数据集介绍

构建方式

该数据集源自Yelp的商业、评论和用户数据，最初为Yelp数据集挑战赛而构建，旨在为学生提供研究和分析的机会。数据集涵盖了四个国家11个大都市区域的商业信息，通过提取和整理Yelp平台上的公开数据，形成了包含商家、评论、用户、小贴士和签到信息的多维度数据集。数据的获取和预处理过程涉及从Yelp平台下载原始数据，并通过PySpark进行数据加载和初步清洗，确保数据的完整性和一致性。

特点

Dissecting-Yelp-Dataset数据集的特点在于其多维度的数据结构和丰富的上下文信息。数据集不仅包含商家的基本信息，如名称、位置和评分，还涵盖了用户的详细评论、签到记录以及用户之间的互动数据。此外，数据集还提供了商家分类的详细信息，便于进行细粒度的分析和研究。其独特之处在于，数据集中包含了用户对商家的情感倾向分析，以及精英用户与非精英用户的行为对比，为研究用户行为和商业趋势提供了宝贵的数据支持。

使用方法

该数据集的使用方法主要围绕数据加载、预处理和分析展开。用户可以通过PySpark将数据加载为DataFrame格式，并利用其强大的数据处理能力进行数据清洗和转换。数据集的分析流程包括商家分类的解析、评论情感倾向的评估以及用户行为的对比研究。用户还可以通过Jupyter Notebook结合可视化工具，如Matplotlib和Seaborn，生成直观的数据图表，进一步挖掘数据背后的规律。此外，数据集支持通过AWS S3进行数据存储和管理，便于大规模数据的处理和共享。

背景与挑战

背景概述

Dissecting-Yelp-Dataset数据集源自Yelp平台，旨在为研究人员和学生提供一个丰富的数据资源，用于探索和分析商业评论、用户行为及地理位置等多维度信息。该数据集最初为Yelp Dataset Challenge而创建，涵盖了四个国家的11个大都市区域的商业数据。通过该数据集，研究人员可以深入挖掘用户评论的情感倾向、商业类别的分布以及精英用户与非精英用户的行为差异。该数据集不仅为学术界提供了宝贵的研究素材，也为商业智能和推荐系统的开发提供了数据支持。

当前挑战

Dissecting-Yelp-Dataset面临的挑战主要体现在两个方面。首先，数据集的规模庞大且结构复杂，涉及多个JSON文件的整合与分析，这对数据处理工具和计算资源提出了较高要求。其次，用户评论的情感分析存在主观性，如何准确量化评论的情感倾向并避免偏差是一个技术难点。此外，数据集中包含的地理信息和用户行为数据具有高度动态性，如何在分析中有效捕捉这些动态特征也是一个重要挑战。构建过程中，数据清洗、去重以及多源数据的融合也耗费了大量精力，尤其是在处理非结构化数据时，如何提取有效信息并保持数据的完整性成为关键问题。

常用场景

经典使用场景

在商业智能和消费者行为分析领域，Dissecting-Yelp-Dataset数据集被广泛应用于探索用户评价与商业表现之间的关系。研究者通过分析来自11个大都市区的商业数据，深入挖掘用户评价的文本内容、评分分布及其对商业决策的影响。该数据集不仅提供了丰富的商业信息，还包括用户的历史评价数据，使得研究者能够构建复杂的模型来预测商业成功的关键因素。

解决学术问题

该数据集解决了如何量化用户评价对商业影响的关键问题。通过分析大量的用户评价和商业数据，研究者能够识别出哪些因素（如服务质量、价格、位置等）最影响用户的评分和忠诚度。此外，数据集还帮助研究者理解用户评价的情感倾向，即评价是偏向正面还是负面，从而为企业提供改进服务的依据。

衍生相关工作

基于Dissecting-Yelp-Dataset数据集，研究者已经开发了多种分析工具和模型。例如，一些研究利用该数据集来训练深度学习模型，以更准确地预测用户评价的情感倾向。此外，还有研究利用该数据集来探索用户评价的文本特征，开发出能够自动生成商业改进建议的系统。这些工作不仅推动了自然语言处理技术的发展，也为商业智能领域提供了新的研究视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集