Yelp Dataset

github2021-09-08 更新2024-05-31 收录

下载链接：

https://github.com/patilankita79/Analysis-of-Yelp-Dataset-Using-Hadoop-Map-reduce-programming

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个CSV文件：user.csv、business.csv和review.csv。business.csv包含本地商业的基本信息，如business_id、full_address和categories。review.csv包含用户对商业的星级评价，使用user_id和business_id关联评价。user.csv包含单个用户在Yelp上的综合信息，如user_id、name和url。

本数据集由三个 CSV 文件构成，分别为 user.csv、business.csv 和 review.csv。其中，business.csv 文件收录了本地商业的基本信息，诸如 business_id、full_address 及 categories 等内容。review.csv 文件记录了用户对商业的星级评价，通过 user_id 和 business_id 进行关联。user.csv 文件则详细记载了单个用户在 Yelp 上的综合信息，包括 user_id、name 以及 url 等。

创建时间：

2017-02-27

原始信息汇总

数据集概述

数据集组成

该数据集包含三个CSV文件，分别是：

business.csv：包含本地商业的基本信息。
review.csv：包含用户对商业的星级评价。
user.csv：包含单个用户在Yelp上的综合信息。

文件详细信息

business.csv
- 字段：
  - business_id：商业的唯一标识符。
  - full_address：本地化地址。
  - categories：本地化类别名称。
review.csv
- 字段：
  - review_id：评价的唯一标识符。
  - user_id：被评价商业的标识符。
  - business_id：撰写评价用户的标识符。
  - stars：星级评价，整数1-5。
user.csv
- 字段：
  - user_id：用户的唯一标识符。
  - name：用户名，已匿名处理。
  - url：用户在Yelp的URL。

数据集应用

数据集用于编写Hadoop Map-Reduce程序，以实现以下统计信息：

列出位于“Palo Alto”的独特商业类别。
找出使用平均评级的十大评级商业。
列出使用平均评级的十大商业的business_id、完整地址和类别。
列出评价位于Stanford的商业的用户的user_id和评级。

数据集字段分隔符

所有CSV文件的字段分隔符为::。

搜集汇总

数据集介绍

构建方式

Yelp数据集通过收集用户对本地企业的评价信息构建而成，主要包含三个CSV文件：business.csv、review.csv和user.csv。business.csv记录了企业的基本信息，如企业ID、地址和类别；review.csv存储了用户对企业的评分数据，包括用户ID、企业ID和评分；user.csv则汇总了用户在Yelp平台上的整体信息，如用户ID、匿名化名称和个人主页链接。数据以‘::’作为列分隔符，确保了数据的结构化和可解析性。

使用方法

Yelp数据集的使用方法主要依赖于Hadoop MapReduce编程框架。用户可以通过编写Java程序，利用MapReduce任务对数据集进行分布式处理。例如，通过reduce side join和job chaining技术，用户可以从review.csv和business.csv中提取出评分最高的企业信息。此外，数据集还支持内存连接技术，允许用户将数据加载到分布式缓存中，以加速查询和分析过程。具体的操作步骤包括登录HDFS、运行MapReduce任务，并通过命令行查看输出结果。

背景与挑战

背景概述

Yelp数据集是由Yelp公司发布的一个公开数据集，旨在为研究者和开发者提供丰富的商业和用户行为数据。该数据集包含三个主要文件：business.csv、review.csv和user.csv，分别记录了商业信息、用户评论和用户基本信息。自发布以来，Yelp数据集已成为推荐系统、情感分析和商业智能等领域的重要研究资源。通过该数据集，研究人员能够深入分析用户行为模式、商业评价趋势以及地理分布特征，推动了相关领域的技术进步和应用创新。

当前挑战

Yelp数据集在应用过程中面临多重挑战。首先，数据规模庞大且结构复杂，如何高效处理和分析海量数据成为一大难题。其次，数据中的噪声和不一致性可能影响分析结果的准确性，例如用户评论中的主观性和商业信息的动态变化。此外，数据隐私保护也是一个重要问题，如何在保证用户隐私的前提下进行有效的数据挖掘和分析，仍需进一步探索。最后，数据集的更新频率和时效性也对研究的持续性和可靠性提出了挑战。

常用场景

经典使用场景

Yelp数据集在学术研究中常被用于分析用户行为、商业评价以及地理信息系统的研究。通过该数据集，研究者可以深入探讨用户对本地商业的评价模式，分析不同地理区域的商业分布特征，以及用户评价对商业成功的影响。该数据集的使用场景广泛，涵盖了从数据挖掘到机器学习的多个领域。

解决学术问题

Yelp数据集解决了多个学术研究中的关键问题，尤其是在用户行为分析和商业评价领域。通过该数据集，研究者能够量化用户评价对商业成功的影响，揭示用户评价中的情感倾向，并分析不同地理区域的商业竞争格局。这些研究不仅推动了推荐系统的发展，还为商业决策提供了数据支持。

实际应用

在实际应用中，Yelp数据集被广泛用于构建推荐系统和商业智能工具。例如，基于用户评价数据，企业可以开发个性化推荐算法，提升用户体验；同时，商业分析工具可以利用该数据集进行市场趋势分析，帮助企业优化运营策略。此外，该数据集还被用于地理信息系统（GIS）中，支持城市规划和商业选址决策。

数据集最近研究