Yelp Open Dataset

github2024-04-04 更新2024-05-31 收录

下载链接：

https://github.com/crredding/YelpDataset

下载链接

链接失效反馈

官方服务：

资源简介：

Yelp开放数据集包含约700万条来自约15万家美国特定大都市地区企业的用户评论。数据集由五个不同的JSON文件组成，涵盖了评论和商业数据的各个方面，如商业信息、用户评论、用户信息、签到记录和照片数据。

The Yelp Open Dataset comprises approximately 7 million user reviews from about 150,000 businesses in specific metropolitan areas across the United States. The dataset is structured into five distinct JSON files, encompassing various aspects of reviews and business data, including business information, user reviews, user profiles, check-in records, and photo data.

创建时间：

2024-03-29

原始信息汇总

Yelp DataSet 概述

数据集内容

数据来源：Yelp Open Dataset，直接由Yelp提供。
数据规模：覆盖约700万条评论，涉及约150,000家位于美国特定大都市区的企业。
数据文件：包含五个JSON文件，分别是：
- business.json：包含企业数据，如位置、属性和类别。
- review.json：包含完整的评论文本数据，包括撰写评论的用户ID和评论针对的企业ID。
- user.json：包含用户数据，包括用户的朋友映射和所有与用户相关的元数据。
- checkin.json：记录企业的签到情况。
- tip.json：包含用户对企业撰写的提示，通常比评论短，传达快速建议。
- photo.json：包含照片数据，包括标题和分类（如食物、饮料、菜单、内部或外部）。

数据集应用

主要用途：用于创建两个系统：
- 分类器：用于判断用户评论是否属于餐厅。
- 推荐器：为用户推荐与他们过去评分高的餐厅相似的餐厅。

数据准备

数据处理步骤：
- 将JSON文件转换为CSV格式。
- 筛选仅包含宾夕法尼亚州大都市区的企业数据。
- 处理Unicode字符和字符串清洗。
- 移除重复项和NaN值。
- 使用“类别”特征标记包含“餐厅”的企业。

数据集限制

数据筛选：项目中使用的数据集被限制在约34,000家企业，约160万条评论，主要关注免费文本字段进行分析。

搜集汇总

数据集介绍

构建方式

Yelp Open Dataset的构建基于Yelp平台上的用户评论数据，涵盖了约700万条评论和15万家企业在特定美国大都市区的信息。数据集由五个独立的JSON文件组成，分别包含业务信息、评论文本、用户数据、签到记录和提示信息。数据集的构建过程中，首先通过Yelp官方提供的API获取原始数据，随后利用Python脚本进行数据清洗和预处理，包括去除重复项、处理Unicode字符、标准化文本格式等。此外，为了便于后续的探索性数据分析（EDA），数据被转换为TSV格式，并进一步筛选出仅包含宾夕法尼亚州（PA）地区的数据，以确保数据集的规模和质量适合于分类器和推荐系统的开发。

特点

Yelp Open Dataset的一个显著特点是其数据的多样性和丰富性。数据集不仅包含了详细的业务信息和用户评论，还提供了用户社交网络、签到记录和照片等多维度数据，这些信息为构建复杂的机器学习模型提供了坚实的基础。此外，数据集的规模庞大，覆盖了多个美国大都市区，使得研究者能够进行广泛的地理和人口统计分析。数据集的另一个特点是其结构化程度高，每个JSON文件都有明确的键值对结构，便于数据提取和处理。

使用方法

使用Yelp Open Dataset时，首先需要从Yelp官方网站下载数据集，并根据需要选择合适的子集进行分析。数据集的JSON格式可以通过Python脚本转换为更易于处理的CSV或TSV格式。在进行数据分析之前，建议对数据进行初步的清洗和预处理，以去除噪声和冗余信息。数据集特别适用于自然语言处理（NLP）任务，如情感分析、文本分类和推荐系统开发。此外，数据集还可用于地理信息系统（GIS）分析，以研究不同地区的商业活动和用户行为模式。

背景与挑战

背景概述

Yelp Open Dataset是由Yelp公司发布的一个开放数据集，旨在为学术界和业界提供一个丰富的用户评论数据资源。该数据集包含了约700万条来自约15万家企业的用户评论，涵盖了美国多个大都市区域。数据集的创建旨在支持探索性研究，特别是针对餐饮业的分类和推荐系统。主要研究人员和机构包括Yelp公司及其合作者，核心研究问题集中在如何利用用户评论数据构建高效的分类器和推荐系统，以提升用户体验和业务效率。该数据集的发布对自然语言处理、机器学习和推荐系统等领域产生了深远影响，为研究人员提供了宝贵的实验数据。

当前挑战

Yelp Open Dataset在构建和应用过程中面临多项挑战。首先，数据集的规模庞大，处理和存储这些数据需要高效的计算资源和存储解决方案。其次，数据的质量和一致性问题，如重复数据、缺失值和非标准化的文本格式，增加了数据预处理的复杂性。此外，如何从海量的用户评论中提取有用的信息，以构建准确的分类器和推荐系统，也是一个重要的挑战。最后，数据集的地理限制和行业偏差，如仅涵盖特定大都市区域和餐饮业，限制了其在更广泛应用场景中的适用性。

常用场景

经典使用场景

Yelp Open Dataset的经典使用场景主要集中在餐饮行业的分类与推荐系统构建。通过分析用户评论数据，该数据集支持开发一个分类器，用于区分评论是否属于餐厅类别，从而提升搜索和分类的准确性。此外，基于用户历史评分，推荐系统能够为用户提供个性化的餐厅推荐，增强用户体验和满意度。

实际应用

在实际应用中，Yelp Open Dataset被广泛用于开发和优化餐饮行业的推荐系统和分类器。例如，餐饮平台可以利用该数据集构建精准的餐厅分类系统，帮助用户快速找到符合其需求的餐厅。同时，基于用户历史评分和评论的推荐系统能够提供个性化的餐饮推荐，提升用户满意度和平台的用户粘性。

衍生相关工作

Yelp Open Dataset的发布催生了大量相关研究和工作。例如，许多研究者利用该数据集进行自然语言处理技术的研究，探索如何更有效地从用户评论中提取情感和意图。此外，基于该数据集的推荐系统研究也取得了显著进展，推动了个性化推荐技术在餐饮行业的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集