Johnnyeee/Yelpdata_663

Name: Johnnyeee/Yelpdata_663
Creator: Johnnyeee
Published: 2024-03-14 06:44:28
License: 暂无描述

Hugging Face2024-03-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Johnnyeee/Yelpdata_663

下载链接

链接失效反馈

官方服务：

资源简介：

Yelp Restaurant数据集主要包含Yelp平台上的用户评论、商家评分和运营细节，特别聚焦于餐厅类别。数据集经过处理，分为训练集和测试集，适用于情感分析、评分预测、商业分析和推荐系统等任务。数据集包含多个JSON文件，分别记录了商家信息、用户签到、用户评论、用户提示和用户数据。处理后的数据集包含商家的地理位置、评分、评论数量、运营时间、用户评论的文本内容和评分等信息。

The Yelp Restaurant Dataset primarily contains user reviews, business ratings and operational details from the Yelp platform, with a specific focus on the restaurant category. The dataset has been processed and split into training and test sets, which is applicable for tasks including sentiment analysis, rating prediction, business analytics and recommendation systems. The dataset includes multiple JSON files that respectively record business information, user check-ins, user reviews, user tips and user data. The processed dataset contains information such as the business' geographic location, rating, review count, operating hours, textual content of user reviews and user ratings.

提供机构：

Johnnyeee

原始信息汇总

数据集卡片 for Yelp 餐厅数据集

数据集描述

原始数据集概述

Yelp 原始数据包含来自 Yelp 平台的丰富信息，详细记录了用户评论、商家评分和运营细节等。具体包括以下五个不同的 JSON 数据集：

yelp_academic_dataset_business.json (118.9MB)：包含商家信息，如名称、地址、城市、州、邮政编码、纬度和经度、星级（平均评分）、评论数量、类别（如餐厅、购物等）和其他属性。
yelp_academic_dataset_checkin.json (287MB)：提供用户在商家处签到的数据，包括商家 ID 和一系列时间戳，显示用户在不同时间和日期的签到情况。
yelp_academic_dataset_review.json (5.34GB)：包含用户对商家的评论，每条评论包括用户 ID、商家 ID、星级（1 到 5）、有用/有趣/酷的投票、评论文本和发布日期。
yelp_academic_dataset_tip.json (180.6MB)：包含用户对商家的提示，通常包含建议、赞扬或对未来顾客的建议。
yelp_academic_dataset_user.json (3.36GB)：包含 Yelp 用户的数据，包括用户 ID、姓名、评论数量、加入 Yelp 的日期、朋友（Yelp 上的朋友列表）、有用/有趣/酷的投票数量、粉丝（标记他们为“粉丝”的用户数量）和平均星级。

语言

Yelp 数据集主要由英语文本组成，包括评论、商家信息和用户互动。

数据集处理

在本项目中，我们将仅使用 yelp_academic_dataset_business.json 和 yelp_academic_dataset_review.json，并专注于餐厅数据。处理步骤如下：

将 yelp_academic_dataset_business.json 和 yelp_academic_dataset_review.json 加载为 pandas DataFrame。
根据 business_id 进行内连接，并过滤掉非餐厅的商家（过滤掉 categories 不包含 "restaurants" 的行）。
将 Yelp 餐厅数据集随机打乱并按 80/20 分割为训练集和测试集。
最终得到 Yelp 餐厅训练数据集和测试数据集。

餐厅数据集

餐厅数据集概述

yelptrain_data.parquet：包含商家详细信息，如位置、评分和顾客评论。包括 3,778,658 行，大小为 2.26 GB。
yelptest_data.parquet：包含与 yelptrain_data.parquet 相同的信息，包括 943,408 行，大小为 591 MB。

预期任务

情感分析：通过检查文本评论，使用自然语言处理来衡量顾客对商家的情感，将意见分类为正面、负面或中性。
评分预测：机器学习模型可以利用用户和商家属性来预测商家可能收到的评分，帮助理解影响顾客满意度的因素。
商业分析：分析商业绩效指标，如平均评分、评论数量和运营状态，可以为商家提供市场地位和顾客感知的洞察。
推荐系统：数据可以输入推荐算法，根据用户偏好、以往评分和类似用户行为向用户推荐商家。

餐厅数据集结构

变量

business_id: 商家在数据集中的唯一标识符。（非空，对象）
name: 商家的名称。（非空，对象）
address: 商家的街道地址。（非空，对象）
city: 商家所在城市。（非空，对象）
state: 商家所在州或地区。（非空，对象）
postal_code: 与商家位置相关的邮政编码。（非空，对象）
latitude: 商家地理位置的纬度坐标。（非空，float64）
longitude: 商家地理位置的经度坐标。（非空，float64）
stars_x: 商家的平均星级评分。（非空，float64）
review_count: 商家收到的评论数量。（非空，int64）
is_open: 表示商家是否开放的二进制变量（1 表示开放，0 表示关闭）。（非空，int64）
attributes: 关于商家的属性集合，如“接受信用卡”、“停车”、“Wi-Fi”等。（包含缺失值，对象）
categories: 商家所属的类别，如“餐厅”、“食品”、“咖啡”等。（非空，对象）
hours: 商家的营业时间。（包含缺失值，对象）
review_id: 每条评论的唯一标识符。（非空，对象）
user_id: 留下评论的用户的唯一标识符。（非空，对象）
stars_y: 用户在其评论中给出的星级评分。（非空，float64）
useful: 认为评论有用的用户数量。（非空，int64）
funny: 认为评论有趣的用户数量。（非空，int64）
cool: 认为评论酷的用户数量。（非空，int64）
text: 评论的文本内容。（非空，对象）
date: 评论发布的日期。（非空，对象）

变量实例

{business_id: XQfwVwDr-v0ZS3_CbbE5Xw, name: Turning Point of North Wales, address: 1460 Bethlehem Pike, city: North Wales, state: PA, postal_code: 19454, latitude: 40.21019744873047, longitude: -75.22364044189453, stars_x: 3.0, review_count: 169.0, is_open: 1.0, categories: Restaurants, Breakfast & Brunch, Food, Juice Bars & Smoothies, American (New), Coffee & Tea, Sandwiches, hours: {"Monday": "7:30-15:0", "Tuesday": "7:30-15:0", "Wednesday": "7:30-15:0", "Thursday": "7:30-15:0", "Friday": "7:30-15:0", "Saturday": "7:30-15:0", "Sunday": "7:30-15:0"}, review_id: KU_O5udG6zpxOg-VcAEodg, user_id: mh_-eMZ6K5RLWhZyISBhwA, stars_y: 3.0, useful: 0.0, funny: 0.0, cool: 0.0, text: "If you decide to eat here, just be aware it is going to take about 2 hours from beginning to end. We have tried it multiple times, because I want to like it! I have been to its other locations in NJ and never had a bad experience.

The food is good, but it takes a very long time to come out. The waitstaff is very young, but usually pleasant. We have just had too many experiences where we spent way too long waiting. We usually opt for another diner or restaurant on the weekends, in order to be done quicker.", date: 2018-07-07 22:09:11, attributes: {"NoiseLevel": "uaverage", "HasTV": "False", "RestaurantsAttire": "casual", "BikeParking": "False", "Ambience": "{ ouristy: False, hipster: False, omantic: False, divey: False, intimate: False, rendy: False, upscale: False, classy: False, casual: True}", "WiFi": "free", "DogsAllowed": "False", "Alcohol": " one", "BusinessAcceptsCreditCards": "True", "RestaurantsGoodForGroups": "True", "RestaurantsPriceRange2": "2", "RestaurantsReservations": "False", "WheelchairAccessible": "True", "BusinessAcceptsBitcoin": "False", "RestaurantsTableService": "True", "GoodForKids": "True", "Caters": "False", "HappyHour": "False", "RestaurantsDelivery": "True", "GoodForMeal": "{dessert: False, latenight: False, lunch: True, dinner: False, runch: True, reakfast: True}", "OutdoorSeating": "True", "RestaurantsTakeOut": "True", "BusinessParking": "{garage: False, street: False, validated: False, lot: True, valet: False}"}}

使用

该数据集与 Hugging Face 的 datasets 库兼容。数据集类 YelpDataset 提供了有效访问结构化数据的方法，包括详细的商家信息、用户评论和用户档案。

入门指南

要在 Python 中开始使用 Yelp 数据集，请确保已安装 Hugging Face 的 datasets 库。然后，您可以使用提供的 YelpDataset 类加载数据集。示例如下：

from datasets import load_dataset

dataset = load_dataset("Johnnyeee/Yelpdata_663", trust_remote_code=True)

这将为您提供数据集结构和内容的快速概览，准备好进行分析或模型训练任务。

您还可以通过以下方式生成训练数据集示例：

next(iter((dataset[train])))

测试数据集示例：

next(iter((dataset[test])))

搜集汇总

数据集介绍

构建方式

该数据集的构建基于Yelp平台上的原始数据，主要使用了`yelp_academic_dataset_business.json`和`yelp_academic_dataset_review.json`两个文件。首先，通过将这两个文件加载为Pandas DataFrame，并基于`business_id`进行内连接，筛选出类别中包含'restaurants'的记录，从而专注于餐饮业务。随后，数据集被随机打乱并按80/20的比例分割为训练集和测试集，分别存储为`yelptrain_data.parquet`和`yelptest_data.parquet`。这一过程确保了数据集的结构化和针对性，便于后续的分析和模型训练。

特点

该数据集具有多方面的特点。首先，它包含了丰富的餐饮业务信息，如地理位置、营业时间、服务属性等，为深入分析提供了基础。其次，用户评论数据不仅包含文本内容，还附带了评分、有用性、幽默度和酷炫度等指标，为情感分析和评分预测提供了多维度的输入。此外，数据集的结构化设计使其易于与Hugging Face的`datasets`库兼容，便于快速加载和处理。

使用方法

使用该数据集时，首先需确保安装了Hugging Face的`datasets`库。通过调用`load_dataset`函数，可以轻松加载训练集和测试集。数据集的结构化设计使得用户可以方便地访问业务信息、用户评论和用户档案等特征。例如，可以通过`next(iter(dataset['train']))`获取训练集的示例数据。此外，数据集还提供了详细的Colab链接，便于用户进行数据处理和进一步分析。

背景与挑战

背景概述

Yelpdata_663数据集是由Yelp平台提供的学术数据集，主要包含用户评论、商家评分及运营细节等信息。该数据集的核心研究问题集中在用户对商家的评价及其对商家运营的影响。通过分析这些数据，研究者可以深入探讨消费者行为、商家表现及市场趋势。Yelpdata_663数据集的创建旨在为学术界提供一个丰富的资源，以支持自然语言处理、社交网络分析、推荐系统及地理信息系统等领域的研究。该数据集的公开使用，不仅降低了研究人员获取大规模真实数据的门槛，也为理解当代经济和社会的各个方面提供了宝贵的见解。

当前挑战

Yelpdata_663数据集在构建和应用过程中面临多项挑战。首先，数据集存在地理偏见，Yelp在不同地区的普及程度不一，可能导致分析结果无法全面反映某些地区的餐饮偏好或趋势。其次，用户群体的偏见也是一个问题，Yelp用户可能不代表更广泛的人口，这可能影响对餐厅质量或受欢迎程度的感知。此外，选择偏见也是一个挑战，数据集仅关注餐厅和前200,000行数据，可能忽略了提供更全面理解消费者偏好或业务表现的相关数据。最后，数据隐私和伦理问题也是使用该数据集时需要考虑的重要因素。

常用场景

经典使用场景

在餐饮行业中，Yelp数据集的典型应用场景主要集中在情感分析、评分预测和推荐系统构建。通过分析用户评论的文本内容，研究人员可以利用自然语言处理技术来识别和分类用户的情感倾向，从而评估餐厅的服务质量和顾客满意度。此外，基于用户和餐厅属性的机器学习模型可以预测餐厅可能获得的评分，帮助餐厅了解影响顾客满意度的关键因素。推荐系统则可以利用用户的历史评分和行为数据，为用户推荐符合其偏好的餐厅，提升用户体验。

实际应用

在实际应用中，Yelp数据集被广泛用于餐厅管理和市场营销。餐厅经营者可以通过分析用户评论和评分，了解顾客对餐厅服务、菜品质量等方面的反馈，从而进行针对性的改进。市场营销人员则可以利用数据集中的用户行为数据，制定更精准的营销策略，吸引目标客户群体。此外，推荐系统在餐饮行业的应用也日益广泛，通过分析用户的历史行为和偏好，为用户推荐个性化的餐厅选择，提升用户的消费体验。

衍生相关工作

Yelp数据集的广泛应用催生了许多相关研究和工作。在自然语言处理领域，研究人员利用该数据集进行情感分析和文本分类，开发了多种高效的情感识别模型。在机器学习领域，基于该数据集的评分预测模型和推荐系统算法得到了广泛研究和应用。此外，社交网络分析和地理信息系统领域的学者们也利用该数据集进行用户行为分析和地理分布研究，揭示了消费者行为和商业趋势的复杂关系。这些衍生工作不仅丰富了数据集的应用场景，还推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集