Yelp Open Dataset Challenge

github2024-02-16 更新2024-05-31 收录

下载链接：

https://github.com/gyhou/yelp_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Yelp开放数据集挑战赛，第13轮从2019年1月15日至2019年12月31日。

The Yelp Open Dataset Challenge, Round 13, ran from January 15, 2019, to December 31, 2019.

创建时间：

2019-11-09

原始信息汇总

数据集概述

数据来源

Yelp Open Dataset Challenge (https://www.yelp.com/dataset/challenge)
第13轮：2019年1月15日至2019年12月31日

数据应用

Yelp Rating Prediction API (http://br-yelp-predict-rating.herokuapp.com)
- 功能：基于特定类别的评论预测用户评分
- 输入：包含“category”和“review”的JSON字符串
- 输出：基于类别和评论的预测评分
- 示例输入： python {"category": "Auto Repair", "review": "Service is the worst and the wait time is too long."}
- 示例输出： python {Category: Auto_Repair, Review: Service is the worst and the wait time is too long., Predict rating: 1}

数据集类别

Active Life
Auto Repair
Automotive
Beauty Spas
Contractors
Doctors
Event Planning Services
Fashion
Fast Food
Hair Salons
Health Medical
Home Garden
Home Services
Local Services
Professional Services
Real Estate
Shopping

数据可视化

Scattertext Visualization
- 基于Yelp评论按类别分组的示例
- 示例图像：yelp_rv_scattertext.png

搜集汇总

数据集介绍

构建方式

Yelp Open Dataset Challenge数据集的构建依托于Yelp平台的实际用户数据，涵盖了2019年1月15日至12月31日期间的商业评论信息。该数据集通过公开挑战的形式收集，旨在为研究者和开发者提供丰富的商业评论数据，以支持自然语言处理、情感分析等领域的深入研究。数据集的构建过程严格遵循数据隐私保护原则，确保用户信息的匿名化处理。

特点

Yelp Open Dataset Challenge数据集的特点在于其多样性和广泛性。数据集涵盖了多个商业类别，包括汽车维修、美容水疗、医疗服务等，每个类别下均包含大量用户评论及其评分。这些评论不仅反映了用户的真实体验，还提供了丰富的文本数据，适用于情感分析、评分预测等任务。此外，数据集还提供了基于类别的评论可视化示例，便于用户直观理解数据分布。

使用方法

使用Yelp Open Dataset Challenge数据集时，用户可以通过提供的API接口进行评分预测。API接受包含类别和评论的JSON字符串作为输入，并返回预测的评分。例如，用户提交一条关于汽车维修的评论后，API将根据该类别和评论内容预测评分。此外，数据集还支持通过Pandas库将数据转换为CSV格式，便于进一步分析。用户还可以利用Scattertext工具进行评论数据的可视化，探索不同类别下的评论特征。

背景与挑战

背景概述

Yelp Open Dataset Challenge数据集由Yelp公司于2019年1月15日至12月31日期间推出，旨在通过公开其庞大的商业评论数据，推动自然语言处理、情感分析和推荐系统等领域的研究。该数据集涵盖了多个商业类别，如餐饮、汽车维修、健康医疗等，提供了丰富的用户评论和评分信息。通过这一数据集，研究人员能够深入探讨用户行为模式、情感表达以及商业服务的质量评估。Yelp Open Dataset Challenge不仅为学术界提供了宝贵的研究资源，也为企业优化服务质量和提升用户体验提供了数据支持。

当前挑战

Yelp Open Dataset Challenge在解决用户评论情感分析和评分预测问题时，面临诸多挑战。首先，用户评论的多样性和复杂性使得情感分析模型难以准确捕捉其情感倾向，尤其是在多类别场景下，不同领域的语言表达差异显著。其次，数据集中存在大量的噪声数据，如拼写错误、非正式表达和无关信息，这增加了数据清洗和预处理的难度。此外，构建评分预测模型时，如何有效整合评论内容与商业类别信息，以提升预测的准确性，也是一个亟待解决的问题。这些挑战不仅考验了研究者的数据处理能力，也对模型的泛化性能提出了更高要求。

常用场景

经典使用场景

Yelp Open Dataset Challenge数据集在学术研究和商业分析中具有广泛的应用。研究者通常利用该数据集进行情感分析、用户行为预测以及商业趋势分析。通过分析用户评论和评分，研究者能够深入理解消费者对不同类别服务的满意度和偏好，从而为商家提供改进建议。

衍生相关工作

基于Yelp Open Dataset Challenge数据集，研究者们开发了多种经典模型和工具。例如，Yelp Rating Prediction API通过机器学习模型预测用户评分，为商家提供了实时反馈。此外，Scattertext Visualization工具则通过可视化分析用户评论，帮助研究者更直观地理解数据中的模式和趋势。

数据集最近研究