Yelp Open Dataset Challenge|用户评价数据集|数据分析数据集

github2024-02-16 更新2024-05-31 收录

用户评价

数据分析

下载链接：

https://github.com/gyhou/yelp_dataset

下载链接

链接失效反馈

资源简介：

Yelp开放数据集挑战赛，第13轮从2019年1月15日至2019年12月31日。

The Yelp Open Dataset Challenge, Round 13, ran from January 15, 2019, to December 31, 2019.

创建时间：

2019-11-09

原始信息汇总

数据集概述

数据来源

Yelp Open Dataset Challenge (https://www.yelp.com/dataset/challenge)
第13轮：2019年1月15日至2019年12月31日

数据应用

Yelp Rating Prediction API (http://br-yelp-predict-rating.herokuapp.com)
- 功能：基于特定类别的评论预测用户评分
- 输入：包含“category”和“review”的JSON字符串
- 输出：基于类别和评论的预测评分
- 示例输入： python {"category": "Auto Repair", "review": "Service is the worst and the wait time is too long."}
- 示例输出： python {Category: Auto_Repair, Review: Service is the worst and the wait time is too long., Predict rating: 1}

数据集类别

Active Life
Auto Repair
Automotive
Beauty Spas
Contractors
Doctors
Event Planning Services
Fashion
Fast Food
Hair Salons
Health Medical
Home Garden
Home Services
Local Services
Professional Services
Real Estate
Shopping

数据可视化

Scattertext Visualization
- 基于Yelp评论按类别分组的示例
- 示例图像：yelp_rv_scattertext.png

AI搜集汇总

数据集介绍

构建方式

Yelp Open Dataset Challenge数据集的构建依托于Yelp平台的实际用户数据，涵盖了2019年1月15日至12月31日期间的商业评论信息。该数据集通过公开挑战的形式收集，旨在为研究者和开发者提供丰富的商业评论数据，以支持自然语言处理、情感分析等领域的深入研究。数据集的构建过程严格遵循数据隐私保护原则，确保用户信息的匿名化处理。

特点

Yelp Open Dataset Challenge数据集的特点在于其多样性和广泛性。数据集涵盖了多个商业类别，包括汽车维修、美容水疗、医疗服务等，每个类别下均包含大量用户评论及其评分。这些评论不仅反映了用户的真实体验，还提供了丰富的文本数据，适用于情感分析、评分预测等任务。此外，数据集还提供了基于类别的评论可视化示例，便于用户直观理解数据分布。

使用方法

使用Yelp Open Dataset Challenge数据集时，用户可以通过提供的API接口进行评分预测。API接受包含类别和评论的JSON字符串作为输入，并返回预测的评分。例如，用户提交一条关于汽车维修的评论后，API将根据该类别和评论内容预测评分。此外，数据集还支持通过Pandas库将数据转换为CSV格式，便于进一步分析。用户还可以利用Scattertext工具进行评论数据的可视化，探索不同类别下的评论特征。

背景与挑战

背景概述

Yelp Open Dataset Challenge数据集由Yelp公司于2019年1月15日至12月31日期间推出，旨在通过公开其庞大的商业评论数据，推动自然语言处理、情感分析和推荐系统等领域的研究。该数据集涵盖了多个商业类别，如餐饮、汽车维修、健康医疗等，提供了丰富的用户评论和评分信息。通过这一数据集，研究人员能够深入探讨用户行为模式、情感表达以及商业服务的质量评估。Yelp Open Dataset Challenge不仅为学术界提供了宝贵的研究资源，也为企业优化服务质量和提升用户体验提供了数据支持。

当前挑战

Yelp Open Dataset Challenge在解决用户评论情感分析和评分预测问题时，面临诸多挑战。首先，用户评论的多样性和复杂性使得情感分析模型难以准确捕捉其情感倾向，尤其是在多类别场景下，不同领域的语言表达差异显著。其次，数据集中存在大量的噪声数据，如拼写错误、非正式表达和无关信息，这增加了数据清洗和预处理的难度。此外，构建评分预测模型时，如何有效整合评论内容与商业类别信息，以提升预测的准确性，也是一个亟待解决的问题。这些挑战不仅考验了研究者的数据处理能力，也对模型的泛化性能提出了更高要求。

常用场景

经典使用场景

Yelp Open Dataset Challenge数据集在学术研究和商业分析中具有广泛的应用。研究者通常利用该数据集进行情感分析、用户行为预测以及商业趋势分析。通过分析用户评论和评分，研究者能够深入理解消费者对不同类别服务的满意度和偏好，从而为商家提供改进建议。

衍生相关工作

基于Yelp Open Dataset Challenge数据集，研究者们开发了多种经典模型和工具。例如，Yelp Rating Prediction API通过机器学习模型预测用户评分，为商家提供了实时反馈。此外，Scattertext Visualization工具则通过可视化分析用户评论，帮助研究者更直观地理解数据中的模式和趋势。

数据集最近研究

最新研究方向

在商业智能和自然语言处理领域，Yelp Open Dataset Challenge数据集的最新研究方向聚焦于用户评论的情感分析与评分预测。通过结合Pandas数据转换和Scattertext可视化技术，研究者能够深入挖掘用户评论中的情感倾向与关键词分布，从而为商家提供精准的市场反馈。此外，基于Yelp数据集开发的评分预测API，利用机器学习模型对特定类别的用户评论进行评分预测，为个性化推荐系统和客户关系管理提供了有力支持。这些研究不仅推动了情感分析技术的发展，也为商业决策提供了数据驱动的洞察，具有重要的实践意义和学术价值。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

CrowdHuman

CrowdHuman是一个用于评估人群场景中检测器性能的基准数据集。该数据集规模大、注释丰富且具有高多样性，包含训练、验证和测试集，共计47万个标注的人体实例，平均每张图像有23个人，包含各种遮挡情况。每个人体实例都标注有头部边界框、可见区域边界框和全身边界框。

github 收录

LFW (Labeled Faces in the Wild)

Labeled Faces in the Wild，是一个人脸照片数据库，旨在研究无约束的人脸识别问题。该数据集包含从网络收集的超过 13,000 张人脸图像。每张脸都标有图中人物的名字。照片中的 1680 人在数据集中有两张或更多张不同的照片。这些人脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。更多细节可以在下面的技术报告中找到。

OpenDataLab 收录