Yelp Academic Dataset

github2020-05-19 更新2024-05-31 收录

下载链接：

https://github.com/mtriff/YelpDataSetChallenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含企业和评论者的信息，通过静态信息（来自数据库）和动态信息（来自评论者的聚类）来表示企业。评论者的表示则通过数据库中的静态信息和被这些评论者评论的企业的配置文件来增强。该服务允许用户根据企业的评分、评分难易程度和业务类型找到类似的企业/评论者，并提供基于这些因素的企业/评论者的简洁配置文件，以便用户可以对评论进行上下文理解。

This dataset encompasses information about businesses and reviewers, representing businesses through static data (from databases) and dynamic data (from clustering of reviewers). The representation of reviewers is enhanced by static information from the database and the profiles of businesses reviewed by these reviewers. The service enables users to find similar businesses/reviewers based on business ratings, the difficulty of rating, and business types, and provides concise profiles of businesses/reviewers based on these factors, allowing users to contextualize reviews.

创建时间：

2013-05-20

原始信息汇总

Yelp Dataset Challenge 数据集概述

数据集描述

用途：用于提交2013年Yelp数据集挑战赛的项目数据。
技术特点：采用了一种新颖的递归元概要技术，其中一组对象的概要动态地改变另一组对象的表示。
数据集内容：包含企业和评论者的数据，通过静态数据库信息和动态评论者聚类信息来表示企业，反之亦然。
应用场景：提供了一个服务，允许用户根据企业的评分、评分难易度和企业类型找到相似的企业或评论者，并提供基于这些因素的企业或评论者的简明概要。

数据处理

工具与语言：使用Python、R和shell脚本进行数据准备、数据挖掘和元聚类。
数据存储：原始数据和生成的数据存储在data文件夹中。

学术研究

学术论文：详细描述了应用的元聚类技术的学术论文可在此处找到。

前端展示

技术栈：前端网站使用HTML、JavaScript、CSS、PHP和Twitter Bootstrap 2.3构建。
数据库：使用MySQL作为后端数据库。
网站：前端网站文件位于web文件夹，网站地址为http://www.mtriff.com/yelp。

搜集汇总

数据集介绍

构建方式

Yelp Academic Dataset的构建采用了递归元分析技术，通过动态调整一组对象的表示来影响另一组对象的表示。具体而言，商家和评论者的静态信息与动态信息相结合，商家的静态信息来源于数据库，而动态信息则通过聚类评论者获得；评论者的静态信息同样来源于数据库，动态信息则通过分析其评论的商家获得。这种双向递归的元分析方法使得数据集能够提供更为丰富的上下文信息。

特点

该数据集的特点在于其独特的元聚类技术，能够同时捕捉商家和评论者的静态与动态特征。通过这种技术，数据集不仅能够反映商家的基本信息，还能通过评论者的聚类结果动态调整商家的表示，从而提供更为精准的相似商家或评论者推荐。此外，数据集还支持基于评分、评分难度以及商家类型的多维分析，为用户提供了丰富的上下文信息。

使用方法

Yelp Academic Dataset的使用方法主要依赖于Python、R和Shell脚本进行数据预处理、数据挖掘和元聚类分析。用户可以通过GitHub项目中的'src'文件夹获取相关脚本，并在'data'文件夹中找到原始数据及生成数据。此外，数据集还提供了一个前端网站，展示了元聚类技术的实际应用效果，用户可以通过访问该网站进一步了解数据集的使用场景和潜在价值。

背景与挑战

背景概述

Yelp Academic Dataset 是由Yelp公司于2013年发布的一个学术研究数据集，旨在为研究人员提供丰富的商业和用户评论数据，以支持数据挖掘和机器学习领域的研究。该数据集的核心研究问题在于如何通过动态的元聚类技术，将商业和评论者的静态信息与动态行为相结合，从而生成更为精准的商业和评论者画像。这一研究不仅推动了推荐系统和用户行为分析的发展，还为学术界提供了宝贵的数据资源，促进了相关领域的创新与进步。

当前挑战

Yelp Academic Dataset 在解决商业推荐和用户行为分析问题时，面临的主要挑战包括如何有效地整合静态和动态信息，以及如何通过元聚类技术生成具有高解释性的商业和评论者画像。在数据构建过程中，研究人员需要处理大规模的数据集，确保数据的完整性和一致性，同时还需克服数据预处理和特征提取中的技术难题。此外，如何将复杂的元聚类算法应用于实际场景，并生成易于理解的用户界面，也是该数据集构建过程中的一大挑战。

常用场景

经典使用场景

Yelp Academic Dataset 在学术研究中常被用于分析用户评论与商业行为之间的关系。通过该数据集，研究者能够深入探讨用户评分模式、评论内容的情感分析以及商业特征对用户评价的影响。这种分析不仅限于单一商业类别，而是跨越多个行业，为理解消费者行为提供了多维度的视角。

衍生相关工作

基于 Yelp Academic Dataset，许多经典的研究工作得以展开。例如，有研究利用该数据集开发了基于情感分析的商业推荐系统，还有研究探讨了用户评分与商业成功之间的关系。这些研究不仅推动了数据挖掘技术的发展，还为商业决策提供了科学依据。

数据集最近研究