Yelp Academic Dataset

github2020-05-19 更新2024-05-31 收录

下载链接：

https://github.com/sleye/YelpDataSetChallenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含企业和评论者的信息，通过静态信息和动态信息（如评论者对企业的评价）进行双重表示，以帮助用户找到相似的企业或评论者，并提供基于评价等级和业务类型的简洁概况。

This dataset encompasses information about businesses and reviewers, employing a dual representation through static data and dynamic data (such as reviewers' evaluations of businesses). It aids users in identifying similar businesses or reviewers and offers a concise profile based on evaluation ratings and business types.

创建时间：

2013-05-20

原始信息汇总

数据集概述

数据集名称

YelpDataSetChallenge

数据集用途

用于提交Yelp数据集挑战（2013年）的项目数据。

数据处理技术

采用了一种新颖的递归元概要技术，其中一组对象的概要动态地改变另一组对象的表示。通过间接递归，两种概要方案并行演化，影响彼此。

数据集内容

业务表示：包括从数据库获取的静态信息和通过对其评论者进行聚类获得的动态信息。
评论者表示：结合了从数据库获取的静态信息和被这些评论者评论的业务的概要。

数据集应用

提供了一个服务，用户可以根据业务评分、评分难度和业务类型找到相似的业务/评论者。同时，提供基于这些因素的业务/评论者的简洁概要，帮助用户将评论置于上下文中。

数据处理工具

数据准备、数据挖掘和元聚类：使用Python、R和shell脚本完成。
前端网站：使用HTML、JavaScript、CSS、PHP，以及Twitter Bootstrap 2.3和MySQL数据库后端。

数据存储位置

源代码：位于src文件夹。
数据：包括原始和生成的数据，位于data文件夹。
前端文件：位于web文件夹。

相关资源

教程视频：展示如何创建此表示，并演示数据挖掘的有用性，可访问此链接。
学术论文：描述应用的元聚类技术，可访问此链接。
前端网站：展示元聚类的有用性，可访问此链接。

搜集汇总

数据集介绍

构建方式

Yelp Academic Dataset的构建采用了递归元分析技术，通过动态调整一组对象的表示来影响另一组对象的表示。具体而言，数据集中的商家和评论者通过静态数据库信息与动态聚类信息相结合的方式进行表示。商家的表示不仅包含其静态信息，还融入了评论该商家的评论者的聚类结果；评论者的表示则通过其评论的商家信息进行增强。这种双向递归的表示方法使得数据集能够提供更为丰富的上下文信息。

使用方法

Yelp Academic Dataset的使用方法主要围绕其元聚类技术展开。用户可以通过Python、R和Shell脚本进行数据预处理、数据挖掘和元聚类分析。数据集的前端展示网站采用HTML、JavaScript、CSS和PHP编写，结合MySQL数据库后端，为用户提供了一个直观的交互界面。用户可以通过该网站探索商家和评论者的相似性，并基于评分和商家类型进行深入分析。

背景与挑战

背景概述

Yelp Academic Dataset 是由Yelp公司于2013年发布的一个学术数据集，旨在为研究社区提供一个丰富的资源，用于探索商业评论和用户行为之间的关系。该数据集包含了大量的商业信息和用户评论，涵盖了多个行业和地理位置。主要研究人员通过递归元分析技术，动态地改变一组对象的表示方式，从而实现对商业和评论者的深度分析。这一数据集不仅推动了推荐系统和用户行为分析领域的研究，还为商业智能和个性化服务提供了重要的数据支持。

当前挑战

Yelp Academic Dataset 面临的挑战主要集中在两个方面。首先，数据集的构建过程中，如何有效地整合静态和动态信息是一个关键问题。研究人员需要设计复杂的算法来处理和聚类大量的评论数据，以生成有意义的商业和用户画像。其次，该数据集在解决领域问题时，如何准确捕捉用户偏好和商业特征，以及如何将这些信息应用于推荐系统中，仍然是一个具有挑战性的任务。此外，数据预处理和元聚类的复杂性也对计算资源提出了较高的要求。

常用场景

经典使用场景

Yelp Academic Dataset 在学术研究中常被用于探索商业和消费者行为之间的复杂关系。通过分析数据集中的商业信息和消费者评论，研究人员能够深入理解消费者偏好、商业表现以及市场动态。这种数据集特别适合于进行文本挖掘、情感分析和推荐系统的研究。

解决学术问题

该数据集解决了如何从大规模用户生成内容中提取有价值信息的学术问题。通过递归元分析技术，数据集不仅提供了商业和评论者的静态信息，还通过动态聚类增强了这些信息的深度和广度。这种方法使得研究者能够更准确地模拟和预测市场趋势和消费者行为。

实际应用

在实际应用中，Yelp Academic Dataset 被广泛用于开发个性化推荐系统，帮助用户发现与其偏好相匹配的商业服务。此外，该数据集也支持商业智能分析，帮助企业优化运营策略和提升客户满意度。

数据集最近研究