five

Yelp Academic Dataset

收藏
github2023-03-10 更新2024-05-31 收录
下载链接:
https://github.com/titipata/yelp_dataset_challenge
下载链接
链接失效反馈
官方服务:
资源简介:
包含用户、商家、评论、签到和提示等多个数据表,用于分析和探索Yelp平台上的用户行为和商家信息。

This dataset encompasses multiple data tables including user, business, review, check-in, and tip tables, and is specifically designed for the analysis and exploration of user behaviors and business information on the Yelp platform.
创建时间:
2015-12-08
原始信息汇总

Yelp Dataset Challenge for Python

数据集概述

该数据集包含Yelp Dataset Challenge第6轮的数据,格式为Pandas的pickle格式。数据集存储在AWS S3上,提供了多个表格,包括用户信息、商家信息、评论、签到和提示。

数据集结构

数据集包含以下表格:

用户表 (366k rows)

  • 字段:average_stars, compliments, elite, fans, friends, name, review_count, type, user_id, votes, yelping_since

商家表 (61k rows)

  • 字段:attributes, business_id, categories, city, full_address, hours, latitude, longitude, name, neighborhoods, open, review_count, stars, state, type

评论表 (1.5M rows)

  • 字段:business_id, date, review_id, stars, text, type, user_id, votes_cool, votes_funny, votes_useful

签到表 (45k rows)

  • 字段:business_id, checkin_info, type

提示表 (495k rows)

  • 字段:business_id, date, likes, text, type, user_id

数据下载与读取

可以使用yelp_util包下载数据,下载后的文件存储在data文件夹中。读取pickle文件的示例如下:

python import pandas as pd review = pd.read_pickle(data/yelp_academic_dataset_review.pickle) review.head()

数据处理示例

商家聚类

可以使用KMeans算法对商家进行聚类:

python from sklearn.cluster import KMeans business = pd.read_pickle(data/yelp_academic_dataset_business.pickle) tags = business.categories.tolist() tag_countmatrix = yelp_util.taglist_to_matrix(tags) km = KMeans(n_clusters=3) km.fit(tag_countmatrix) business[cluster] = km.predict(tag_countmatrix)

训练word2vec模型

可以使用评论数据训练word2vec模型:

python review = pd.read_pickle(data/yelp_academic_dataset_review.pickle) yelp_review_sample = list(review.text.iloc[10000:20000]) model = yelp_util.create_word2vec_model(yelp_review_sample)

搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Academic Dataset的构建基于Yelp平台上的用户生成内容,涵盖了商家信息、用户评论、用户信息、签到记录以及用户提供的建议等多个维度。数据通过Yelp Dataset Challenge公开,并以Pandas的pickle格式存储,便于Python用户直接下载和使用。数据集的结构化设计使得其能够全面反映Yelp平台上的用户行为与商家特征。
特点
该数据集的特点在于其多样性和丰富性,包含了61,000条商家信息、1,500,000条用户评论、366,000条用户信息、45,000条签到记录以及495,000条用户建议。这些数据不仅涵盖了地理位置、商家类别、用户评分等基础信息,还包含了用户生成的自然语言文本,为文本挖掘和情感分析提供了丰富的素材。此外,数据集的结构化设计使其能够支持多种机器学习任务,如聚类分析和词向量建模。
使用方法
用户可以通过提供的Python工具包`yelp_util`直接从AWS S3仓库下载数据集,并使用Pandas库进行数据读取和处理。数据集支持多种分析任务,例如通过KMeans算法对商家进行聚类分析,或利用Word2Vec模型对用户评论进行词向量建模。此外,数据集还支持Django框架的本地运行,便于用户进行定制化的网页开发与数据可视化。
背景与挑战
背景概述
Yelp Academic Dataset 是由Yelp公司推出的一个公开数据集,旨在为研究社区提供一个丰富的资源,用于探索商业评论、用户行为和社交网络分析等领域。该数据集自2013年首次发布以来,已成为学术界和工业界研究推荐系统、情感分析和自然语言处理的重要工具。数据集包含了大量用户对商家的评论、商家的详细信息、用户的社交关系以及签到数据等,为研究者提供了多维度的分析视角。主要研究人员包括Titipat Achakulvisut、Daniel Acuna和Zaw Htet Aung等,他们的工作推动了该数据集在数据科学和机器学习领域的广泛应用。
当前挑战
Yelp Academic Dataset 面临的挑战主要体现在两个方面。首先,数据集的规模庞大且复杂,包含数百万条评论和数十万用户信息,这对数据预处理和特征提取提出了高要求。研究者需要处理高维稀疏数据,并解决数据不平衡和噪声问题。其次,构建过程中遇到的挑战包括数据的匿名化处理、隐私保护以及如何确保数据的代表性和多样性。此外,由于用户评论的文本数据具有高度的主观性和多样性,如何有效提取情感信息和语义特征也是研究中的一大难点。这些挑战不仅影响了数据集的构建,也对后续的分析和应用提出了更高的技术要求。
常用场景
经典使用场景
Yelp Academic Dataset 在学术研究中常被用于分析用户行为、商业趋势和自然语言处理。通过该数据集,研究者可以深入探讨用户评论的情感分析、商业类别的聚类分析以及用户与商家之间的互动模式。这些分析不仅揭示了消费者偏好和市场动态,还为商业智能提供了数据支持。
解决学术问题
该数据集解决了多个学术研究中的关键问题,如用户生成内容的语义分析、商业类别的自动分类以及用户行为模式的预测。通过提供丰富的用户评论、商家信息和用户互动数据,研究者能够开发出更精确的算法模型,用于情感分析、推荐系统和市场细分等领域。
衍生相关工作
基于 Yelp Academic Dataset,许多经典的研究工作得以展开。例如,研究者开发了基于用户评论的情感分析模型,用于预测用户满意度;还有研究利用该数据集进行商业类别的聚类分析,揭示了不同类别商家之间的相似性和差异性。这些工作不仅推动了学术研究的进展,也为实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作