Yelp Review Dataset

github2019-08-28 更新2024-05-31 收录

下载链接：

https://github.com/tahmedge/Sentiment-Analysis-in-Yelp-Review-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本项目从Yelp评论数据集中随机选取了100000条评论，确保每个星级（1至5星）包含20000条评论，形成了一个平衡的数据集。预处理后的数据集以.txt和.arff格式存储，分别适用于Python和Weka。

This project randomly selected 100,000 reviews from the Yelp review dataset, ensuring that each star rating (from 1 to 5 stars) includes 20,000 reviews, thereby forming a balanced dataset. The preprocessed dataset is stored in .txt and .arff formats, suitable for Python and Weka respectively.

创建时间：

2019-01-05

原始信息汇总

Sentiment-Analysis-in-Yelp-Review-Dataset

数据集概述

数据来源：Yelp评论数据集
数据格式：原始数据为.json格式，处理后为.txt和.arff格式
数据量：随机选取100000条评论，每星评级（1至5星）各包含20000条评论
数据存储：预处理后的数据集存储于"datasets.zip"文件夹中

数据集格式

.txt文件：适用于Python，分为二元分类和三元分类的独立文件
.arff文件：适用于Weka，同样分为二元分类和三元分类的独立文件

数据集大小

原始数据：4.7 GB
下载链接：Yelp数据集

搜集汇总

数据集介绍

构建方式

Yelp Review Dataset的构建是基于原始的Yelp评论数据集，开发团队针对数据挖掘课程的要求，对原始的.json格式的数据进行了预处理。在预处理过程中，研究团队从原始数据集中随机抽取了10万条评论，并确保每个星级评分（1至5星）均包含2万条评论，从而构建出一个平衡的数据集。处理后的数据集以.txt格式存储，并根据二分类和三分类的需求分别存储在不同的文件中。

特点

该数据集的主要特点是平衡性，每个星级的评论数量均等，有利于模型的训练和评估。此外，数据集提供了两种格式的文件，即适用于Python的.txt文件和适用于Weka的.arff文件，满足了不同工具和语言的使用需求。原始的.json文件大小为4.7GB，可通过Yelp官方网站下载，展现了数据集的丰富性和完整性。

使用方法

在使用该数据集时，用户可以根据需求选择相应的文件格式。对于Python用户，可以使用Keras库实现深度学习算法，而对于需要使用Weka的用户，可以通过过滤分类器实现SVM和随机森林算法。此外，数据集附带的用户手册提供了详细的使用指导，同时，还提供了关于如何在Weka中使用过滤分类器的教学视频，以及有关使用Keras模型进行神经网络预测的教程，方便用户更好地理解和应用该数据集。

背景与挑战

背景概述

Yelp Review Dataset是一项针对在线用户评论情感分析的研究项目，其创建旨在服务于约克大学EECS 6412数据挖掘课程。该数据集的构建源于对Yelp平台的海量用户评论进行预处理，旨在通过数据分析手段挖掘用户情感倾向。数据集的创建时间为约克大学相关课程开展期间，主要研究人员为参与该课程的学生团队。该数据集的核心研究问题聚焦于情感分析领域，即如何准确识别和分类用户评论中的情感倾向，这对于提升在线服务质量和用户满意度具有重要意义。Yelp Review Dataset的构建对情感分析领域产生了积极影响，为后续研究提供了宝贵的资源。

当前挑战

在构建Yelp Review Dataset的过程中，研究人员面临了多项挑战。首先，如何在庞大的数据集中进行有效抽样，确保数据集的均衡性，是一大挑战。数据集构建者通过随机选择100000条评论，并确保每个星级评价均有20000条评论，来克服这一挑战。其次，数据预处理过程中，如何将原始的.json格式数据转换为适合机器学习算法处理的.txt和.arff格式文件，同样是一重难关。此外，对于所解决的领域问题，即情感分析，算法的选择与实现、准确率的提高、以及模型泛化能力的增强，都是当前及未来研究中需不断探索的挑战。

常用场景

经典使用场景

在情感分析领域，Yelp Review Dataset数据集的经典使用场景是作为文本分类的基准数据集。研究人员通常会利用该数据集中的评论文本，训练深度学习模型以实现对评论文本情感极性的预测，即判断其为正面、负面或中性。

解决学术问题

该数据集解决了情感分析中的标注数据不足、数据不平衡等常见问题。通过提供五星级别的评论文本，并且保证每个级别均有足量数据，Yelp Review Dataset为学术研究提供了可靠的数据基础，有助于提升模型的泛化能力和预测准确度。

衍生相关工作

Yelp Review Dataset衍生的相关工作涵盖了情感分析的多个方面，包括但不限于基于深度学习的情感识别、跨域情感分析、情感推理等研究。这些工作推动了情感分析技术的进步，并为自然语言处理领域的发展提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集