five

Yelp Review Dataset

收藏
github2019-08-28 更新2024-05-31 收录
下载链接:
https://github.com/tahmedge/Sentiment-Analysis-in-Yelp-Review-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
本项目从Yelp评论数据集中随机选取了100000条评论,确保每个星级(1至5星)包含20000条评论,形成了一个平衡的数据集。预处理后的数据集以.txt和.arff格式存储,分别适用于Python和Weka。

This project randomly selected 100,000 reviews from the Yelp review dataset, ensuring that each star rating (from 1 to 5 stars) includes 20,000 reviews, thereby forming a balanced dataset. The preprocessed dataset is stored in .txt and .arff formats, suitable for Python and Weka respectively.
创建时间:
2019-01-05
原始信息汇总

Sentiment-Analysis-in-Yelp-Review-Dataset

数据集概述

  • 数据来源:Yelp评论数据集
  • 数据格式:原始数据为.json格式,处理后为.txt和.arff格式
  • 数据量:随机选取100000条评论,每星评级(1至5星)各包含20000条评论
  • 数据存储:预处理后的数据集存储于"datasets.zip"文件夹中

数据集格式

  1. .txt文件:适用于Python,分为二元分类和三元分类的独立文件
  2. .arff文件:适用于Weka,同样分为二元分类和三元分类的独立文件

数据集大小

搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Review Dataset的构建是基于原始的Yelp评论数据集,开发团队针对数据挖掘课程的要求,对原始的.json格式的数据进行了预处理。在预处理过程中,研究团队从原始数据集中随机抽取了10万条评论,并确保每个星级评分(1至5星)均包含2万条评论,从而构建出一个平衡的数据集。处理后的数据集以.txt格式存储,并根据二分类和三分类的需求分别存储在不同的文件中。
特点
该数据集的主要特点是平衡性,每个星级的评论数量均等,有利于模型的训练和评估。此外,数据集提供了两种格式的文件,即适用于Python的.txt文件和适用于Weka的.arff文件,满足了不同工具和语言的使用需求。原始的.json文件大小为4.7GB,可通过Yelp官方网站下载,展现了数据集的丰富性和完整性。
使用方法
在使用该数据集时,用户可以根据需求选择相应的文件格式。对于Python用户,可以使用Keras库实现深度学习算法,而对于需要使用Weka的用户,可以通过过滤分类器实现SVM和随机森林算法。此外,数据集附带的用户手册提供了详细的使用指导,同时,还提供了关于如何在Weka中使用过滤分类器的教学视频,以及有关使用Keras模型进行神经网络预测的教程,方便用户更好地理解和应用该数据集。
背景与挑战
背景概述
Yelp Review Dataset是一项针对在线用户评论情感分析的研究项目,其创建旨在服务于约克大学EECS 6412数据挖掘课程。该数据集的构建源于对Yelp平台的海量用户评论进行预处理,旨在通过数据分析手段挖掘用户情感倾向。数据集的创建时间为约克大学相关课程开展期间,主要研究人员为参与该课程的学生团队。该数据集的核心研究问题聚焦于情感分析领域,即如何准确识别和分类用户评论中的情感倾向,这对于提升在线服务质量和用户满意度具有重要意义。Yelp Review Dataset的构建对情感分析领域产生了积极影响,为后续研究提供了宝贵的资源。
当前挑战
在构建Yelp Review Dataset的过程中,研究人员面临了多项挑战。首先,如何在庞大的数据集中进行有效抽样,确保数据集的均衡性,是一大挑战。数据集构建者通过随机选择100000条评论,并确保每个星级评价均有20000条评论,来克服这一挑战。其次,数据预处理过程中,如何将原始的.json格式数据转换为适合机器学习算法处理的.txt和.arff格式文件,同样是一重难关。此外,对于所解决的领域问题,即情感分析,算法的选择与实现、准确率的提高、以及模型泛化能力的增强,都是当前及未来研究中需不断探索的挑战。
常用场景
经典使用场景
在情感分析领域,Yelp Review Dataset数据集的经典使用场景是作为文本分类的基准数据集。研究人员通常会利用该数据集中的评论文本,训练深度学习模型以实现对评论文本情感极性的预测,即判断其为正面、负面或中性。
解决学术问题
该数据集解决了情感分析中的标注数据不足、数据不平衡等常见问题。通过提供五星级别的评论文本,并且保证每个级别均有足量数据,Yelp Review Dataset为学术研究提供了可靠的数据基础,有助于提升模型的泛化能力和预测准确度。
衍生相关工作
Yelp Review Dataset衍生的相关工作涵盖了情感分析的多个方面,包括但不限于基于深度学习的情感识别、跨域情感分析、情感推理等研究。这些工作推动了情感分析技术的进步,并为自然语言处理领域的发展提供了新的视角和方法论。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作