Yelp DataSet
收藏github2015-01-11 更新2024-05-31 收录
下载链接:
https://github.com/ShreyaGM/Yelp-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于挑战任务,包括通过用户评论预测商业类别和评分,使用信息检索方法和文本挖掘技术。
This dataset is designed for challenge tasks, which include predicting business categories and ratings through user reviews, utilizing information retrieval methods and text mining techniques.
创建时间:
2014-12-09
原始信息汇总
数据集概述
数据集名称
Yelp-Dataset
数据集挑战任务
-
任务1:预测商业类别
- 方法:信息检索方法
- 过程:使用文本挖掘收集特定商业ID的所有有用评论,通过解析、标准化和去除停用词处理评论。创建了每个类别的单字词典,并设计了一种算法来计算每个类别的相关性得分,以预测商业类别。
- 评估指标:召回率
-
任务2:预测商业评分
- 方法:信息检索方法
- 过程:同样使用文本挖掘收集特定商业ID的用户评论,进行解析、标准化和去除停用词处理。对每条评论进行情感分析,计算情感得分,并汇总平均以预测商业评分。
- 评估指标:准确率
参考资料
- SentiWordNet.com用于情感分析和词典构建。
贡献者及贡献内容
- Khusbhoo Modi:实现逻辑以合并9个JSON文件,便于同时处理所有文件。
- Mrunal Lele:实现任务1中相关性得分的计算逻辑,用于预测商业类别。
- Shambhavi Dhargalkar:在任务2中找到评估指标(变化率)。
- Shreya Ghattamaraju Maruthi:实现从情感分析中获取商业评分的逻辑。
词典构建
- Khusbhoo M:负责“活跃生活”等词汇。
- Mrunal L:负责“医生与健康”相关词汇。
- Shambhavi:负责“餐厅与烹饪”相关词汇。
- Shreya G M:负责“服务与娱乐”相关词汇。
搜集汇总
数据集介绍

构建方式
Yelp DataSet的构建基于对用户评论文本的信息检索方法。研究者首先利用文本挖掘技术搜集特定商业ID下的所有有用评论,然后对这些评论进行解析和标准化处理。去除停用词后,构建了针对每个类别的单词汇字典,进而设计并实施了一种算法,通过计算每个类别在字典中的相关性得分,以准确预测商业类别。
特点
该数据集的特点在于,它利用用户生成的内容进行商业类别和评级的预测。数据集通过信息检索和情感分析相结合的方式,对商业评论进行深度挖掘,从而实现对商业属性的精准判断。其采用的评价指标包括召回率和准确率,确保了模型评估的全面性和有效性。
使用方法
使用该数据集时,研究者需要先对评论数据进行预处理,包括解析、标准化和停用词移除。随后,通过计算每个类别的相关性得分进行商业类别的预测,或是对每条评论进行情感分析以预测商业评级。最终,通过评价度量来验证模型的性能。
背景与挑战
背景概述
Yelp DataSet是由Yelp公司提供的一个公开数据集,旨在推动商业分类和评分预测等自然语言处理领域的研究。该数据集汇集了用户对商业的评论,创建于信息检索和机器学习领域快速发展之际,为研究人员提供了丰富的文本资源。主要研究人员包括Khusbhoo Modi、Mrunal Lele、Shambhavi Dhargalkar和Shreya Ghattamaraju Maruthi,他们在数据集的构建和算法实现中发挥了关键作用。数据集的核心研究问题是通过对用户评论的分析,预测商业类别和评分,这对于提升在线商务智能和用户体验具有重要意义。Yelp DataSet的影响力体现在其成为了自然语言处理和机器学习领域内众多研究的基础数据源。
当前挑战
在研究领域问题上,Yelp DataSet面临的挑战包括如何精确地从非结构化的用户评论中提取有用的信息,并有效预测商业类别及评分。具体挑战体现在:1) 用户评论的多样性和复杂性使得构建一个准确的信息检索模型充满挑战;2) 在构建过程中,数据清洗、标准化和停用词处理是必不可少的步骤,这些步骤的准确性直接影响到最终模型的性能。此外,情感分析的准确性和不同类别间的区分度也是研究者需要克服的关键问题。
常用场景
经典使用场景
在信息检索领域,Yelp DataSet 数据集的经典使用场景是针对商业分类和评级预测两项任务。该数据集通过收集并解析针对特定商业ID的用户评论,进而实现商业类别的预测和评级估算,为信息检索与文本挖掘技术提供了实际的应用平台。
实际应用
在现实世界中,Yelp DataSet 数据集的应用广泛,特别是在电子商务领域,它被用于分析用户评论,以辅助商家了解消费者偏好,预测市场趋势,优化产品服务,以及制定更为精准的营销策略。
衍生相关工作
基于Yelp DataSet 数据集,学术界衍生出了众多相关工作,包括但不限于改进文本分类算法、情感分析模型的构建与优化,以及用户行为分析等,这些研究进一步拓宽了数据集的应用范围,并推动了相关领域的技术发展。
以上内容由遇见数据集搜集并总结生成



