five

Yelp Open Dataset|用户评价数据集|商业数据分析数据集

收藏
github2024-04-04 更新2024-05-31 收录
用户评价
商业数据分析
下载链接:
https://github.com/crredding/YelpDataset
下载链接
链接失效反馈
资源简介:
Yelp开放数据集包含约700万条来自约15万家美国特定大都市地区企业的用户评论。数据集由五个不同的JSON文件组成,涵盖了评论和商业数据的各个方面,如商业信息、用户评论、用户信息、签到记录和照片数据。

The Yelp Open Dataset comprises approximately 7 million user reviews from about 150,000 businesses in specific metropolitan areas across the United States. The dataset is structured into five distinct JSON files, encompassing various aspects of reviews and business data, including business information, user reviews, user profiles, check-in records, and photo data.
创建时间:
2024-03-29
原始信息汇总

Yelp DataSet 概述

数据集内容

  • 数据来源:Yelp Open Dataset,直接由Yelp提供。
  • 数据规模:覆盖约700万条评论,涉及约150,000家位于美国特定大都市区的企业。
  • 数据文件:包含五个JSON文件,分别是:
    • business.json:包含企业数据,如位置、属性和类别。
    • review.json:包含完整的评论文本数据,包括撰写评论的用户ID和评论针对的企业ID。
    • user.json:包含用户数据,包括用户的朋友映射和所有与用户相关的元数据。
    • checkin.json:记录企业的签到情况。
    • tip.json:包含用户对企业撰写的提示,通常比评论短,传达快速建议。
    • photo.json:包含照片数据,包括标题和分类(如食物、饮料、菜单、内部或外部)。

数据集应用

  • 主要用途:用于创建两个系统:
    • 分类器:用于判断用户评论是否属于餐厅。
    • 推荐器:为用户推荐与他们过去评分高的餐厅相似的餐厅。

数据准备

  • 数据处理步骤
    • 将JSON文件转换为CSV格式。
    • 筛选仅包含宾夕法尼亚州大都市区的企业数据。
    • 处理Unicode字符和字符串清洗。
    • 移除重复项和NaN值。
    • 使用“类别”特征标记包含“餐厅”的企业。

数据集限制

  • 数据筛选:项目中使用的数据集被限制在约34,000家企业,约160万条评论,主要关注免费文本字段进行分析。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Open Dataset的构建基于Yelp平台上的用户评论数据,涵盖了约700万条评论和15万家企业在特定美国大都市区的信息。数据集由五个独立的JSON文件组成,分别包含业务信息、评论文本、用户数据、签到记录和提示信息。数据集的构建过程中,首先通过Yelp官方提供的API获取原始数据,随后利用Python脚本进行数据清洗和预处理,包括去除重复项、处理Unicode字符、标准化文本格式等。此外,为了便于后续的探索性数据分析(EDA),数据被转换为TSV格式,并进一步筛选出仅包含宾夕法尼亚州(PA)地区的数据,以确保数据集的规模和质量适合于分类器和推荐系统的开发。
特点
Yelp Open Dataset的一个显著特点是其数据的多样性和丰富性。数据集不仅包含了详细的业务信息和用户评论,还提供了用户社交网络、签到记录和照片等多维度数据,这些信息为构建复杂的机器学习模型提供了坚实的基础。此外,数据集的规模庞大,覆盖了多个美国大都市区,使得研究者能够进行广泛的地理和人口统计分析。数据集的另一个特点是其结构化程度高,每个JSON文件都有明确的键值对结构,便于数据提取和处理。
使用方法
使用Yelp Open Dataset时,首先需要从Yelp官方网站下载数据集,并根据需要选择合适的子集进行分析。数据集的JSON格式可以通过Python脚本转换为更易于处理的CSV或TSV格式。在进行数据分析之前,建议对数据进行初步的清洗和预处理,以去除噪声和冗余信息。数据集特别适用于自然语言处理(NLP)任务,如情感分析、文本分类和推荐系统开发。此外,数据集还可用于地理信息系统(GIS)分析,以研究不同地区的商业活动和用户行为模式。
背景与挑战
背景概述
Yelp Open Dataset是由Yelp公司发布的一个开放数据集,旨在为学术界和业界提供一个丰富的用户评论数据资源。该数据集包含了约700万条来自约15万家企业的用户评论,涵盖了美国多个大都市区域。数据集的创建旨在支持探索性研究,特别是针对餐饮业的分类和推荐系统。主要研究人员和机构包括Yelp公司及其合作者,核心研究问题集中在如何利用用户评论数据构建高效的分类器和推荐系统,以提升用户体验和业务效率。该数据集的发布对自然语言处理、机器学习和推荐系统等领域产生了深远影响,为研究人员提供了宝贵的实验数据。
当前挑战
Yelp Open Dataset在构建和应用过程中面临多项挑战。首先,数据集的规模庞大,处理和存储这些数据需要高效的计算资源和存储解决方案。其次,数据的质量和一致性问题,如重复数据、缺失值和非标准化的文本格式,增加了数据预处理的复杂性。此外,如何从海量的用户评论中提取有用的信息,以构建准确的分类器和推荐系统,也是一个重要的挑战。最后,数据集的地理限制和行业偏差,如仅涵盖特定大都市区域和餐饮业,限制了其在更广泛应用场景中的适用性。
常用场景
经典使用场景
Yelp Open Dataset的经典使用场景主要集中在餐饮行业的分类与推荐系统构建。通过分析用户评论数据,该数据集支持开发一个分类器,用于区分评论是否属于餐厅类别,从而提升搜索和分类的准确性。此外,基于用户历史评分,推荐系统能够为用户提供个性化的餐厅推荐,增强用户体验和满意度。
实际应用
在实际应用中,Yelp Open Dataset被广泛用于开发和优化餐饮行业的推荐系统和分类器。例如,餐饮平台可以利用该数据集构建精准的餐厅分类系统,帮助用户快速找到符合其需求的餐厅。同时,基于用户历史评分和评论的推荐系统能够提供个性化的餐饮推荐,提升用户满意度和平台的用户粘性。
衍生相关工作
Yelp Open Dataset的发布催生了大量相关研究和工作。例如,许多研究者利用该数据集进行自然语言处理技术的研究,探索如何更有效地从用户评论中提取情感和意图。此外,基于该数据集的推荐系统研究也取得了显著进展,推动了个性化推荐技术在餐饮行业的应用和发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

Internet Traffic Data (CAIDA)

该数据集包含了互联网流量的详细记录,包括IP地址、流量大小、时间戳等信息。数据主要用于网络流量分析和研究。

www.caida.org 收录

Allen Brain Atlas

Allen Brain Atlas 是一个综合性的脑图谱数据库,提供了详细的大脑解剖结构、基因表达数据、神经元连接信息等。该数据集包括了小鼠、人类和其他模式生物的大脑数据,旨在帮助研究人员理解大脑的结构和功能。

portal.brain-map.org 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录