five

Yelp Dataset|本地商业数据集|数据分析数据集

收藏
github2017-11-07 更新2024-05-31 收录
本地商业
数据分析
下载链接:
https://github.com/wenderxavier/Yelp-Dataset-Challenge-2017
下载链接
链接失效反馈
资源简介:
Yelp数据集包含大量关于本地商业的评论、用户信息和商业信息,旨在鼓励学生进行数据分析和研究。数据集包括4,700,000条评论、156,000个商业实体、200,000张图片等,覆盖12个都市区域和4个国家。

The Yelp dataset encompasses a vast collection of reviews, user information, and business details pertaining to local establishments, designed to facilitate data analysis and research among students. This dataset comprises 4,700,000 reviews, 156,000 business entities, and 200,000 images, spanning 12 metropolitan areas and 4 countries.
创建时间:
2017-09-28
原始信息汇总

数据集概述

数据集来源

  • 数据集来自Yelp!公司,该公司提供本地搜索、商业评级和评论以及在线食品配送服务。
  • Yelp!采用众包模式,用户访问商家并发布其评论。

数据集内容

  • 数据集包含以下内容:
    • 4,700,000条评论
    • 156,000个商家信息
    • 200,000张图片
    • 12个来自4个国家的大都会区域
    • 1,000,000条由1,100,000用户发布的提示
    • 超过1,200,000条商业属性,如营业时间、停车、可用性和氛围
    • 针对156,000个商家的累计签到数据

数据集分析

  • 数据集分析包括对多个城市和都会区域的评论进行采样,以获取包含最多评论、用户和商家的样本。
  • 未来的分析将集中在拉斯维加斯(美国)、菲尼克斯(美国)和多伦多(加拿大),因为这些地区包含最多的商家和用户信息。

相关研究

  • 数据集已被用于多项研究,包括但不限于:
    • 使用回归模型和情感分析预测未来商业关注度
    • 利用潜在因子模型和LDA主题建模预测评分
    • 分析顾客图中的中心性和聚类
    • 使用基于图的特征改进商业评分预测
    • 使用双元多项式朴素贝叶斯过采样预测Yelp评论星级分类

数据集挑战

  • Yelp!于2014年开始“Yelp数据集挑战”,鼓励学生研究和分析数据。目前该挑战已进行到第10轮,使用2017年的更新数据。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Dataset是由Yelp公司提供的,包含业务、评论和用户数据的子集。该数据集的构建是通过从Yelp数据库中提取业务、评论、用户、图片、评价、提示和签到信息来完成的。数据集挑战自2014年开始,每轮都会更新数据,以鼓励学生进行研究和分析。构建过程中,作者对数据进行了详尽的分析,选择了信息量较大的城市进行分析,以确保样本包含了大部分评论、用户和业务。
使用方法
使用Yelp Dataset时,用户可以通过访问Yelp提供的SQL和JSON格式的数据来进行分析。数据集可以用于回归模型、情感分析、隐因子模型、用户行为分析等多种分析任务。用户需要根据研究需求选择适当的数据处理和分析工具,并可能需要对数据进行预处理,如清洗、归一化和特征提取,以优化模型性能和结果准确性。
背景与挑战
背景概述
Yelp Dataset是由Yelp公司提供的一个包含商业、评论和用户数据的集合。该数据集的创建旨在推动学术研究,特别是在数据挖掘、自然语言处理和社会网络分析等领域。自2014年起,Yelp启动了Yelp Dataset Challenge,提供了一个SQL和JSON格式的数据子集,包含数百万条评论、商业信息、用户数据和图片等,覆盖了来自四个国家的12个大城市。该数据集的创建时间为2014年,主要研究人员为Mateus Parreiras Silveira和Wender Xavier,由Yelp公司提供支持。Yelp Dataset在学术界产生了广泛的影响,许多研究者利用该数据集进行了商业关注预测、评分维度预测、客户业务图中心性和聚类分析等研究,从而推动了相关领域的发展。
当前挑战
Yelp Dataset在构建和研究过程中面临的挑战包括:如何从海量的人类生成数据中提取有价值的信息,以及如何处理和分析这些信息以提高服务质量和产品。此外,数据集构建中遇到的挑战还包括用户行为的多样性和复杂性,如用户在不同城市和国家的评论习惯、用户对商业的持续关注程度、以及评论和评分的周期性变化等。在研究领域,如何利用Yelp Dataset进行更准确的未来商业关注预测、评分维度理解、以及用户行为模式分析等,都是当前研究的热点和难点。
常用场景
经典使用场景
在数据科学及商业分析领域,Yelp Dataset是一个被广泛使用的资源。该数据集的经典使用场景在于,研究者或开发者通过分析其包含的商业评论、用户评价等数据,构建算法模型以预测用户行为,如未来商业关注度的推断、评分预测等。通过对Yelp用户生成内容进行深入挖掘,可揭示用户偏好的隐藏因素和主题,从而优化商业决策和服务质量。
解决学术问题
Yelp Dataset解决了学术研究中对用户行为分析、情感分析及推荐系统构建的迫切需求。它使得研究者能够探索影响用户评价的各种因素,如评论的有用性和趣味性,以及如何通过图论分析方法识别顾客行为模式。此外,该数据集为研究大型社会事件(如体育赛事)对用户行为的影响提供了丰富的实证数据,对理解人类行为模式具有重要意义。
实际应用
在实际应用中,Yelp Dataset被用于商业智能分析,帮助商家理解消费者反馈,改善服务质量和顾客体验。例如,通过分析用户评论中的关键词和情感倾向,商家可以调整营销策略,提高顾客满意度。同时,数据集中的图论分析结果可应用于构建更精确的推荐系统,提升个性化服务。
数据集最近研究
最新研究方向
Yelp Dataset作为研究人类行为信息的重要来源,其最新研究方向主要集中于深度挖掘用户生成内容的价值,以改进服务和产品。当前研究涉及利用回归模型和情感分析预测商业未来关注度、运用潜在因子模型预测评分并识别评论主题、基于图的特性和聚类分析预测商业评分,以及采用过采样和双向多元朴素贝叶斯分类预测评论星级。此外,研究者们还关注于用户行为模式与大型事件或假期的关联性分析,以揭示用户评论和访问行为的变化规律。这些研究不仅推动了对 Yelp 数据集的深入理解,也为商业智能和消费者行为分析提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Agricultural Pests Dataset

Agricultural Pests Classification

kaggle 收录