five

Yelp Dataset|本地商业数据集|数据分析数据集

收藏
github2017-11-07 更新2024-05-31 收录
本地商业
数据分析
下载链接:
https://github.com/wenderxavier/Yelp-Dataset-Challenge-2017
下载链接
链接失效反馈
资源简介:
Yelp数据集包含大量关于本地商业的评论、用户信息和商业信息,旨在鼓励学生进行数据分析和研究。数据集包括4,700,000条评论、156,000个商业实体、200,000张图片等,覆盖12个都市区域和4个国家。

The Yelp dataset encompasses a vast collection of reviews, user information, and business details pertaining to local establishments, designed to facilitate data analysis and research among students. This dataset comprises 4,700,000 reviews, 156,000 business entities, and 200,000 images, spanning 12 metropolitan areas and 4 countries.
创建时间:
2017-09-28
原始信息汇总

数据集概述

数据集来源

  • 数据集来自Yelp!公司,该公司提供本地搜索、商业评级和评论以及在线食品配送服务。
  • Yelp!采用众包模式,用户访问商家并发布其评论。

数据集内容

  • 数据集包含以下内容:
    • 4,700,000条评论
    • 156,000个商家信息
    • 200,000张图片
    • 12个来自4个国家的大都会区域
    • 1,000,000条由1,100,000用户发布的提示
    • 超过1,200,000条商业属性,如营业时间、停车、可用性和氛围
    • 针对156,000个商家的累计签到数据

数据集分析

  • 数据集分析包括对多个城市和都会区域的评论进行采样,以获取包含最多评论、用户和商家的样本。
  • 未来的分析将集中在拉斯维加斯(美国)、菲尼克斯(美国)和多伦多(加拿大),因为这些地区包含最多的商家和用户信息。

相关研究

  • 数据集已被用于多项研究,包括但不限于:
    • 使用回归模型和情感分析预测未来商业关注度
    • 利用潜在因子模型和LDA主题建模预测评分
    • 分析顾客图中的中心性和聚类
    • 使用基于图的特征改进商业评分预测
    • 使用双元多项式朴素贝叶斯过采样预测Yelp评论星级分类

数据集挑战

  • Yelp!于2014年开始“Yelp数据集挑战”,鼓励学生研究和分析数据。目前该挑战已进行到第10轮,使用2017年的更新数据。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Yelp Dataset是由Yelp公司提供的,包含业务、评论和用户数据的子集。该数据集的构建是通过从Yelp数据库中提取业务、评论、用户、图片、评价、提示和签到信息来完成的。数据集挑战自2014年开始,每轮都会更新数据,以鼓励学生进行研究和分析。构建过程中,作者对数据进行了详尽的分析,选择了信息量较大的城市进行分析,以确保样本包含了大部分评论、用户和业务。
使用方法
使用Yelp Dataset时,用户可以通过访问Yelp提供的SQL和JSON格式的数据来进行分析。数据集可以用于回归模型、情感分析、隐因子模型、用户行为分析等多种分析任务。用户需要根据研究需求选择适当的数据处理和分析工具,并可能需要对数据进行预处理,如清洗、归一化和特征提取,以优化模型性能和结果准确性。
背景与挑战
背景概述
Yelp Dataset是由Yelp公司提供的一个包含商业、评论和用户数据的集合。该数据集的创建旨在推动学术研究,特别是在数据挖掘、自然语言处理和社会网络分析等领域。自2014年起,Yelp启动了Yelp Dataset Challenge,提供了一个SQL和JSON格式的数据子集,包含数百万条评论、商业信息、用户数据和图片等,覆盖了来自四个国家的12个大城市。该数据集的创建时间为2014年,主要研究人员为Mateus Parreiras Silveira和Wender Xavier,由Yelp公司提供支持。Yelp Dataset在学术界产生了广泛的影响,许多研究者利用该数据集进行了商业关注预测、评分维度预测、客户业务图中心性和聚类分析等研究,从而推动了相关领域的发展。
当前挑战
Yelp Dataset在构建和研究过程中面临的挑战包括:如何从海量的人类生成数据中提取有价值的信息,以及如何处理和分析这些信息以提高服务质量和产品。此外,数据集构建中遇到的挑战还包括用户行为的多样性和复杂性,如用户在不同城市和国家的评论习惯、用户对商业的持续关注程度、以及评论和评分的周期性变化等。在研究领域,如何利用Yelp Dataset进行更准确的未来商业关注预测、评分维度理解、以及用户行为模式分析等,都是当前研究的热点和难点。
常用场景
经典使用场景
在数据科学及商业分析领域,Yelp Dataset是一个被广泛使用的资源。该数据集的经典使用场景在于,研究者或开发者通过分析其包含的商业评论、用户评价等数据,构建算法模型以预测用户行为,如未来商业关注度的推断、评分预测等。通过对Yelp用户生成内容进行深入挖掘,可揭示用户偏好的隐藏因素和主题,从而优化商业决策和服务质量。
解决学术问题
Yelp Dataset解决了学术研究中对用户行为分析、情感分析及推荐系统构建的迫切需求。它使得研究者能够探索影响用户评价的各种因素,如评论的有用性和趣味性,以及如何通过图论分析方法识别顾客行为模式。此外,该数据集为研究大型社会事件(如体育赛事)对用户行为的影响提供了丰富的实证数据,对理解人类行为模式具有重要意义。
实际应用
在实际应用中,Yelp Dataset被用于商业智能分析,帮助商家理解消费者反馈,改善服务质量和顾客体验。例如,通过分析用户评论中的关键词和情感倾向,商家可以调整营销策略,提高顾客满意度。同时,数据集中的图论分析结果可应用于构建更精确的推荐系统,提升个性化服务。
数据集最近研究
最新研究方向
Yelp Dataset作为研究人类行为信息的重要来源,其最新研究方向主要集中于深度挖掘用户生成内容的价值,以改进服务和产品。当前研究涉及利用回归模型和情感分析预测商业未来关注度、运用潜在因子模型预测评分并识别评论主题、基于图的特性和聚类分析预测商业评分,以及采用过采样和双向多元朴素贝叶斯分类预测评论星级。此外,研究者们还关注于用户行为模式与大型事件或假期的关联性分析,以揭示用户评论和访问行为的变化规律。这些研究不仅推动了对 Yelp 数据集的深入理解,也为商业智能和消费者行为分析提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

ROBEL

ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录