Yelp Dataset|本地商业数据集|数据分析数据集
收藏数据集概述
数据集来源
- 数据集来自Yelp!公司,该公司提供本地搜索、商业评级和评论以及在线食品配送服务。
- Yelp!采用众包模式,用户访问商家并发布其评论。
数据集内容
- 数据集包含以下内容:
- 4,700,000条评论
- 156,000个商家信息
- 200,000张图片
- 12个来自4个国家的大都会区域
- 1,000,000条由1,100,000用户发布的提示
- 超过1,200,000条商业属性,如营业时间、停车、可用性和氛围
- 针对156,000个商家的累计签到数据
数据集分析
- 数据集分析包括对多个城市和都会区域的评论进行采样,以获取包含最多评论、用户和商家的样本。
- 未来的分析将集中在拉斯维加斯(美国)、菲尼克斯(美国)和多伦多(加拿大),因为这些地区包含最多的商家和用户信息。
相关研究
- 数据集已被用于多项研究,包括但不限于:
- 使用回归模型和情感分析预测未来商业关注度
- 利用潜在因子模型和LDA主题建模预测评分
- 分析顾客图中的中心性和聚类
- 使用基于图的特征改进商业评分预测
- 使用双元多项式朴素贝叶斯过采样预测Yelp评论星级分类
数据集挑战
- Yelp!于2014年开始“Yelp数据集挑战”,鼓励学生研究和分析数据。目前该挑战已进行到第10轮,使用2017年的更新数据。

ROBEL
ROBEL是一个开源的低成本机器人平台,专为现实世界的强化学习设计。该平台由谷歌研究院和加州大学伯克利分校共同开发,包含两个机器人:D'Claw,一个三指手机器人,用于促进精细操作任务的学习;D'Kitty,一个四足机器人,用于促进敏捷的腿式移动任务学习。这些模块化机器人易于维护且足够坚固,能够承受从零开始的硬件强化学习,目前已记录超过14000小时的训练时间。ROBEL提供了一系列连续控制基准任务,这些任务具有密集和稀疏的任务目标,并引入了硬件安全评分指标。数据集和相关材料可在www.roboticsbenchmarks.org访问,旨在解决强化学习在真实机器人上的应用问题,特别是在处理物理限制和环境交互方面的挑战。
arXiv 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
RAVDESS
情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。
OpenDataLab 收录