Yelp Dataset|本地商业数据集|数据分析数据集
收藏数据集概述
数据集来源
- 数据集来自Yelp!公司,该公司提供本地搜索、商业评级和评论以及在线食品配送服务。
- Yelp!采用众包模式,用户访问商家并发布其评论。
数据集内容
- 数据集包含以下内容:
- 4,700,000条评论
- 156,000个商家信息
- 200,000张图片
- 12个来自4个国家的大都会区域
- 1,000,000条由1,100,000用户发布的提示
- 超过1,200,000条商业属性,如营业时间、停车、可用性和氛围
- 针对156,000个商家的累计签到数据
数据集分析
- 数据集分析包括对多个城市和都会区域的评论进行采样,以获取包含最多评论、用户和商家的样本。
- 未来的分析将集中在拉斯维加斯(美国)、菲尼克斯(美国)和多伦多(加拿大),因为这些地区包含最多的商家和用户信息。
相关研究
- 数据集已被用于多项研究,包括但不限于:
- 使用回归模型和情感分析预测未来商业关注度
- 利用潜在因子模型和LDA主题建模预测评分
- 分析顾客图中的中心性和聚类
- 使用基于图的特征改进商业评分预测
- 使用双元多项式朴素贝叶斯过采样预测Yelp评论星级分类
数据集挑战
- Yelp!于2014年开始“Yelp数据集挑战”,鼓励学生研究和分析数据。目前该挑战已进行到第10轮,使用2017年的更新数据。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Agricultural Pests Dataset
Agricultural Pests Classification
kaggle 收录