Yelp Open Dataset|用户评价数据集|商业数据分析数据集
收藏Yelp DataSet 概述
数据集内容
- 数据来源:Yelp Open Dataset,直接由Yelp提供。
- 数据规模:覆盖约700万条评论,涉及约150,000家位于美国特定大都市区的企业。
- 数据文件:包含五个JSON文件,分别是:
- business.json:包含企业数据,如位置、属性和类别。
- review.json:包含完整的评论文本数据,包括撰写评论的用户ID和评论针对的企业ID。
- user.json:包含用户数据,包括用户的朋友映射和所有与用户相关的元数据。
- checkin.json:记录企业的签到情况。
- tip.json:包含用户对企业撰写的提示,通常比评论短,传达快速建议。
- photo.json:包含照片数据,包括标题和分类(如食物、饮料、菜单、内部或外部)。
数据集应用
- 主要用途:用于创建两个系统:
- 分类器:用于判断用户评论是否属于餐厅。
- 推荐器:为用户推荐与他们过去评分高的餐厅相似的餐厅。
数据准备
- 数据处理步骤:
- 将JSON文件转换为CSV格式。
- 筛选仅包含宾夕法尼亚州大都市区的企业数据。
- 处理Unicode字符和字符串清洗。
- 移除重复项和NaN值。
- 使用“类别”特征标记包含“餐厅”的企业。
数据集限制
- 数据筛选:项目中使用的数据集被限制在约34,000家企业,约160万条评论,主要关注免费文本字段进行分析。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
Internet Traffic Data (CAIDA)
该数据集包含了互联网流量的详细记录,包括IP地址、流量大小、时间戳等信息。数据主要用于网络流量分析和研究。
www.caida.org 收录
Allen Brain Atlas
Allen Brain Atlas 是一个综合性的脑图谱数据库,提供了详细的大脑解剖结构、基因表达数据、神经元连接信息等。该数据集包括了小鼠、人类和其他模式生物的大脑数据,旨在帮助研究人员理解大脑的结构和功能。
portal.brain-map.org 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录