Yelp Dataset|社交媒体评论数据集|机器学习数据集
收藏数据集概述
数据集内容
- 研究主题:主要集中在作者归属(Authorship Attribution)任务上,涉及文本分类和机器学习应用。
- 数据集用途:用于实验和研究,包括作者归属、情感分析和数据可视化。
数据集组成部分
-
学术研究:
- 提供了一篇研究论文,详细介绍了在Yelp数据集上进行的作者归属实验,并与先前的研究进行了比较。
- 论文链接:Authorship Attribution Yelp Reviews.pdf
-
教程:
- 提供了一个Jupyter Notebook教程,包含可运行的代码和清晰的解释,展示了分类任务的工作原理,并详细解释了每一步。
- 教程链接:Yelp Reviews - Authorship Attribution.ipynb
-
博客文章:
- 一篇关于如何通过评论文本预测Yelp星级评分的文章,涉及情感分析任务。
- 文章链接:Predicting Yelp Star Ratings
-
深度学习介绍:
- 一篇关于使用Keras进行Yelp评论分类的实践指南,展示了如何使用AWS云GPU实例训练模型,并将其用于实际任务。
- 文章链接:Practical Neural Networks with Keras
-
数据科学和数据可视化:
- 一篇介绍如何使用Python和AWS EC2实例对Yelp评论进行基本分析的博客文章,包括使用Matplotlib创建基本图表。
- 文章链接:Analyzing 4 Million Yelp Reviews
数据集使用建议
- 提供的代码用于论文中的实验,但由于结构和文档不完善,不建议作为学习资源。

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
China Groundgroundwater Monitoring Network
该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。
www.ngac.org.cn 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录