Water Quality|水质监测数据集|预测分析数据集
收藏数据集概述
数据集信息
- 数据集名称: Water Quality
- 数据来源: Kaggle
- 数据描述: 该数据集包含3276个不同水体的质量指标。数据包括水的pH值、硬度、电导率、浊度和可饮用性等属性,以及水中的污染物如固体、氯胺、硫酸盐、有机碳和三卤甲烷的含量。
- 数据集大小: 原始数据集包含3276行和10列。在处理缺失值后,剩余2011行用于分析。
- 数据集链接: Water Quality Dataset
数据集用途
- 项目目标: 该项目旨在通过机器学习模型预测水的硬度。使用Python开发的机器学习模型从数据集中提取特征,以预测水的硬度值。
- 应用模型: 项目中使用了四种预测模型:
- k-NN回归器
- 最小二乘线性回归器
- Lasso线性回归器
- 决策树
模型评估
- 评估指标: 使用均方根误差(RMSE)作为模型性能的评估指标。
- 结果: 最终模型的预测结果与实际测试数据的差异较大,预测值接近34 mg/L,而实际数据范围在73至317 mg/L之间。
项目开发
- 开发环境: 使用Python和scikit-learn库进行模型开发和评估。
- 数据处理: 数据集经过分割训练和测试,并使用GridSearchCV进行超参数优化。
开发者
- Gabriel Martins Sousa 作为 Haryell Marino
- Maria Clara Macedo Lelis 作为 Olive Solace
- Yasmin Barbosa Shimizu 作为 Ebony Vitrum

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国车牌识别数据集(7类,33万张)
这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。
魔搭社区 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录