Water Quality|水质监测数据集|预测分析数据集
收藏数据集概述
数据集信息
- 数据集名称: Water Quality
- 数据来源: Kaggle
- 数据描述: 该数据集包含3276个不同水体的质量指标。数据包括水的pH值、硬度、电导率、浊度和可饮用性等属性,以及水中的污染物如固体、氯胺、硫酸盐、有机碳和三卤甲烷的含量。
- 数据集大小: 原始数据集包含3276行和10列。在处理缺失值后,剩余2011行用于分析。
- 数据集链接: Water Quality Dataset
数据集用途
- 项目目标: 该项目旨在通过机器学习模型预测水的硬度。使用Python开发的机器学习模型从数据集中提取特征,以预测水的硬度值。
- 应用模型: 项目中使用了四种预测模型:
- k-NN回归器
- 最小二乘线性回归器
- Lasso线性回归器
- 决策树
模型评估
- 评估指标: 使用均方根误差(RMSE)作为模型性能的评估指标。
- 结果: 最终模型的预测结果与实际测试数据的差异较大,预测值接近34 mg/L,而实际数据范围在73至317 mg/L之间。
项目开发
- 开发环境: 使用Python和scikit-learn库进行模型开发和评估。
- 数据处理: 数据集经过分割训练和测试,并使用GridSearchCV进行超参数优化。
开发者
- Gabriel Martins Sousa 作为 Haryell Marino
- Maria Clara Macedo Lelis 作为 Olive Solace
- Yasmin Barbosa Shimizu 作为 Ebony Vitrum

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
长江干流实时水位观测数据集(2024年)
该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。
国家地球系统科学数据中心 收录