five

Microplastics in Drinking Water

收藏
github2024-02-24 更新2024-05-31 收录
下载链接:
https://github.com/Br-ak/Data_Wranglers_Microplastics_Dataset_Project
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集记录了饮用水中的微塑料情况,每行数据代表一个水样记录,包含微塑料材料和类型、颜色、水源类型(自来水或瓶装水)以及采集地点的经纬度等信息。数据集主要关注聚乙烯(PE)材料,用于预测不同地理位置的PE水平。

This dataset documents the presence of microplastics in drinking water, with each row representing a water sample record. It includes details such as the material and type of microplastics, color, source type (tap water or bottled water), and the latitude and longitude of the collection site. The dataset primarily focuses on polyethylene (PE) materials, aiming to predict PE levels across different geographical locations.
创建时间:
2024-02-22
原始信息汇总

数据集概述

数据集名称

  • 数据集名称为“Microplastics in Drinking Water”,具体文件名为“Microplastics Sample Data (wide)”。

数据集来源

数据集内容

  • 数据集每行代表一个水样记录,包含与该样本相关的信息。
  • 主要关注的列包括:微塑料材料和类型(每种微塑料类型/材料及其在样本中的含量)、颜色、水龙头水与瓶装水、数据收集地点及其大致经纬度。
  • 由于项目仅关注PE(聚乙烯)材料,其他“材料”列将被删除。

数据处理

  • 原始数据集超过100列,经过筛选后,删除了少于40个值的列。
  • 进一步处理包括删除不必要的列如Sample_ID,以及处理所有NAN或Present值。
  • 部分来自中国水库和水存储位置的样本因值过高而被删除。

数据集使用方法

  • 使用了随机森林、kNN回归和决策树回归模型进行预测。
  • 模型评估显示,决策树回归模型表现最佳,但其预测能力受限于数据量和数据质量。

数据集局限性

  • 数据集存在大量缺失值和数据类型不匹配的问题,经过清洗后可用样本数量有限(约60个样本)。
  • 数据集自2022年7月21日起持续更新,但目前数据可靠性和规范性不足,限制了预测模型的准确性。

结论

  • 尽管尝试了多种模型,但由于数据集的问题,未能提供基于微塑料含量的饮用水安全可靠预测。数据集仍需进一步完善和规范化。
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由加州水资源控制委员会发布,数据来源于全球范围内的饮用水样本。每个样本记录包含微塑料材料类型、颜色、水源类型(如自来水或瓶装水)以及采样地点的经纬度信息。在数据预处理阶段,研究者剔除了与聚乙烯(PE)无关的材料列,并删除了缺失值较多的列,以确保数据的完整性和相关性。此外,部分来自中国水库和水储存地点的样本因数值异常也被移除,以避免对模型预测产生干扰。
特点
该数据集聚焦于饮用水中的微塑料污染,特别是聚乙烯(PE)的含量。数据涵盖了多样化的地理区域和水源类型,提供了丰富的微塑料类型和颜色信息。然而,数据集中存在大量缺失值和不一致的数据类型,导致最终可用的样本数量有限。尽管数据量较小,但其地理编码信息为研究微塑料污染的分布和趋势提供了重要参考。
使用方法
该数据集可用于预测饮用水中聚乙烯(PE)的含量,并分析其与地理位置的关系。研究者采用了随机森林回归、k近邻回归和决策树回归等多种模型进行预测。在使用时,建议首先对数据进行清洗,剔除缺失值和不相关列,然后根据研究目标选择合适的模型进行训练和测试。尽管当前数据量有限,但随着数据集的更新和扩展,未来有望提高预测的准确性和实用性。
背景与挑战
背景概述
随着全球范围内微塑料污染的日益严重,饮用水中的微塑料含量已成为一个备受关注的科学问题。由加州水资源控制委员会于2022年7月发布的‘Microplastics in Drinking Water’数据集,旨在通过地理坐标、微塑料类型及尺寸等数据,预测饮用水中聚乙烯(PE)的含量。该数据集由Megan Aleman、Michelle Brown、Severin Light和Nathan Simpson等研究人员共同构建,其核心研究问题在于探索微塑料污染的地理分布及其对饮用水安全的影响。该数据集为全球范围内的微塑料污染研究提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
尽管‘Microplastics in Drinking Water’数据集在微塑料污染研究中具有重要价值,但其构建与应用过程中仍面临诸多挑战。首先,数据集中存在大量缺失值和不一致的数据类型,导致有效样本数量大幅减少,最终仅剩约60个可用样本,严重限制了模型的预测能力。其次,数据集中部分样本(如来自中国水库的样本)的异常值对模型训练产生了干扰,需进一步清洗和标准化处理。此外,尽管决策树回归模型在预测聚乙烯含量方面表现相对较好,但由于数据量不足,其预测结果仍缺乏实际应用价值。未来,数据集的更新与完善将是提升其科学价值的关键。
常用场景
经典使用场景
在环境科学与公共卫生领域,'Microplastics in Drinking Water'数据集被广泛应用于研究饮用水中微塑料的分布与浓度。通过分析不同地理位置的水样数据,研究人员能够识别微塑料污染的热点区域,并探讨其来源与传播路径。该数据集的使用为全球范围内的水质监测提供了重要依据,特别是在评估聚乙烯(PE)等特定微塑料材料的污染水平方面。
实际应用
在实际应用中,'Microplastics in Drinking Water'数据集为政府机构与非营利组织提供了科学依据,用于制定水质改善政策与公众健康干预措施。例如,通过分析数据集中的微塑料浓度,相关部门可以优先治理污染严重的区域,并推广更安全的饮用水处理技术。此外,该数据集还为公众教育提供了支持,帮助提高人们对微塑料污染问题的认识。
衍生相关工作
基于该数据集,多项相关研究得以展开,包括微塑料污染的地理分布模式分析、微塑料与有害化学物质的相互作用研究,以及机器学习模型在环境预测中的优化探索。这些研究不仅深化了对微塑料污染的理解,还为开发更高效的水质监测技术提供了理论支持。此外,数据集的使用还促进了跨学科合作,推动了环境科学与数据科学的融合发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作