Microplastics in Drinking Water|水质监测数据集|塑料污染数据集

github2024-02-24 更新2024-05-31 收录

水质监测

塑料污染

下载链接：

https://github.com/Br-ak/Data_Wranglers_Microplastics_Dataset_Project

下载链接

链接失效反馈

资源简介：

该数据集记录了饮用水中的微塑料情况，每行数据代表一个水样记录，包含微塑料材料和类型、颜色、水源类型（自来水或瓶装水）以及采集地点的经纬度等信息。数据集主要关注聚乙烯（PE）材料，用于预测不同地理位置的PE水平。

This dataset documents the presence of microplastics in drinking water, with each row representing a water sample record. It includes details such as the material and type of microplastics, color, source type (tap water or bottled water), and the latitude and longitude of the collection site. The dataset primarily focuses on polyethylene (PE) materials, aiming to predict PE levels across different geographical locations.

创建时间：

2024-02-22

原始信息汇总

数据集概述

数据集名称

数据集名称为“Microplastics in Drinking Water”，具体文件名为“Microplastics Sample Data (wide)”。

数据集来源

数据集由California State Water Resources Control Board发布，可通过以下链接获取：Microplastics in Drinking Water。

数据集内容

数据集每行代表一个水样记录，包含与该样本相关的信息。
主要关注的列包括：微塑料材料和类型（每种微塑料类型/材料及其在样本中的含量）、颜色、水龙头水与瓶装水、数据收集地点及其大致经纬度。
由于项目仅关注PE（聚乙烯）材料，其他“材料”列将被删除。

数据处理

原始数据集超过100列，经过筛选后，删除了少于40个值的列。
进一步处理包括删除不必要的列如Sample_ID，以及处理所有NAN或Present值。
部分来自中国水库和水存储位置的样本因值过高而被删除。

数据集使用方法

使用了随机森林、kNN回归和决策树回归模型进行预测。
模型评估显示，决策树回归模型表现最佳，但其预测能力受限于数据量和数据质量。

数据集局限性

数据集存在大量缺失值和数据类型不匹配的问题，经过清洗后可用样本数量有限（约60个样本）。
数据集自2022年7月21日起持续更新，但目前数据可靠性和规范性不足，限制了预测模型的准确性。

结论

尽管尝试了多种模型，但由于数据集的问题，未能提供基于微塑料含量的饮用水安全可靠预测。数据集仍需进一步完善和规范化。

AI搜集汇总

数据集介绍

构建方式

该数据集由加州水资源控制委员会发布，数据来源于全球范围内的饮用水样本。每个样本记录包含微塑料材料类型、颜色、水源类型（如自来水或瓶装水）以及采样地点的经纬度信息。在数据预处理阶段，研究者剔除了与聚乙烯（PE）无关的材料列，并删除了缺失值较多的列，以确保数据的完整性和相关性。此外，部分来自中国水库和水储存地点的样本因数值异常也被移除，以避免对模型预测产生干扰。

特点

该数据集聚焦于饮用水中的微塑料污染，特别是聚乙烯（PE）的含量。数据涵盖了多样化的地理区域和水源类型，提供了丰富的微塑料类型和颜色信息。然而，数据集中存在大量缺失值和不一致的数据类型，导致最终可用的样本数量有限。尽管数据量较小，但其地理编码信息为研究微塑料污染的分布和趋势提供了重要参考。

使用方法

该数据集可用于预测饮用水中聚乙烯（PE）的含量，并分析其与地理位置的关系。研究者采用了随机森林回归、k近邻回归和决策树回归等多种模型进行预测。在使用时，建议首先对数据进行清洗，剔除缺失值和不相关列，然后根据研究目标选择合适的模型进行训练和测试。尽管当前数据量有限，但随着数据集的更新和扩展，未来有望提高预测的准确性和实用性。

背景与挑战

背景概述

随着全球范围内微塑料污染的日益严重，饮用水中的微塑料含量已成为一个备受关注的科学问题。由加州水资源控制委员会于2022年7月发布的‘Microplastics in Drinking Water’数据集，旨在通过地理坐标、微塑料类型及尺寸等数据，预测饮用水中聚乙烯（PE）的含量。该数据集由Megan Aleman、Michelle Brown、Severin Light和Nathan Simpson等研究人员共同构建，其核心研究问题在于探索微塑料污染的地理分布及其对饮用水安全的影响。该数据集为全球范围内的微塑料污染研究提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

尽管‘Microplastics in Drinking Water’数据集在微塑料污染研究中具有重要价值，但其构建与应用过程中仍面临诸多挑战。首先，数据集中存在大量缺失值和不一致的数据类型，导致有效样本数量大幅减少，最终仅剩约60个可用样本，严重限制了模型的预测能力。其次，数据集中部分样本（如来自中国水库的样本）的异常值对模型训练产生了干扰，需进一步清洗和标准化处理。此外，尽管决策树回归模型在预测聚乙烯含量方面表现相对较好，但由于数据量不足，其预测结果仍缺乏实际应用价值。未来，数据集的更新与完善将是提升其科学价值的关键。

常用场景

经典使用场景

在环境科学与公共卫生领域，'Microplastics in Drinking Water'数据集被广泛应用于研究饮用水中微塑料的分布与浓度。通过分析不同地理位置的水样数据，研究人员能够识别微塑料污染的热点区域，并探讨其来源与传播路径。该数据集的使用为全球范围内的水质监测提供了重要依据，特别是在评估聚乙烯（PE）等特定微塑料材料的污染水平方面。

实际应用

在实际应用中，'Microplastics in Drinking Water'数据集为政府机构与非营利组织提供了科学依据，用于制定水质改善政策与公众健康干预措施。例如，通过分析数据集中的微塑料浓度，相关部门可以优先治理污染严重的区域，并推广更安全的饮用水处理技术。此外，该数据集还为公众教育提供了支持，帮助提高人们对微塑料污染问题的认识。

衍生相关工作

基于该数据集，多项相关研究得以展开，包括微塑料污染的地理分布模式分析、微塑料与有害化学物质的相互作用研究，以及机器学习模型在环境预测中的优化探索。这些研究不仅深化了对微塑料污染的理解，还为开发更高效的水质监测技术提供了理论支持。此外，数据集的使用还促进了跨学科合作，推动了环境科学与数据科学的融合发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取；气象实测数据从气象站获取，气象站建于电站30号箱变附近，每5分钟将采集的数据通过光纤传输到机房；数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统（包括30TF计算刀片机、250TB并行存储）进行中尺度模式计算后输出预报产品，每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录