Microplastics in Drinking Water|水质监测数据集|塑料污染数据集
收藏数据集概述
数据集名称
- 数据集名称为“Microplastics in Drinking Water”,具体文件名为“Microplastics Sample Data (wide)”。
数据集来源
- 数据集由California State Water Resources Control Board发布,可通过以下链接获取:Microplastics in Drinking Water。
数据集内容
- 数据集每行代表一个水样记录,包含与该样本相关的信息。
- 主要关注的列包括:微塑料材料和类型(每种微塑料类型/材料及其在样本中的含量)、颜色、水龙头水与瓶装水、数据收集地点及其大致经纬度。
- 由于项目仅关注PE(聚乙烯)材料,其他“材料”列将被删除。
数据处理
- 原始数据集超过100列,经过筛选后,删除了少于40个值的列。
- 进一步处理包括删除不必要的列如Sample_ID,以及处理所有NAN或Present值。
- 部分来自中国水库和水存储位置的样本因值过高而被删除。
数据集使用方法
- 使用了随机森林、kNN回归和决策树回归模型进行预测。
- 模型评估显示,决策树回归模型表现最佳,但其预测能力受限于数据量和数据质量。
数据集局限性
- 数据集存在大量缺失值和数据类型不匹配的问题,经过清洗后可用样本数量有限(约60个样本)。
- 数据集自2022年7月21日起持续更新,但目前数据可靠性和规范性不足,限制了预测模型的准确性。
结论
- 尽管尝试了多种模型,但由于数据集的问题,未能提供基于微塑料含量的饮用水安全可靠预测。数据集仍需进一步完善和规范化。

典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录