MP-fragment-ESWA-dataset
收藏Hugging Face2026-05-20 更新2026-05-21 收录
下载链接:
https://huggingface.co/datasets/andreusv/MP-fragment-ESWA-dataset
下载链接
链接失效反馈官方服务:
资源简介:
MP-fragment-ESWA-dataset 是一个专门用于计算机视觉的数据集,旨在训练和评估深度学习模型,以在高度复杂的真实世界环境中检测和分割微塑料(MP)碎片。该数据集包含2010张经过标注的高分辨率图像,捕捉了污泥处理的不同阶段,图像采集自西班牙瓦伦西亚一个运营中的污水处理厂(WWTP)的污泥线。标注包括边界框和多边形分割掩码,支持单阶段检测器、两阶段框架和基础模型。数据集通过提供在复杂有机背景下的碎片图像(而非理想实验室条件),解决了环境监测中的一个关键空白。数据收集涉及严格的化学处理流程:样品经过氧化(使用H2O2)、过滤(使用5µm孔径的醋酸纤维素滤膜)和干燥(60°C)处理。图像使用连接LAS X1软件的Leica S APO Zoom 80:10x立体显微镜采集,放大倍率为42x、32x、20x和16x,每张图像的右上角都嵌入了比例尺。数据集以Hugging Face DatasetDict形式提供,包含预定义的训练集(1406个样本)、验证集(302个样本)和测试集(302个样本)划分。每个样本包含两个主要特征:image(解码后的视觉表示,原始为3840x2160像素的JPG图像)和objects(一个包含地面实况标注的序列,结构化为字典,包含COCO标准格式的边界框[xmin, ymin, width, height]、多边形分割掩码点[x0, y0, ..., xn, yn]、类别标签和面积计算)。探索性数据分析显示,50%的图像恰好包含一个碎片,90%的图像包含四个或更少的碎片;数据集捕捉了广泛的碎片尺度,大多数实例的边界框相对面积占图像总面积的30%。使用注意事项包括:标注由专业人员手动完成,区分高度降解的塑料与周围碎片涉及主观判断;数据集专门针对微塑料碎片,其他形态(如合成纤维)代表性不足或完全排除;仅基于此数据集训练的模型在部署到不同地理来源(如海洋环境)或不同化学处理流程的样本时需要谨慎评估。
MP-fragment-ESWA-dataset is a computer vision dataset specifically designed for training and evaluating deep learning models to detect and segment microplastic (MP) fragments in highly complex real-world environments. It contains 2010 annotated high-resolution images capturing different stages of sludge treatment, collected from the sludge line of an operational wastewater treatment plant (WWTP) in Valencia, Spain. Annotations include bounding boxes and polygon segmentation masks, supporting one-stage detectors, two-stage frameworks, and foundational models. The dataset addresses a critical gap in environmental monitoring by providing images of fragments in complex organic backgrounds rather than ideal laboratory conditions. Data collection involves rigorous chemical processing: samples undergo oxidation (using H2O2), filtration (using cellulose acetate filters with 5µm pore size), and drying (at 60°C). Images are acquired using a Leica S APO Zoom 80:10x stereomicroscope connected to LAS X1 software, at magnifications of 42x, 32x, 20x, and 16x, with a scale bar embedded in the upper right corner of each image. The dataset is provided in Hugging Face DatasetDict format with predefined splits: training set (1,406 samples), validation set (302 samples), and test set (302 samples). Each sample includes two main features: image (a decoded visual representation, originally JPG images of 3840x2160 pixels) and objects (a sequence of ground truth annotations structured as dictionaries, containing bounding boxes [xmin, ymin, width, height] in COCO standard format, polygon segmentation mask points [x0, y0, ..., xn, yn], category labels, and area calculations). Exploratory data analysis shows that 50% of images contain exactly one fragment, and 90% contain four or fewer fragments; the dataset captures a wide range of fragment scales, with most instances having bounding boxes covering about 30% of the total image area. Usage notes include: annotations are manually done by professionals with subjective judgment in distinguishing highly degraded plastics from surrounding debris; the dataset is specific to microplastic fragments, with other forms (e.g., synthetic fibers) underrepresented or excluded; models trained solely on this dataset should be carefully evaluated when deployed to samples from different geographic sources (e.g., marine environments) or with different chemical processing protocols.
创建时间:
2026-05-18
搜集汇总
数据集介绍

构建方式
MP-fragment-ESWA-dataset的构建源于对污水处理厂污泥处理过程中微塑料碎片监测的现实需求。数据采集自西班牙瓦伦西亚一座运行中的污水处理厂的污泥线,样本经过严格的化学前处理流程:首先以过氧化氢进行氧化以消解有机质,随后通过醋酸纤维素膜过滤分离碎片,并经过烘干处理。最终利用体视显微镜在不同放大倍数下拍摄高分辨率图像,形成了包含2010张标注图片的数据集。
使用方法
数据集以HuggingFace DatasetDict格式组织,预划分为训练集、验证集和测试集,分别包含1406、302和302个样本。用户可通过加载Parquet文件直接使用,数据结构中image字段提供解码后的图像,objects字段包含每个碎片的边界框坐标、分割掩码多边形点集、类别标签及面积信息。值得注意的是,该数据集专为微塑料碎片场景设计,对于其他形态如纤维状微塑料覆盖不足,且标注依赖于人工判断,模型在不同地理区域或化学处理条件下的泛化能力需谨慎评估。
背景与挑战
背景概述
MP-fragment-ESWA-dataset 是由西班牙瓦伦西亚某运营污水处理厂的研究团队于近年创建的一个专门面向微塑料碎片检测与分割的计算机视觉数据集。该数据集包含2010张高分辨率图像,涵盖了污泥处理各阶段的复杂环境,旨在为单阶段检测器、两阶段框架及基础模型提供训练与评估基准。其核心研究问题在于突破传统实验室条件下微塑料检测的局限,推动深度学习在环境监测领域的实际应用。通过在真实世界有机质背景中标注微塑料碎片,该数据集填补了当前环境视觉数据分析的空白,对提升微塑料污染自动化监测能力具有显著影响力。
当前挑战
该数据集面临的核心挑战包括领域问题与构建困难。在领域层面,传统微塑料检测依赖人工目视或简单图像处理,难以应对污泥中高浓度有机质背景对碎片的遮挡与混淆,亟需鲁棒的自动检测与分割算法以应对复杂环境。在数据集构建中,为从污泥样品中分离微塑料碎片,团队需严格采用H2O2氧化、过滤及干燥等化学预处理步骤,耗时较长且操作复杂;同时,高分辨率图像的标注依赖专业人员对碎片与降解塑料的主观辨识,导致标注存在一定偏差,而碎片形态的多样性与少数样本包含多个实例的特点也增加了标注一致性的难度。
常用场景
经典使用场景
该数据集专为微塑料片段检测与分割任务而设计,在复杂环境背景下的目标识别领域具有典范意义。经典使用场景聚焦于利用深度学习方法,在污水处理污泥这类富含有机质的真实世界图像中,自动定位和精确分割微塑料片段。研究者可借助该数据集提供的边界框与多边形分割标注,训练单阶段检测器、两阶段框架乃至基础模型,实现对微塑料这一新兴环境污染物从图像中高效且精准的感知。这一过程对于推动计算机视觉技术在微观环境污染物监测中的应用具有引领性价值。
解决学术问题
该数据集解决了环境科学与计算机视觉交叉领域的一项核心学术难题:如何在有机背景高度复杂、微塑料形态多样且尺度不一的情况下,实现可靠的自动化检测与分割。此前研究多依赖理想实验室条件下的图像,无法应对实际污泥样品中掩蔽效应严重、碎片模糊的挑战。该数据集通过严苛的化学前处理流程获取高质量图像,并配以精细标注,系统性地填补了真实场景下微塑料视觉感知研究的数据空白,为发展鲁棒的细粒度目标检测与实例分割算法提供了关键基准。
实际应用
在实际应用层面,该数据集赋能了污水处理厂中微塑料污染监测的自动化进程。废水处理设施可部署基于此数据集训练的模型,对污泥处理流程各阶段中的微塑料碎片进行实时或近实时的定量分析与特征统计,大幅降低传统人工显微计数的人力成本与主观误差。此外,该技术亦可迁移至淡水湖泊、海洋沉积物等水体环境中的微塑料快速筛查,服务于全球塑料污染溯源、生态风险评估及环境法规的合规性监管,具有显著的生态保护与公共卫生意义。
数据集最近研究
最新研究方向
MP-fragment-ESWA-dataset聚焦于污水处理厂污泥中微塑料碎片的检测与分割,当前该领域前沿方向集中于利用深度学习模型在高度复杂有机背景下实现高精度实例分割与目标检测,结合COCO格式标注与多尺度图像数据,推动环境监测从实验室理想条件向真实工业场景迁移。该数据集的出现恰逢全球对微塑料污染及其生态风险的关注升温,其提供的2010张高分辨率多源标注图像,结合氧化、过滤、干燥等化学预处理流程,为训练鲁棒性更强的单一阶段、两阶段检测器乃至基础模型提供了稀缺资源。研究意义在于弥补了现有数据集在污泥处理环境中的空白,促进自动化微塑料识别系统在实际污水处理厂部署,从而支持全球减塑政策与循环经济战略的量化评估。
以上内容由遇见数据集搜集并总结生成



