MarkP1929/mill-st-imgs
收藏Hugging Face2024-06-19 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/MarkP1929/mill-st-imgs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从英国Macclesfield的River Bollin拍摄的图像,用于任何想要使用典型真实世界数据集进行计算机视觉机器学习开发的人。数据集高度不平衡,包含约60,000张图片,其中仅有约50张图片标记为污染事件(正类)。所有图片均为224x224像素的JPG格式,文件名基于Unix时间戳。数据集的文件结构包括一个存放所有图片的`imgs/`目录和一个列出污染事件图片文件名的`pollution_incidents.txt`文件。数据集的目的是训练一个能够实时识别污染事件的机器学习模型,建议使用异常检测技术。
This dataset contains images captured from the River Bollin in Macclesfield, UK, intended for anyone wanting to practice computer vision machine learning development using a typical real-world dataset. The dataset is highly imbalanced, containing approximately 60,000 images, with only about 50 images labeled as pollution incidents (positive class). All images are in 224x224 pixel JPG format, with filenames based on Unix timestamps. The datasets file structure includes a directory `imgs/` containing all image files and a `pollution_incidents.txt` file listing the filenames of images with observed pollution incidents. The primary goal of the dataset is to train a machine learning model capable of identifying pollution incidents in real-time, and anomaly detection techniques are recommended.
提供机构:
MarkP1929
原始信息汇总
River Bollin Pollution Detection Dataset
概述
该数据集包含从英国麦克尔斯菲尔德的Bollin河拍摄的图像,旨在为希望使用典型真实世界数据集进行计算机视觉机器学习开发的人员提供实践机会。数据集的目标是部署模型以实时识别污染事件。数据集高度不平衡。
数据集描述
- 总图像数: 约60,000张
- 污染事件图像(正类): 约50张
- 图像尺寸: 224x224像素
- 文件格式: JPG
- 文件名约定: 文件名基于Unix时间戳,指示每张图像的拍摄时间。
文件结构
imgs/- 包含所有图像文件的目录。pollution_incidents.txt- 列出包含观察到的污染事件(正类)图像文件名的文本文件。
目的
该数据集的主要目标是训练一个能够实时识别污染事件的机器学习模型。鉴于数据集的不平衡性,建议使用异常检测技术。
入门指南
理解数据集
- 图像: 位于
imgs/目录中。每张图像为224x224像素的JPG文件。 - 污染事件列表:
pollution_incidents.txt文件包含观察到污染事件的图像文件名。
模型训练
建议:
- 探索卷积神经网络(CNN)用于图像分类。
- 使用异常检测技术处理不平衡问题。
评估
使用适当的指标评估模型性能。由于数据集不平衡,考虑使用精度、召回率和F1分数等指标。
许可证
该数据集在开放许可证下提供,您可以自由使用、修改和分发。更多详情请访问Open License。



