ShitSpotter
收藏github2024-05-23 更新2024-05-31 收录
下载链接:
https://github.com/Erotemic/shitspotter
下载链接
链接失效反馈官方服务:
资源简介:
一个用于在图片中检测狗粪的开源算法和数据集。数据集包含35GB的户外图片,用于训练和检测图片中的狗粪。
An open-source algorithm and dataset designed for detecting dog feces in images. The dataset comprises 35GB of outdoor images, utilized for training and detecting dog feces within the images.
创建时间:
2021-11-12
原始信息汇总
数据集概述
数据集名称
- 名称: ShitSpotter
数据集目的
- 目的: 开发一种手机应用,用于检测和定位狗的排泄物,以及其他可能的应用,如增强现实眼镜提示避免踩到排泄物,或帮助城市政府更有效地清洁公共区域。
数据集内容
- 内容: 包含35GB的户外图像,主要由手机拍摄。数据收集过程包括拍摄排泄物前后的照片以及一张不同位置的低相关性负面照片。
数据集特点
- 特点:
- 图像多样性:包括季节变化、天气条件(雪、雨)、时间(白天、夜晚)、地面类型(草地、混凝土等)。
- 数据偏差:主要在纽约州拍摄,使用Pixel 5手机,视角受拍摄者身高影响。
数据集结构
- 结构:
- 目前数据集未标注,但计划使用kwcoco进行标注和数据清单管理。
- 数据集包含三种类型的图像:排泄物前的照片、排泄物后的照片、不同位置的低相关性负面照片。
数据集更新
- 更新记录:
- 2024-06-15: 小规模图像更新,正在撰写文档,训练新模型。
- 2024-05-21: 减慢发布周期,仍在以相同速率收集图像。
- 2024-03-30: 包含近期表现良好的模型。
- 2024-02-29: 计划将今年数据的1/3用于验证,下一次更新将有新的分割。
- 2024-02-22: 增加了集中式Girder下载链接,以提高数据的可访问性。
- 2024-01-31: 2024年的首次更新,新图像正在添加到验证分割中。
数据集下载
- 下载信息:
- 数据集通过IPFS公开托管,遵循“Creative Commons Attribution 4.0 International”许可。
- 最新数据集的IPFS CID为:
bafybeia44hiextgcpjfvglib66gxziaf7jkvno63p7h7fsqkxi5vpgpvay。
数据集统计
- 统计信息:
- 截至2021-12-30,收集了2088张图片,约728组前后(可能负面)图像。
- 截至2022-03-14,收集了2471张图片,约954组前后(可能负面)图像,其中658组通过匹配算法成功注册。
数据集可视化
- 可视化:
- 提供了空间/时间分布的散点图和图像收集随时间的累积图。
- 展示了数据集中9张包含排泄物的样本图像。
数据集偏差
- 偏差:
- 地理区域:大多数图像在纽约州拍摄。
- 传感器:大多数图像使用Pixel 5手机拍摄。
- 视角:图像视角受拍摄者身高影响。
- 新鲜度:处理的排泄物通常是新鲜的,但也有较老的样本。
搜集汇总
数据集介绍

构建方式
ShitSpotter数据集的构建过程始于对户外环境中狗粪的识别需求。数据集主要通过以下步骤采集:首先,当狗排便或发现遗留的粪便时,拍摄一张'before'照片;接着,清理粪便后拍摄一张'after'照片,作为高相关性的负样本;最后,拍摄一张不同区域的第三张照片,作为低相关性的负样本。每月定期更新数据,每次更新约增加1GB的数据量。大部分数据未进行分割多边形的标注,标注和数据清单的管理使用kwcoco工具。
特点
ShitSpotter数据集的特点在于其多样性和真实性。数据集包含各种户外环境下的图像,包括季节变化、天气条件、不同地面材质等。此外,数据集的采集过程确保了样本的高相关性和低相关性负样本的平衡,有助于训练更准确的检测模型。数据集的开放性和多渠道分发方式(如IPFS、BitTorrent)也增强了其可访问性和可持续性。
使用方法
ShitSpotter数据集主要用于训练和验证狗粪检测算法。用户可以通过IPFS或BitTorrent下载数据集,并使用提供的预训练模型进行进一步的模型训练或直接应用于图像检测。数据集的开放许可(CC BY 4.0)允许广泛的研究和应用,包括开发手机应用、增强现实眼镜检测功能,甚至城市管理部门的公共区域清洁优化。
背景与挑战
背景概述
ShitSpotter数据集由Erotemic于2020年12月18日创建,旨在解决户外环境中狗粪检测的问题。该数据集的核心研究问题是如何利用深度学习技术开发一款能够识别狗粪的手机应用,以帮助用户快速定位并清理狗粪。数据集的构建主要依赖于作者的个人努力,通过拍摄狗粪的‘前’、‘后’及‘无关’图片来构建训练数据。截至2023年11月17日,数据集已包含足够的标注数据用于模型训练,且已成功训练出基线模型。该数据集不仅对宠物主人具有实际应用价值,还可能被城市管理部门用于公共区域的清洁管理。
当前挑战
ShitSpotter数据集面临的主要挑战包括:1) 数据收集的复杂性,需要精确捕捉狗粪的‘前’、‘后’及‘无关’场景,以确保数据的高相关性;2) 数据标注的困难,大部分数据集尚未进行详细的分割多边形标注,这增加了模型训练的难度;3) 数据分布的不均衡,由于大部分图片拍摄于纽约州北部,数据集在地理和环境条件上存在显著偏差,这可能影响模型的泛化能力;4) 技术实现的挑战,如如何在手机等移动设备上高效运行深度学习模型,以实现实时检测。
常用场景
经典使用场景
ShitSpotter数据集的经典使用场景主要集中在开发能够检测户外环境中狗粪的算法。这一应用场景不仅限于个人使用,如帮助狗主人快速定位狗粪以便清理,还可以扩展到城市管理领域,如帮助城市清洁部门更高效地识别和清理公共区域中的狗粪。此外,该数据集还可用于增强现实(AR)眼镜的开发,以提醒用户避免踩到狗粪。
解决学术问题
ShitSpotter数据集解决了计算机视觉领域中一个具体且实际的问题,即户外环境中狗粪的自动检测。这一问题的解决不仅有助于提升城市环境卫生,还为相关学术研究提供了宝贵的数据资源。通过训练和验证深度学习模型,该数据集为研究者提供了一个独特的平台,以探索和改进图像识别技术在复杂户外环境中的应用。
衍生相关工作
ShitSpotter数据集的发布和应用已经激发了一系列相关研究和工作。例如,有研究者利用该数据集开发了基于深度学习的狗粪检测模型,并将其应用于智能手机应用程序中。此外,城市管理部门也开始探索如何利用这些技术提升公共区域的清洁效率。未来,该数据集可能还会被用于开发更复杂的图像识别系统,以应对更多样化的户外环境挑战。
以上内容由遇见数据集搜集并总结生成



