five

ScatSpotter

收藏
arXiv2024-12-21 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.16473v1
下载链接
链接失效反馈
官方服务:
资源简介:
ScatSpotter是由基特韦尔公司创建的一个大型狗粪检测数据集,包含6648张高分辨率图像和4386个详细的多边形标注。数据集主要收集于2020年末,每月新增约1GB数据,适用于训练目标检测和分割模型。数据集通过“before/after/negative”协议收集,旨在解决公园和户外环境中狗粪自动检测的问题,支持自动化清洁和智能眼镜预警等应用。

ScatSpotter is a large-scale dog feces detection dataset developed by Kitwell Corporation. It contains 6,648 high-resolution images and 4,386 detailed polygon annotations. The dataset was primarily collected in late 2020, with approximately 1 GB of new data added monthly, and is suitable for training object detection and segmentation models. Collected via the "before/after/negative" protocol, it aims to address the problem of automatic dog feces detection in parks and outdoor environments, supporting applications such as automated cleaning and smart glasses-based early warning systems.
提供机构:
基特韦尔
创建时间:
2024-12-21
搜集汇总
数据集介绍
main_image_url
构建方式
ScatSpotter数据集的构建始于2020年底,主要通过研究人员在公共场所拍摄狗粪便的高分辨率图像,并采用“前后负”协议进行数据采集。具体而言,研究人员在发现狗粪便后,首先拍摄“前”图像,随后清理粪便并拍摄“后”图像,最后拍摄一张可能被误认为粪便的“负”图像。这种协议不仅增加了数据的多样性,还为后续的自动标注提供了辅助信息。图像标注主要借助AI辅助工具(如Segment Anything Model)进行,并通过人工审核确保标注的准确性。数据集以每月约1GB的速度持续增长,并通过集中式(Girder)和分布式(IPFS、BitTorrent)三种方式公开发布。
特点
ScatSpotter数据集是目前最大的公开狗粪便图像数据集,包含6,648张高分辨率图像和4,386个多边形标注。其特点在于图像分辨率高(4,032 × 3,024像素),且标注对象相对图像尺寸较小,增加了检测难度。数据集涵盖了多种环境条件(如雪地、雨天、晴天)和光照变化(白天与夜间),并包含大量具有挑战性的场景(如树叶、松果等干扰物)。此外,数据集采用多边形标注,适用于目标检测和分割任务,并通过“前后负”协议提供了丰富的负样本,有助于模型训练。
使用方法
ScatSpotter数据集主要用于训练和评估目标检测与分割模型,特别适用于研究单一类别的检测任务。用户可以通过集中式(Girder)或分布式(IPFS、BitTorrent)方式下载数据集,并利用提供的基线模型(如MaskRCNN和VIT)进行实验。数据集已划分为训练集、验证集和测试集,用户可直接使用这些划分进行模型训练与评估。此外,数据集还提供了详细的实验代码和模型权重,便于复现实验结果。用户可通过像素级或边界框级评估指标(如平均精度)来衡量模型性能,并探索数据集中的挑战性场景(如干扰物、遮挡等)对模型的影响。
背景与挑战
背景概述
ScatSpotter数据集由Kitware的研究员Jonathan Crall于2020年底开始构建,旨在为计算机视觉领域提供一种新的、专注于狗粪便检测的图像数据集。该数据集包含6,648张高分辨率手机图像和4,386个多边形标注,涵盖了多种环境条件下的狗粪便图像。数据集的主要研究问题是通过图像检测和定位狗粪便,以支持自动化废物处理、野生动物监测以及智能眼镜中的警告系统等应用。ScatSpotter的引入不仅为单类别目标检测和分割模型提供了一个具有挑战性的基准,还通过其“前后负”协议(BAN协议)为数据收集和标注提供了创新方法。该数据集的高分辨率和详细标注使其在相关领域中具有重要影响力,尤其是在垃圾检测和单类别目标识别方面。
当前挑战
ScatSpotter数据集在构建和应用过程中面临多重挑战。首先,狗粪便检测任务本身具有复杂性,主要体现在目标与背景的高度相似性(如树叶、泥土等干扰物)以及目标形态的多样性(如新旧粪便、健康与病态粪便的差异)。其次,数据集的构建过程中,图像对齐和标注的自动化处理遇到了困难,尽管使用了AI辅助标注工具(如SAM模型),但仍需大量手动调整,尤其是在阴影区域和复杂背景下的标注。此外,数据集的分布方式也带来了挑战,尽管采用了集中式(Girder)和去中心化(IPFS和BitTorrent)三种分发方式,但去中心化方法的访问速度较慢,尤其是在种子节点较少的情况下,数据获取效率显著降低。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
ScatSpotter数据集在计算机视觉领域中被广泛用于训练和评估目标检测与分割模型,特别是在处理具有挑战性的场景时,如复杂背景下的狗粪便检测。该数据集通过高分辨率图像和精确的多边形标注,为研究者提供了一个标准化的测试平台,用于探索模型在单一类别目标检测中的性能。
衍生相关工作
ScatSpotter数据集衍生了一系列相关研究工作,特别是在目标检测与分割领域。基于该数据集,研究者开发了多种基线模型,如MaskRCNN和VIT,并对其性能进行了详细评估。此外,该数据集还激发了关于数据分布方法的研究,如IPFS和BitTorrent的对比分析,为科学数据的开放共享提供了新的思路。这些工作不仅推动了计算机视觉技术的发展,也为其他领域的数据集构建与共享提供了参考。
数据集最近研究
最新研究方向
近年来,随着计算机视觉技术的快速发展,目标检测与分割任务在多个领域得到了广泛应用。ScatSpotter数据集的推出为狗粪便检测这一特定任务提供了高质量的训练和测试数据。该数据集不仅包含了高分辨率的图像,还通过多边形标注方式精确标记了粪便区域,为模型训练提供了丰富的细节信息。当前的研究方向主要集中在如何提升模型在复杂环境下的检测精度,特别是在存在树叶、泥土等干扰物的情况下。此外,数据集的分布式存储方式(如IPFS和BitTorrent)也为科学数据的共享与可重复性研究提供了新的思路。未来,随着数据集的不断扩展和优化,预计将在智能垃圾清理、野生动物监测等领域产生更广泛的应用。
相关研究论文
  • 1
    "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset基特韦尔 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作